Технологии потокового сканирования-распознавания
В связи с большим объемом данных, требующих ввода, возникает вопрос об автоматизации этого процесса. Наиболее оптимальным методом автоматизации является оптическое распознавание образов из готовых форм. При современном уровне развития технологий сканирования и распознавания образов можно довести скорость ввода до 100 000 листов за сутки при качестве автоматического распознавания 95-98%.Автоматическое распознавание данных позволяет избежать таких ошибок, как неправильный набор данных оператором, набор данных в неправильных полях формы, расхождение данных по формату. Довольно простым и прозрачным становится масштабирование системы. Так, повышение объема обработки на 1000 листов за сутки требует лишь оборудования еще одного рабочего места. Качество ввода информации перестает зависеть от человеческого фактора, скорость ввода легко прогнозируется и планируется.
Программное обеспечение, осуществляющее обработку и распознавание данных, отвечает следующим требованиям:
- гибкость и простота настройки на разнообразные типы форм;
- высокая скорость и качество распознавания;
- защита от несанкционированного доступа;
- контроль над операторами в процессе обработки;
- простота эксплуатации, программное обеспечение не требует высокой квалификации оператора;
- перекрестные проверки распознанных данных по словарям и базам данных;
- автоматический контроль сумм;
- простой и эффективный быстродействующий интерфейс к системе для соединения с базой данных;
- способность работать в условиях колебания объема ввода от единиц до нескольких тысяч листов.
Поскольку назначение подсистемы распознавания - обработка большого количества входящих форм, эта подсистема поддерживает такие возможности распределения операций, как:
- пакетная обработка данных, если формы объединяются в именованные пакеты, проходящие по стадиях обработки;
- централизованное администрирование комплекса;
- беспрерывный мониторинг процесса обработки, отдельных станций, операторов и задач;
- гибкая схема маршрутизации пакетов в системе;
- модульная архитектура для распределения операций;
- гибкое подстраивание под конкретную задачу;
- система очередей и прикрепления задач к конкретным операторам;
- защищенный доступ;
- хранилище обработанных пакетов;
- обработка форм сложной нелинейной структуры;
- контроль целостности данных;
- отчеты о рабочем состоянии комплекса.
Кроме того, подсистема распознавания имеет гибкий и мощный интерфейс взаимодействия с прикладными подсистемами для интеграции функций распознавания. Для этого используется один из распространенных механизмов автоматизации - OLE Automation или COM (DCOM) интерфейсы
