Продукты для промышленной оцифровки документов Марченко
Рынок систем ввода документов можно разделить на пять основных секторов:
- Продукты для персонального ввода документов.
- Продукты для промышленного ввода документов.
- Продукты для ввода форм.
- Продукты для промышленного ввода форм.
- Гибридные комплексные решения.
На российском рынке промышленные системы ввода документов представлены решениями компании Kofax. Компания Kofax специализируется на системах ввода документов для проектов малых и средних масштабов. Основные отличительные особенности технологии — это мощные системы поддержки сканирования и обработки изображений, возможность встраивания дополнительных модулей, возможность работы через Интернет.
Kofax предлагает следующие семейства продуктов.
ПО для ввода документов и данных под маркой Ascent Capture
Ascent Capture предназначен для потоковой обработки сканируемых документов и извлечения данных. Максимальный эффект от применения этой системы отмечается при ежесуточных объемах поступления новых документов — от 1000 до 100 тыс. страниц в сутки и более. Ascent Capture позволяет сканировать большие объемы форм и документов и преобразовывать их в изображения, затем индексирует их, так что в дальнейшем они легко могут быть экспортированы в указанную СУБД, использованы в системе управления документами различных производителей.
Использование Ascent Capture позволяет снизить расходы на операции ввода документов за счет использования технологий пакетной обработки, улучшения качества изображений, оптического распознавания текста и обеспечения интеграции с системами управления документами и бизнес-процессами.
Архитектура DDI (Document-Data-Internet) позволяет использовать Ascent Capture для распределенного ввода по Интернету. Данное решение дает возможность применять недорогие станции сканирования, которые могут быть разбросаны по всему миру и соединяются с центральным сервером по Интернету. Эта технология обеспечивает возможность решения сезонных проблем с рабочей силой, 24-часовой режим работы и увеличение мощности систем при пиковых нагрузках.
Kofax специализируется именно на промышленных системах ввода документов, и несмотря на то, что компания реализует полный цикл ввода, включая распознавание текстов, нельзя сказать, что в области OCR она занимает лидирующие позиции. Именно поэтому в Ascent Capture используется встраиваемый модуль распознавания ABBYY FineReader. Встроенный модуль предоставляет возможность полнотекстового распознавания печатных документов, обеспечивает возможность ввода индексных полей (в том числе рукописных), экспорт в PDF, HTML, RTF, TXT, а также поддержку 176 языков распознавания.
Ascent Capture поставляется с 1995 года и на сегодняшний день является наиболее широко используемым в мире приложением для промышленного ввода — свыше 6 тыс. пользователей в 2 тыс. организаций по всему миру. Цена на Ascent Capture варьируется в интервале от 895 долл. до 14 тыс. долл. за лицензию.
В России дистрибьютором Kofax является компания «Весть-Метатехнология», которая выполняет локализацию продукта и обеспечивает его техническую поддержку. Недавно компания «Весть-Метатехнология» завершила локализацию программного продукта Ascent Capture 5.5 с применением OCR-технологий компании ABBYY. Ascent Capture работает с системами документооборота таких производителей, как Documentum, Hummingbird, IBM, Microsoft, и со многими другими. Именно возможности сопряжения Ascent Capture с продуктами сторонних фирм представляют особый интерес для потенциальных клиентов в России.
Новая версия программного продукта Ascent Capture содержит усовершенствованные средства администрирования системы. Расширены возможности модуля импорта данных в формате XML.
Оборудование для сканирования и обработки изображений под марками Adrenaline и VRS
Продукты Adrenaline и VRS предназначены для того, чтобы повысить качество изображений документов, получаемых с высокоскоростных промышленных сканеров.
Контроллеры Adrenaline устанавливаются в слот PCI в любом стандартном PC под управлением Windows и соединяются с высокоскоростным сканером.
VRS (VirtualReScan) — это OEM-продукт, который устанавливается в сканер и позволяет получать изображения более высокого качества. В результате значительно снижается стоимость операции ввода за счет уменьшения ручного труда.
Adrenaline и VRS поддерживают практически все популярные имиджинг-системы для ввода документов, включая продукты фирм Kofax, IBM, FileNET, Optika, Cardiff, Captiva, Microsystems, Datacap, icomXpress и многих других компаний.
Цены на контроллеры Adrenaline — от 1395 до 3595 долл.
В настоящее время компания Cognitive Technologies разрабатывает собственное решение в области промышленного ввода документов. Планируется, что оно будет обладать теми же функциональными возможностями, что и решения Kofax, при более доступной цене.
ABBYY FormReader, основанный на технологии FineReader, обеспечивает высокую степень распознавания печатных символов, меток и штрих-кодов. Уровень корректного распознавания рукописных символов достигает по ряду проектов 98%, в зависимости от качества заполнения. Автоматический контроль результатов распознавания с помощью проверок по словарям и базам данных обеспечивает высокую корректность информации.
ABBYY FormReader позволяет легко настраиваться на новые формы. Создание шаблона, в соответствии с которым будет обрабатываться форма, происходит в редакторе, который не требует навыков программирования. Использование ABBYY FormReader, установленного на один компьютер, позволяет ежедневно вводить от 500 до 1000 страниц, в зависимости от сложности формы и аппаратной конфигурации.
Процедура создания шаблона формы в большинстве случаев достаточно проста. Программа позволяет создать до 99 различных шаблонов форм на один пакет, то есть ABBYY FormReader способен различить и идентифицировать в едином потоке указанное число форм.
Процедура ввода документа включает следующие этапы: вначале производится сканирование незаполненной формы. Затем система находит такие элементы форм, как линии, текст, повторяющийся на всех формах, штрих-коды, что позволяет избежать их ручного выделения.
Далее пользователь указывает поля, которые должны содержать текст для распознавания, и для каждого из этих полей определяет колонку в таблице базы данных, соответствующую этому полю.
На следующем этапе определяются языки распознавания, типы данных для полей и правила контроля. ABBYY FormReader предлагает большое число готовых правил контроля, которые позволяют гарантировать правильность ввода информации.
Система Cognitive Forms
Cognitive Forms обладает основными возможностями ABBYY FormReader, а также включает возможность обрабатывать различные типы форм в одном потоке и позволяет осуществлять автоматическую проверку корректности данных.
Cognitive Forms также может обрабатывать различные типы форм в одном потоке и осуществлять автоматическую проверку корректности данных.
В системе реализована уникальная функция Drag&Recog, которая существенно упрощает процедуру распознавания для пользователя. Для этого пользователю нужно лишь с помощью мыши выделить требуемый фрагмент отсканированного документа и перетащить его в поле распознавания.
В программный комплект Cognitive Forms входит отдельный модуль «Дизайнер форм», с помощью которого пользователь сам может создавать формы документов, задавать описания полей и варианты контекстных проверок. Таким образом система позволяет не только обрабатывать формы, но и создавать их.
В новой версии системы, вышедшей в апреле текущего года, реализована возможность единовременной обработки не только бумажных, но и электронных форм документов в форматах HTML и PDF. На сегодняшний день это единственная российская система, позволяющая осуществлять подобную операцию. Это значительно расширяет функциональные возможности системы, разрешая осуществлять сбор и обработку документов как посредством сканирования бумажных копий, так и через Интернет. В настоящее время большая часть корпоративных участников российского рынка перешла на одновременное использование как бумажных, так и электронных форм документов, и поэтому появление подобной системы крайне актуально.
Корпоративная система Cognitive Forms установлена более чем в 400 российских организациях, в числе которых Пенсионный фонд РФ, Газпром, Сбербанк РФ, Газпромбанк. К настоящему моменту с помощью системы было обработано более 100 млн. различных документов.
В этом секторе также можно указать решения на базе вышеописанных технологий CuneiForm и ABBYY FormReader, которые адаптированы для промышленного использования, а также для систем потокового сканирования и распределенной обработки.
Например, система Cognitive Forms, установленная в Пенсионном фонде, ежедневно обрабатывает около 50 тыс. различных документов. При необходимости возможности системы позволяют обрабатывать до миллиона документов в день.
Работа системы включает потоковое сканирование, сортировку и контроль качества изображения, автоматическое распознавание, верификацию, экспорт в базу данных.
Гибридные комплексные решения
В данном секторе можно выделить решение InputAccel компании ActionPoint. Приобретя компанию Captiva, компания ActionPoint получила мощное комплексное решение, включая развитые средства ввода форм. Решение фирмы ActionPoint достаточно широко применяется в мире, однако мало распространено в России. Поэтому охарактеризуем его очень кратко: мощная система для проектов среднего и крупного масштаба, которая обладает соответствующими встроенными средствами разработки, а также средствами поддержки распределенной работы и кластеризации на серверах.