Оптическое распознавание символов
Матеріал з Вікі ЦДУ
Оптическое распознавание текста — перевод последовательности изображений символа в последовательность кодов, использующихся для представления в текстовом редакторе. Перевод осуществляется с помощью различных алгоритмов, после преобразования изображения в набор элементарных точек.
Программы распознавания
Название | Лицензия | Операционные системы | Заметки |
---|---|---|---|
ExperVision TypeReader & RTK | Коммерческая | Windows,Mac OS X,Unix,Linux,OS/2 | Получала высокие оценки в начале 1990-х. |
ABBYY FineReader | Коммерческая, собственническая | Windows; Linux, Mac OS (не для конечного потребителя) | Для работы с различными языками требуется поддержка соответствующего языка. |
OmniPage | Коммерческая (Nuance EULA) | Windows, Mac OS | Производство Nuance Communications |
Readiris | Коммерческая | Windows, Mac OS | Производство бельгийской I.R.I.S. Group. Содержит региональные пакеты для распознавания азиатских языков и языков среднего востока. |
Persian Reader | Коммерческая | Windows | Специальзируется на персидском языке (фарси). |
Kirtas Technologies Arabic OCR | Коммерческая | Windows | Может распознавать арабские и английские символы на одной странице. |
Zonal OCR | Коммерческая | Windows | Zonal OCR помогает автоматизировать извлечение данных из компьютерных изображений. |
ViewWise компании Computhink | Коммерческая | Windows | Система управления документами |
CuneiForm | BSD | Windows (с GUI), Linux, Mac OS, FreeBSD (CLI) | Промышленная, многоязычная система, умеет сохранять форматирование текста и распознаёт запутанные таблицы произвольной структуры |
GOCR | GPL | Кросс-платформенная | В начальной стадии разработки |
Microsoft Office Document Imaging | Коммерческая | Windows, Mac OS X | |
Microsoft Office OneNote 2007 | Коммерческая | Windows | |
NovoDynamics VERUS | Коммерческая | ? | Специализируется на языках среднего востока |
Ocrad | GPL | Unix-like, OS/2 | |
Brainware | Коммерческая | Windows | Извлечение данных из документов и их обработка; например счета, извещения, накладные и платёжки |
HOCR | GPL | Linux | Распознавание текстов на иврите |
OCRopus | Apache | Linux | Расширяемая система распознавания, которая может использовать Tesseract |
ReadSoft | Коммерческая | Windows | Сканирование, распознавание и классификация деловых бумаг например договоров, счетов и платёжных поручений. |
RelayFax Network Fax Manager компании Alt-N Technologies |
Коммерческая | Windows | Многоязычная система используется для преобразования факсов в доступные для правки форматы документов (doc, pdf, и т.д…). |
Scantron Cognition | Коммерческая | Windows | Для работы с различными языками требуется поддержка соответствующего языка. |
SILVERCODERS OCR Server | Коммерческая | Linux | Серверная многоязыковая система, имеет высокое качество распознавания, может сохранять форматирование текста и распознаёт запутанные таблицы произвольной структуры |
SimpleOCR | Freeware and commercial versions | Windows | |
SmartScore | Коммерческая | Windows, Mac OS | Для распознавания нотной записи |
Tesseract | Apache | Windows, Mac OS X, Linux, OS/2 | Разрабатывается компанией Google |
WeOCR | MIT/X Consortium | Интерфейс: Браузер; Сервер: POSIX, Unix | Платформа для браузерных систем распознавания символов. Страница проекта: WeOCR |
img2txt | Коммерческая, собственническая | Интерфейс: Браузер; Сервер: POSIX, Linux | Online OCR сервис позволяет распознать многоязыковой текст из сканированного документа или фотографии. Конвертирует результат в редактируемые форматы (RTF, TXT, HTML). |