Оптическое распознавание символов
Матеріал з Вікі ЦДУ
Оптическое распознавание текста — перевод последовательности изображений символа в последовательность кодов, использующихся для представления в текстовом редакторе. Перевод осуществляется с помощью различных алгоритмов, после преобразования изображения в набор элементарных точек.
Программы распознавания
| Название | Лицензия | Операционные системы | Заметки |
|---|---|---|---|
| ExperVision TypeReader & RTK | Коммерческая | Windows,Mac OS X,Unix,Linux,OS/2 | Получала высокие оценки в начале 1990-х. |
| ABBYY FineReader | Коммерческая, собственническая | Windows; Linux, Mac OS (не для конечного потребителя) | Для работы с различными языками требуется поддержка соответствующего языка. |
| OmniPage | Коммерческая (Nuance EULA) | Windows, Mac OS | Производство Nuance Communications |
| Readiris | Коммерческая | Windows, Mac OS | Производство бельгийской I.R.I.S. Group. Содержит региональные пакеты для распознавания азиатских языков и языков среднего востока. |
| Persian Reader | Коммерческая | Windows | Специальзируется на персидском языке (фарси). |
| Kirtas Technologies Arabic OCR | Коммерческая | Windows | Может распознавать арабские и английские символы на одной странице. |
| Zonal OCR | Коммерческая | Windows | Zonal OCR помогает автоматизировать извлечение данных из компьютерных изображений. |
| ViewWise компании Computhink | Коммерческая | Windows | Система управления документами |
| CuneiForm | BSD | Windows (с GUI), Linux, Mac OS, FreeBSD (CLI) | Промышленная, многоязычная система, умеет сохранять форматирование текста и распознаёт запутанные таблицы произвольной структуры |
| GOCR | GPL | Кросс-платформенная | В начальной стадии разработки |
| Microsoft Office Document Imaging | Коммерческая | Windows, Mac OS X | |
| Microsoft Office OneNote 2007 | Коммерческая | Windows | |
| NovoDynamics VERUS | Коммерческая | ? | Специализируется на языках среднего востока |
| Ocrad | GPL | Unix-like, OS/2 | |
| Brainware | Коммерческая | Windows | Извлечение данных из документов и их обработка; например счета, извещения, накладные и платёжки |
| HOCR | GPL | Linux | Распознавание текстов на иврите |
| OCRopus | Apache | Linux | Расширяемая система распознавания, которая может использовать Tesseract |
| ReadSoft | Коммерческая | Windows | Сканирование, распознавание и классификация деловых бумаг например договоров, счетов и платёжных поручений. |
| RelayFax Network Fax Manager компании Alt-N Technologies |
Коммерческая | Windows | Многоязычная система используется для преобразования факсов в доступные для правки форматы документов (doc, pdf, и т.д…). |
| Scantron Cognition | Коммерческая | Windows | Для работы с различными языками требуется поддержка соответствующего языка. |
| SILVERCODERS OCR Server | Коммерческая | Linux | Серверная многоязыковая система, имеет высокое качество распознавания, может сохранять форматирование текста и распознаёт запутанные таблицы произвольной структуры |
| SimpleOCR | Freeware and commercial versions | Windows | |
| SmartScore | Коммерческая | Windows, Mac OS | Для распознавания нотной записи |
| Tesseract | Apache | Windows, Mac OS X, Linux, OS/2 | Разрабатывается компанией Google |
| WeOCR | MIT/X Consortium | Интерфейс: Браузер; Сервер: POSIX, Unix | Платформа для браузерных систем распознавания символов. Страница проекта: WeOCR |
| img2txt | Коммерческая, собственническая | Интерфейс: Браузер; Сервер: POSIX, Linux | Online OCR сервис позволяет распознать многоязыковой текст из сканированного документа или фотографии. Конвертирует результат в редактируемые форматы (RTF, TXT, HTML). |