Оптическое распознавание символов

Матеріал з Вікі ЦДУ
Перейти до: навігація, пошук

Оптическое распознавание текста  — перевод последовательности изображений символа в последовательность кодов, использующихся для представления в текстовом редакторе. Перевод осуществляется с помощью различных алгоритмов, после преобразования изображения в набор элементарных точек.


Программы распознавания

Название Лицензия Операционные системы Заметки
ExperVision TypeReader & RTK Коммерческая Windows,Mac OS X,Unix,Linux,OS/2 Получала высокие оценки в начале 1990-х.
ABBYY FineReader Коммерческая, собственническая Windows; Linux, Mac OS (не для конечного потребителя) Для работы с различными языками требуется поддержка соответствующего языка.
OmniPage Коммерческая (Nuance EULA) Windows, Mac OS Производство Nuance Communications
Readiris Коммерческая Windows, Mac OS Производство бельгийской I.R.I.S. Group. Содержит региональные пакеты для распознавания азиатских языков и языков среднего востока.
Persian Reader Коммерческая Windows Специальзируется на персидском языке (фарси).
Kirtas Technologies Arabic OCR Коммерческая Windows Может распознавать арабские и английские символы на одной странице.
Zonal OCR Коммерческая Windows Zonal OCR помогает автоматизировать извлечение данных из компьютерных изображений.
ViewWise компании Computhink Коммерческая Windows Система управления документами
CuneiForm BSD Windows (с GUI), Linux, Mac OS, FreeBSD (CLI) Промышленная, многоязычная система, умеет сохранять форматирование текста и распознаёт запутанные таблицы произвольной структуры
GOCR GPL Кросс-платформенная В начальной стадии разработки
Microsoft Office Document Imaging Коммерческая Windows, Mac OS X
Microsoft Office OneNote 2007 Коммерческая Windows
NovoDynamics VERUS Коммерческая  ? Специализируется на языках среднего востока
Ocrad GPL Unix-like, OS/2
Brainware Коммерческая Windows Извлечение данных из документов и их обработка; например счета, извещения, накладные и платёжки
HOCR GPL Linux Распознавание текстов на иврите
OCRopus Apache Linux Расширяемая система распознавания, которая может использовать Tesseract
ReadSoft Коммерческая Windows Сканирование, распознавание и классификация деловых бумаг например договоров, счетов и платёжных поручений.
RelayFax Network Fax Manager
компании Alt-N Technologies
Коммерческая Windows Многоязычная система используется для преобразования факсов в доступные для правки форматы документов (doc, pdf, и т.д…).
Scantron Cognition Коммерческая Windows Для работы с различными языками требуется поддержка соответствующего языка.
SILVERCODERS OCR Server Коммерческая Linux Серверная многоязыковая система, имеет высокое качество распознавания, может сохранять форматирование текста и распознаёт запутанные таблицы произвольной структуры
SimpleOCR Freeware and commercial versions Windows
SmartScore Коммерческая Windows, Mac OS Для распознавания нотной записи
Tesseract Apache Windows, Mac OS X, Linux, OS/2 Разрабатывается компанией Google
WeOCR MIT/X Consortium Интерфейс: Браузер; Сервер: POSIX, Unix Платформа для браузерных систем распознавания символов. Страница проекта: WeOCR
img2txt Коммерческая, собственническая Интерфейс: Браузер; Сервер: POSIX, Linux Online OCR сервис позволяет распознать многоязыковой текст из сканированного документа или фотографии. Конвертирует результат в редактируемые форматы (RTF, TXT, HTML).