Новость из категории: Информация

Linux-порт CuneiForm

Содержание:
1. Предисловие;
2. Оптическое распознавание текста;
3. CuneiForm в наши дни;
4. Linux-порт CuneiForm (Вы читаете данный раздел).
Linux-порт CuneiForm

«Воз и ныне там» - можно ответить словами басни, только отнюдь не по вине лебедя, рака и щуки. Но касается это, пожалуй, лишь Windows-версии, которую в самом деле с 2009 года не обновляли. Вне форумов и официального сайта OpenOcr, существует Linux-порт CuneiForm: https://launchpad.net/cuneiform-linux. Над ним работали те самые энтузиасты, которых не испугали ни словари, ни угасание интереса к проекту со стороны компании-родителя: люди просто увлеклись и делали дело, но... до мая сего года. Интерес всё же угас и здесь - проект ищет maintained.

Однако сам Cuneiform для Linux работает. И собирается из исходника без каких-либо затруднений. Правда, если у вас не установлены заголовочные файлы ImageMagick, то входные изображения, понимаемые CuneiForm, должны быть в строго определенном формате: 24-битном BMP без альфа-канала (то есть RRGGBB, а не AARRGGBB; в GIMP при сохранении можно указать, что нужно). Если не использовать графический фронтэнд, то запуск CuneiForm из командной строки осуществляется примерно так:
$ cuneiform -f text -l ruseng -o test.txt имя test.bmp

В этом примере мы пытаемся распознать смешанный, русско-английский текст из файла test.bmp и записать его в файл test.txt.

Linux-порт CuneiForm
Qt-интерфейс к CuneiForm

Чем больше шрифт и DPI, тем лучше текст распознается. При плохих (для CuneiForm) исходниках, он часто путает «ы» и «в», «м» и «н», «э» и «з», «к» и «н».

Сторонние проекты: Linux-порт, фронтэнды с далеко идущими задумками, - развивались отдельно. Точнее, о развитии Linux-порта можно говорить как о приспособлении исходника к программной среде Linux (и работа была проведена поистине титаническая!). Дело в том, что новые функции не появлялись, а восполнение «полной» функциональности CuneiForm почти не продвигалось. Так, компания-родитель не открыла код распознавания таблиц, и никто новый код для этого не написал. Но велись работы по приведению исходника в порядок и по созданию графических интерфейсов. Например, в рамках проекта Linux-порта, до весны сего года включительно, Сергей Полтавский развивал свой GUI, тоже на основе Qt.

Однако к лету 2011 года проект оказался остановленным всюду. На сайте Linux-порта ищут нового ведущего и в пустоту сообщают об ошибках. Сайт OpenOCR (http://openocr.org/) воодушевляет новостями за 2009 год, когда еще многие полны надежд. При попытке скачивания CuneiForm оттуда происходит перенаправление на сайт Cognitive Forms, где сообщается о коммерческом продукте Cognitive Forms, и уж затем даются ссылки для скачивания CuneiForm. Сборки Linux-порта есть в некоторых хранилищах дистрибутивов - например, в Си-зифусе или Ubuntu.

Стоит отметить, что CuneiForm - это идеальный инструмент для распознавания как простых текстовых документов, так и сложных буклетов с сантехникой в москве (http://www.santech.maxlevel.ru), где присутствует множество сносок, фотографий и различных текстовых форматов.

Заключение

Linux-порт CuneiForm

Подхватит ли кто-то ведение исходника и появятся ли новые энтузиасты, которые займутся развитием проекта? Хотелось бы думать, что да, но одного моего «хотения» для этого мало. Проект был бы жизнеспособен, если бы во время его запуска выполнились несколько другие стартовые условия: открытие кода именно под GPL, что привлекло бы большое количество программистов; документирование формата словарей; более широкая информационная поддержка сообщества со стороны «родителя», хотя бы на первых порах.

Если мы посмотрим на современные технологии оптического распознавания текста (с открытым кодом), то увидим, что наиболее активно развиваются либо GPL-проекты, либо денежно поддерживаемые кем-либо, в частности Tesseract (под патронажем Google). Открытость исходников - безразлично, под какой лицензией - позволяет увидеть, как работает та или иная технология. Конечно, иногда проще взять готовый код и использовать его, но, увы, это «иногда» не сработало в случае CuneiForm.

Рейтинг статьи

Оценка
5/5
голосов: 1
Ваша оценка статье по пятибальной шкале:
 
 
   

Поделиться

Похожие новости

Комментарии

^ Наверх