OCRFeeder

Из Википедии, бесплатной энциклопедии

OCRFeeder
Логотип программы OCRFeeder
Скриншот программы OCRFeeder
Тип оптическое распознавание символов
Автор Joaquim Rocha
Написана на Python
Интерфейс GTK+, командная строка
Операционные системы Linux и др. UNIX-подобные
Первый выпуск май 2009[1]
Последняя версия 0.8.1 (22 декабря 2014[2])
Репозиторий gitlab.gnome.org/GNOME/o…
Лицензия GNU GPL
Сайт wiki.gnome.org/ac… (англ.)
Логотип Викисклада Медиафайлы на Викискладе

OCRFeeder — программа, предоставляющая графический интерфейс пользователя для систем оптического распознавания символов CuneiForm, Tesseract, GOCR[англ.] и Ocrad[англ.]. OCRFeeder является свободно распространяемой программой для операционной системы Linux.

  • Графические форматы ввода данных: PNG, JPEG, BMP, TIFF, GIF, Portable anymap (PNM, PGM, PBM, PPM) и другие. Импорт PDF-файлов.
  • Форматы вывода данных: текстовый файл, ODT, HTML, PDF.
  • Обработка изображений для улучшения качества распознавания — фильтры шумов, чёрного цвета и оттенков серого; и другие виды обработок, доступных для Unpaper[3].
  • Ручное выделение блоков на странице.
  • Проверка орфографии.
  • Получение изображений со сканера посредством программы SANE.
  • Распознавание нескольких изображений по порядку за один проход (пакетное распознавание).

Используемые компоненты

[править | править код]
  • PIL — библиотека Python для работы с изображениями.
  • Unpaper — для обработки изображений.
  • ReportLab[4] — для импорта PDF-файлов.
  • PyGTK и Libgnome — для графического интерфейса.
  • PyeEnchant («привязка» Enchant[англ.] для Python) и PyGtkSpell («привязка» GtkSpell для Python) — для проверки орфографии.

Примечания

[править | править код]
  1. Устаревший репозиторий OCRFeeder. Дата обращения: 2 апреля 2012. Архивировано 15 апреля 2012 года.
  2. Репозиторий OCRFeeder. Дата обращения: 2 апреля 2012. Архивировано 25 июля 2012 года.
  3. Домашняя страница Unpaper. Архивировано 19 января 2012 года.
  4. Домашняя страница ReportLab. Дата обращения: 2 апреля 2012. Архивировано из оригинала 29 февраля 2012 года.

Литература

[править | править код]
  • Журнал Linux Format № 11 (150) Ноябрь 2011 — Тимур Мубаракшин рассматривает приложения OCR для Linux: Сuneiform-Qt, GOCR, Tesseract, OCRFeeder, ABBYY FineReader и YAGF.