CuneiForm

Из Википедии, бесплатной энциклопедии

CuneiForm
Тип оптическое распознавание символов
Автор Cognitive Technologies
Разработчик команда CuneiForm-Linux
Написана на C, C++
Интерфейс командная строка
Операционные системы Linux, Mac OS X и др. UNIX-подобные
Первый выпуск 1996
Последняя версия 1.1.0 (2011-04-19[1])
Состояние заброшенное
Лицензия BSD-подобная лицензия Cognitive Technologies[2]
Сайт launchpad.net/cuneiform-…

CuneiForm (англ. cuneiform, кьюниформ — клинопись), Cognitive OpenOCR — свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

OCR CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт в 1993 году. Система поставлялась с наиболее популярными моделями сканеров, МФУ и ПО в России и мире: Corel Draw, Hewlet-Packard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti и др. В 2008 году Cognitive Technologies открыла исходные коды OCR CuneiForm.

Особенности

[править | править код]

CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов.

Список языков, поддерживаемых системой:

Кроме того, поддерживается смесь русского и английского языка. Распознавание смесей других языков поддерживается только в ветке, разработанной Андреем Боровским в 2009 году[3]. Обучение другим языкам затруднительно ввиду связи каждого языка с dat-файлом, структура и способ получения каковых разработчиками не раскрывались.

1993 год — Cognitive Technologies заключила OEM-контракт с канадской корпорацией Corel Corporation, по которому библиотека распознавания Cognitive встроена в популярный издательский пакет Corel Draw 3.0 (и последующие версии).[4]

1994 год — Заключен контракт с Hewlett-Packard по комплектации сканеров, поставляемых в Россию OCR CuneiForm. Это первый контракт HP с российским разработчиком ПО.[5][6][7][8]

1995 год — Заключен контракт с японской корпорацией Epson о комплектации сканеров OCR CuneiForm.[9] Подписан OEM-контракт с крупнейшим мировым производителем факсимильных аппаратов, лазерных принтеров, сканеров и другого офисного оборудования — Brother Corporation. Согласно договору новый роликовый сканер Brother IC-150 будет комплектоваться программным обеспечением Cognitive для сканирования, распознавания по всему миру.

1996 год — Подписан ОЕМ-контракт с одним из крупнейших мировых производителей мониторов, факсимильных аппаратов, лазерных принтеров, многофункциональных устройств и другого офисного оборудования — Samsung Information Systems America.[10] Согласно договору новое многофункциональное устройство Samsung OFFICE MASTER OML-8630A будет продаваться в комплекте с системой оптического распознавания символов Cognitive Cuneiform LE по всему миру.

  • Подписан ОЕМ-контракт с ведущим мировым производителем офисного оборудования компанией Xerox о комплектации многофункциональных устройств Xerox 3006 и Pro-610 системой распознавания CuneiForm.
  • Выпущена версия OCR CuneiForm '96, в которой впервые в мире применены алгоритмы адаптивного распознавания.

Адаптивное распознавание — метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, то есть используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, метод совмещает универсальность и технологичность бесшрифтового подхода и высокую точность распознавания шрифтового, что позволяет кардинальным образом повысить качество распознавания.

1997 год — В системе CuneiForm впервые применены технологии, основанные на нейронных сетях. Алгоритмы, использующие нейронные сети для распознавания символов, строятся следующим образом. Поступающее на распознавание изображение символа (растр) приводится к некоторому стандартному размеру (нормализуется). Значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети. Число выходных параметров нейронной сети равняется числу распознаваемых символов. Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.

  • Подписан новый ОЕМ-контракт с компанией Canon на комплектацию многофункциональных устройств, поставляемых в Россию, системой CuneiForm;[11][12]
  • Подписан новый ОЕМ-контракт с компанией OKI Europe Limited на комплектацию многофункциональных устройств OKI FAX 4100 и OKI FAX 5200, поставляемых в Россию, системой CuneiForm;[13]
  • Выход первой в мире OCR-системы CuneiForm MMX Update для процессора Intel-MMX;[14]
  • Сканеры NeuHaus комплектуются системой распознавания CuneiForm;
  • Выход первой в России системы сетевого сканирования CuneiForm 98 NeST.

1999 год

  • Подписан новый ОЕМ-контракт с компанией Olivetti на комплектацию многофункциональных устройств поставляемых в Россию системой CuneiForm;
  • Заключено дистрибуторское соглашение с ведущим европейским дистрибутором ПО компанией WSKA (Франция) на распространение OCR Cuneiform Direct в Европе;
  • Вышла новая версия системы распознавания CuneiForm 2000 в которой реализован метод "Когнитивного анализаТМ: внутрь ядра распознавания встроена экспертная система, которая позволяет проводить анализ оценок альтернатив, получаемых на выходе от каждого алгоритма распознавания, и выбирать оптимальный вариант.
  • Разработан метод «Меридианной сегментации таблиц» для повышения точности воссоздания исходной формы таблицы в выходном документе;
  • Разработан механизм воссоздания формы исходного документа «What you scan is what you get». Дело в том, что до настоящего времени пользователи систем распознавания тратили достаточное количество времени (которое часто превышало время самого сканирования и распознавания) для придания документу его исходной формы, добиваясь того, чтобы каждый фрагмент находился на нужном месте. Особенно это касается документов со сложной топологией: многоколончатые тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами, и т. д.

2001 год — Подписан OEM-контракт о комплектации оборудования, производимого компанией Canon (сканеры, многофункциональные устройства), программным обеспечением Cognitive Technologies (OCR CuneiForm) на территории стран Восточной Европы.

12 декабря 2007 года была выпущена freeware-версия OCR CuneiForm и анонсировано открытие её исходных текстов[15].[16][17]

2 апреля 2008 года были опубликованы исходные тексты OCR Cuneiform под лицензией BSD[18], а осенью — исходные тексты интерфейса системы[19].

Последняя версия OpenSource версии для Windows не обновлялась с февраля 2009.

В 2009 году выпущены графические интерфейсы к открытой версии Cuneiform на основе библиотеки Qt 4 — Cuneiform-Qt[20], YAGF. Начиная с версии 0.9.0[21] открытую версию для Linux можно использовать в качестве библиотеки.

Примечания

[править | править код]
  1. Порт Cuneiform для Linux. Дата обращения: 22 июля 2008. Архивировано 20 мая 2011 года.
  2. Текст лицензии. Архивировано 19 марта 2012 года.
  3. ~anb-symmetrica/cuneiform-linux/cuneiform-multilang : revision 400
  4. Сделано в России. Дата обращения: 6 декабря 2016. Архивировано из оригинала 27 июня 2013 года.
  5. «Законные» сканеры HP научатся читать по-русски Архивная копия от 16 апреля 2014 на Wayback Machine, Коммерсант, 01.09.1994
  6. Cканеры HP под флагом CuneiForm. Дата обращения: 6 декабря 2016. Архивировано 20 декабря 2016 года.
  7. Hewlett-Packard presents new products in Moscow Архивная копия от 16 апреля 2014 на Wayback Machine, Algonet
  8. HP и Cognitive углубляют партнерство Архивная копия от 20 декабря 2016 на Wayback Machine, PCweek
  9. Мир ПК. Жемчужины российского ПО. Дата обращения: 29 ноября 2016. Архивировано 16 апреля 2014 года.
  10. Samsung выбрал OCR фирмы Cognitive Technology для комплектации многофункциональных устройств Архивная копия от 20 декабря 2016 на Wayback Machine, PCweek, 10.09.1996
  11. Владимир Митин Многофункциональные аппараты Canon обрели новое качество Архивная копия от 20 декабря 2016 на Wayback Machine,PCweek, 12.05.1998
  12. Владимир Митин Альянс компаний Canon — Cognitive Technologies развивается успешно Архивная копия от 20 декабря 2016 на Wayback Machine, PCweek, 29.02.2000
  13. Cognitive Technologies и OKI жмут на газ Архивная копия от 20 декабря 2016 на Wayback Machine, PCweek
  14. Неформальный маркетинг HP Архивная копия от 20 декабря 2016 на Wayback Machine, Computer World
  15. OCR CuneiForm — первый промышленный Open Source проект в области распознавания Архивировано 25 мая 2011 года.
  16. Российская система распознавания текстов CuneiForm станет открытой Архивная копия от 20 декабря 2016 на Wayback MachineСybersecurity, 06.12.2007
  17. CuneiForm возвращается Архивная копия от 20 декабря 2016 на Wayback Machine, Computerworld, 24.12.2007
  18. Cognitive Technologies открыла код OCR Cuneiform. Дата обращения: 4 апреля 2011. Архивировано из оригинала 11 ноября 2009 года.
  19. Cognitive Technologies открыла код OCR Cuneiform Архивировано 19 апреля 2011 года.
  20. Cuneiform-Qt. Дата обращения: 9 апреля 2009. Архивировано 12 апреля 2009 года.
  21. Cuneiform Linux 0.9.0 is released. Дата обращения: 8 февраля 2010. Архивировано 26 января 2014 года.