Cuneiforme

Cuneiforme
Tipo de reconocimiento óptico de caracteres
Autor Tecnologías cognitivas
Desarrolladores Equipo CuneiForm-Linux
Escrito en C , C++
Interfaz línea de comando
Sistema operativo Linux , Mac OS X y otros similares a UNIX
Primera edición 1996
ultima versión 1.1.0 (19 de abril de 2011 [1] )
Formatos de archivo generados HOCR
Estado abandonado
Licencia Licencia similar a BSD de Cognitive Technologies [2]
Sitio web launchpad.net/cuneiform-…

CuneiForm ( eng.  cuneiform , cuneiform  - cuneiform ), Cognitive OpenOCR  es un sistema abierto de reconocimiento óptico de texto distribuido gratuitamente por la empresa rusa Cognitive Technologies .

OCR CuneiForm fue desarrollado por Cognitive Technologies como producto comercial en 1993. El sistema se suministró con los modelos más populares de escáneres, MFP y software en Rusia y el mundo: Corel Draw, Hewlet-Packard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti, etc. En 2008, Cognitive Technologies abrió los códigos fuente para OCR Cunei Form.

Características

CuneiForm se posiciona como un sistema para convertir copias electrónicas de documentos en papel y archivos gráficos en un formato editable con la capacidad de conservar la estructura y tipo de letra del documento original en modo automático o semiautomático. El sistema incluye dos programas para el procesamiento único y por lotes de documentos electrónicos.

Lista de idiomas soportados por el sistema:

Además, se admite una combinación de ruso e inglés. El reconocimiento de mezclas de otros idiomas solo se admite en una rama desarrollada por Andrey Borovsky en 2009 [3] . Enseñar otros idiomas es difícil debido a la conexión de cada idioma con un archivo dat, cuya estructura y método de obtención no fueron revelados por los desarrolladores.

Historia

1993  : Cognitive Technologies firmó un contrato OEM con la corporación canadiense Corel Corporation , según el cual la biblioteca de reconocimiento cognitivo está integrada en el popular paquete de publicación Corel Draw 3.0 (y versiones posteriores). [cuatro]

1994  : se firmó un contrato con Hewlett-Packard para el conjunto completo de escáneres suministrados a Rusia por OCR CuneiForm. Este es el primer contrato de HP con un desarrollador de software ruso. [5] [6] [7] [8]

1995  : se firmó un contrato con la corporación japonesa Epson para el conjunto completo de escáneres OCR CuneiForm. [9] Se firmó un contrato OEM con el fabricante más grande del mundo de máquinas de fax, impresoras láser, escáneres y otros equipos de oficina: Brother Corporation. Según el acuerdo, el nuevo escáner de rodillos Brother IC-150 estará equipado con el software Cognitive para escaneo y reconocimiento en todo el mundo.

1996  - Se firmó un contrato OEM con uno de los mayores fabricantes del mundo de monitores, máquinas de fax, impresoras láser, dispositivos multifuncionales y otros equipos de oficina: Samsung Information Systems America. [10] Según el acuerdo, el nuevo dispositivo multifuncional Samsung OFFICE MASTER OML-8630A se venderá con el sistema de reconocimiento óptico de caracteres Cognitive Cuneiform LE en todo el mundo.

El reconocimiento adaptativo  es un método basado en una combinación de dos tipos de algoritmos de reconocimiento de caracteres imprimibles: basados ​​en fuentes (multifuentes) e independientes de fuentes (omnifuentes). El sistema genera una fuente interna para cada documento de entrada, en base a caracteres bien impresos, es decir, se utiliza ajuste dinámico (adaptación) a caracteres de entrada específicos. Por lo tanto, el método combina la versatilidad y la capacidad de fabricación del enfoque sin fuentes y la alta precisión del reconocimiento de fuentes, lo que permite mejorar radicalmente la calidad del reconocimiento.

1997  - El sistema CuneiForm fue el primero en utilizar tecnologías basadas en redes neuronales. Los algoritmos que utilizan redes neuronales para el reconocimiento de caracteres se construyen de la siguiente manera. La imagen del carácter (ráster) que viene para el reconocimiento se reduce a un cierto tamaño estándar (normalizado). Los valores de brillo en los nodos del ráster normalizado se utilizan como parámetros de entrada de la red neuronal. El número de parámetros de salida de la red neuronal es igual al número de caracteres reconocibles. El resultado del reconocimiento es el símbolo que corresponde al mayor de los valores del vector de salida de la red neuronal.

1999

2001  - Se firma un contrato OEM para completar los equipos fabricados por Canon (escáneres, dispositivos multifuncionales) con el software Cognitive Technologies (OCR CuneiForm) en Europa del Este.

El 12 de diciembre de 2007, se lanzó una versión gratuita de OCR CuneiForm y se anunció su código fuente [15] . [16] [17]

El 2 de abril de 2008, el código fuente OCR de Cuneiform se publicó bajo una licencia BSD [18] y, en otoño, el código fuente de la interfaz del sistema [19] .

La última versión de OpenSource para Windows no se ha actualizado desde febrero de 2009.

En 2009, se lanzaron interfaces gráficas para la versión abierta de Cuneiform basadas en la biblioteca Qt 4  : Cuneiform-Qt [20] , YAGF . Desde la versión 0.9.0 [21], la versión Linux de código abierto se puede utilizar como un archivo .

Interfaces gráficas para CuneiForm

Véase también

Notas

  1. Puerto de Cuneiform para Linux. . Consultado el 22 de julio de 2008. Archivado desde el original el 20 de mayo de 2011.
  2. Texto de la licencia. Archivado desde el original el 19 de marzo de 2012.
  3. ~anb-symmetrica/cuneiform-linux/cuneiform-multilang: revisión 400
  4. Hecho en Rusia (enlace inaccesible) . Consultado el 6 de diciembre de 2016. Archivado desde el original el 27 de junio de 2013. 
  5. ↑ Los escáneres HP " legítimos " aprenderán a leer ruso
  6. Escáneres HP con marca CuneiForm . Fecha de acceso: 6 de diciembre de 2016. Archivado desde el original el 20 de diciembre de 2016.
  7. Hewlett-Packard presenta nuevos productos en Moscú . Archivado el 16 de abril de 2014 en Wayback Machine , Algonet .
  8. HP y Cognitive profundizan su asociación . Archivado el 20 de diciembre de 2016 en Wayback Machine , PCweek.
  9. Mundo PC. Perlas del software ruso . Consultado el 29 de noviembre de 2016. Archivado desde el original el 16 de abril de 2014.
  10. Samsung selecciona OCR de Cognitive Technology para dispositivos todo en uno Archivado el 20 de diciembre de 2016 en Wayback Machine , PCweek, 10/09/1996
  11. Los dispositivos multifuncionales de Vladimir Mitin Canon han adquirido una nueva copia de archivo de calidad con fecha del 20 de diciembre de 2016 en Wayback Machine , PCweek, 12/05/1998
  12. Vladimir Mitin La Canon -Cognitive Technologies Alliance se está desarrollando con éxito
  13. Cognitive Technologies y OKI pisan el acelerador. Archivado el 20 de diciembre de 2016 en Wayback Machine , PCweek.
  14. Marketing informal de HP . Archivado el 20 de diciembre de 2016 en Wayback Machine , Computer World.
  15. OCR CuneiForm: el primer proyecto industrial de código abierto en el campo del reconocimiento . Archivado el 25 de mayo de 2011.
  16. El sistema ruso de reconocimiento de texto CuneiForm se abrirá Copia de archivo fechada el 20 de diciembre de 2016 en Wayback Machine Сybersecurity, 06/12/2007
  17. Devoluciones de CuneiForm Archivado el 20 de diciembre de 2016 en Wayback Machine , Computerworld, 24/12/2007
  18. Código OCR cuneiforme de fuente abierta de Cognitive Technologies (enlace descendente) . Consultado el 4 de abril de 2011. Archivado desde el original el 11 de noviembre de 2009. 
  19. Cognitive Technologies Open Cuneiform OCR Code Archivado el 19 de abril de 2011.
  20. Cuneiforme-Qt . Consultado el 9 de abril de 2009. Archivado desde el original el 12 de abril de 2009.
  21. ↑ Lanzamiento de Cuneiform Linux 0.9.0 . Fecha de acceso: 8 de febrero de 2010. Archivado desde el original el 26 de enero de 2014.

Enlaces