Teseracto

teseracto
Tipo de reconocimiento óptico de caracteres
Desarrolladores Hewlett-Packard , Google
Escrito en C++
Interfaz línea de comando
Sistema operativo Linux , Mac OS X y otros similares a UNIX , Windows
Primera edición mediados de la década de 1980
ultima versión
Formatos de archivo legibles Formato de intercambio de archivos TIFF , PNG , JPEG [d] , JP2 [d] y WebP
Formatos de archivo generados HOCR , texto sin formato , PDF , ALTO [d] y TSV
Licencia apache 2.0
Sitio web github.com/tesseract-ocr...
 Archivos multimedia en Wikimedia Commons

Tesseract  (del  inglés  -  " tesseract ", del otro griego. τέσσαρες ἀκτῖνες - "cuatro rayos") es un programa informático gratuito para el reconocimiento de texto , desarrollado por Hewlett-Packard desde mediados de la década de 1980 hasta mediados de la década de 1990, y luego 10 años "Tumbado en el estante". En agosto de 2006, Google lo compró y abrió el código fuente bajo la licencia Apache 2.0 [2] para un mayor desarrollo. Por el momento, el programa ya funciona con UTF-8, el soporte de idiomas (incluido el ruso a partir de la versión 3.0 [3] [4] ) se lleva a cabo con la ayuda de módulos adicionales.

Historia

El núcleo del programa Tesseract se desarrolló en el Laboratorio de Bristol de Hewlett Packard y en Hewlett Packard Co, Greeley , Colorado en 1985-1994. En 1996, se realizaron cambios significativos y se preparó un puerto para Windows. Luego, desde 1998, una migración parcial de C a C++. Una parte significativa del código se escribió originalmente en C, pero se realizaron mejoras para la compatibilidad con los compiladores de C ++. [2]

Tesseract 3.0 está actualmente integrado en Linux con GCC 2.95 y versiones posteriores y en Windows con Visual C++ 2008 Express y versiones posteriores (la compatibilidad con Visual C++ 6 se eliminó en la versión 3.0 [3] ).

Por el momento, la última versión es Tesseract 5.0 basada en LSTM [5] .

Interfaces gráficas para Tesseract

para linux para ventanas

Sitios basados ​​en el motor Tesseract

Dependencias

Datos interesantes

Tesseract es utilizado por el administrador de descargas Tucan Manager para el reconocimiento de texto en las pruebas de CAPTCHA .

Notas

  1. https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0
  2. 1 2 Vincent, Luc anunciando Tesseract OCR (agosto de 2006). Consultado el 26 de junio de 2008. Archivado desde el original el 18 de marzo de 2012.
  3. 12 Lanzamiento de Tesseract 3.00 . Consultado el 5 de octubre de 2010. Archivado desde el original el 9 de octubre de 2010.
  4. Página de descarga de Tesseract . Archivado desde el original el 18 de marzo de 2012.
  5. Página del manual de TESSERACT(1)  . Consultado el 12 de enero de 2019. Archivado desde el original el 5 de mayo de 2020.

Enlaces