Teseracto

teseracto


Tipo de	reconocimiento óptico de caracteres
Desarrolladores	Hewlett-Packard , Google
Escrito en	C++
Interfaz	línea de comando
Sistema operativo	Linux , Mac OS X y otros similares a UNIX , Windows
Primera edición	mediados de la década de 1980
ultima versión	5.2.0 ( 6 de julio de 2022 ) [1]
Formatos de archivo legibles	Formato de intercambio de archivos TIFF , PNG , JPEG [d] , JP2 [d] y WebP
Formatos de archivo generados	HOCR , texto sin formato , PDF , ALTO [d] y TSV
Licencia	apache 2.0
Sitio web	github.com/tesseract-ocr...
Archivos multimedia en Wikimedia Commons

Tesseract (del inglés - " tesseract ", del otro griego. τέσσαρες ἀκτῖνες - "cuatro rayos") es un programa informático gratuito para el reconocimiento de texto , desarrollado por Hewlett-Packard desde mediados de la década de 1980 hasta mediados de la década de 1990, y luego 10 años "Tumbado en el estante". En agosto de 2006, Google lo compró y abrió el código fuente bajo la licencia Apache 2.0 [2] para un mayor desarrollo. Por el momento, el programa ya funciona con UTF-8, el soporte de idiomas (incluido el ruso a partir de la versión 3.0 [3] [4] ) se lleva a cabo con la ayuda de módulos adicionales.

Historia

El núcleo del programa Tesseract se desarrolló en el Laboratorio de Bristol de Hewlett Packard y en Hewlett Packard Co, Greeley , Colorado en 1985-1994. En 1996, se realizaron cambios significativos y se preparó un puerto para Windows. Luego, desde 1998, una migración parcial de C a C++. Una parte significativa del código se escribió originalmente en C, pero se realizaron mejoras para la compatibilidad con los compiladores de C ++. [2]

Tesseract 3.0 está actualmente integrado en Linux con GCC 2.95 y versiones posteriores y en Windows con Visual C++ 2008 Express y versiones posteriores (la compatibilidad con Visual C++ 6 se eliminó en la versión 3.0 [3] ).

Por el momento, la última versión es Tesseract 5.0 basada en LSTM [5] .

Interfaces gráficas para Tesseract

para linux

para ventanas

Sitios basados en el motor Tesseract

Dependencias

Leptonica

Datos interesantes

Tesseract es utilizado por el administrador de descargas Tucan Manager para el reconocimiento de texto en las pruebas de CAPTCHA .

Notas

↑ https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0
↑ 1 2 Vincent, Luc anunciando Tesseract OCR (agosto de 2006). Consultado el 26 de junio de 2008. Archivado desde el original el 18 de marzo de 2012. (indefinido)
↑ 12 Lanzamiento de Tesseract 3.00 . Consultado el 5 de octubre de 2010. Archivado desde el original el 9 de octubre de 2010. (indefinido)
↑ Página de descarga de Tesseract . Archivado desde el original el 18 de marzo de 2012. (indefinido)
↑ Página del manual de TESSERACT(1) . Consultado el 12 de enero de 2019. Archivado desde el original el 5 de mayo de 2020.

Enlaces

Software de reconocimiento óptico de caracteres

libre

Interfaces gráficas	OCRAlimentador YAGF

propiedad

Formas cognitivas
experiencia
Buen lector
Imágenes de documentos de Microsoft Office
OmniPage
Readiris
lectura suave
simpleocr
Lector de ID inteligente
Puntuación inteligente
Ver Sabio