Digitalización de libros

La digitalización de libros  es el proceso de convertir libros en papel a formato electrónico (digital). Las copias electrónicas de libros pueden formar bibliotecas digitales y distribuirse en la Web. Los libros digitales se pueden distribuir, reproducir y leer fácilmente en la pantalla. Por lo general, los libros digitalizados se guardan en formatos: DjVu, Portable Document Format (PDF), JPG o TIFF . El reconocimiento óptico de caracteres ( OCR ) se usa para convertir la imagen original , es necesario convertir las páginas de un libro a un formato digital, como ASCII, u otro formato similar que reduzca el tamaño del archivo y te permita trabajar con texto. El escaneado de imágenes se puede realizar de forma manual o automática. En los escáneres convencionales, el libro se coloca sobre el cristal, la luz cae sobre el libro y el mecanismo óptico escanea el libro mientras se mueve bajo el cristal. Otros escáneres de libros usan un marco en V y fotografían las páginas desde arriba. Las páginas se pueden pasar manualmente o mediante alimentadores de papel automáticos. El vidrio macizo especial, por regla general, presiona las páginas para suavizar los defectos de escaneo. Después de escanear, el programa corrige la imagen del documento, enderezándolo, recortándolo, editándolo y convirtiéndolo en texto, y la forma final del libro electrónico. La gente suele comprobar la imagen escaneada en busca de errores.

Escanear a 118 ppp (300 ppp) es la norma para digitalizar texto, pero los libros raros y complejos requieren una resolución más alta. Los escáneres de alta tecnología son capaces de escanear unas mil páginas por hora. Hay escáneres de libros portátiles capaces de digitalizar alrededor de 1200 páginas por hora.

Metodología de digitalización

En el pasado, escribir manualmente un libro era más común.

Hoy en día, el proceso de digitalización implica dos enfoques.

  1. Obligatorio: obtención de copias de páginas en forma de imágenes gráficas (normalmente de trama ), realizadas mediante escaneo o fotografía, seguidas de procesamiento y almacenamiento en uno de los formatos de archivo gráfico. En este caso, el diseño original del libro se conserva por completo y se excluye cualquier error; sin embargo, no es posible buscar o extraer fragmentos de texto para, por ejemplo, citar.
  2. Opcional: reconocimiento de texto (tecnología de reconocimiento óptico de caracteres - OCR ) con posterior guardado del texto reconocido en uno de los formatos de libro electrónico . En este caso, se hace posible la búsqueda de texto completo en el libro y la indexación de grandes conjuntos de libros electrónicos ; sin embargo, la reproducción del diseño original, las imágenes, los diagramas y las fórmulas se vuelve difícil y los errores de reconocimiento se vuelven casi inevitables.

Recientemente (especialmente con la llegada de los formatos PDF y DjVu ), se ha utilizado cada vez más un enfoque mixto: el texto del libro se reconoce automáticamente y se coloca debajo de las imágenes de mapa de bits originales de las páginas, lo que le permite combinar las ventajas de ambos enfoques. .

Escáneres de libros

Los escáneres de libros son escáneres altamente especializados diseñados para producir copias de mapas de bits de páginas de libros de la manera más rápida y/o conveniente posible. Es condicionalmente posible distinguir tres tipos de tales escáneres:

Los dos últimos tipos de escáneres generalmente no usan una regla de escaneo, sino una cámara digital de alta resolución (30-140 megapíxeles ) ubicada sobre el original que se escanea. En algunos modelos, es posible utilizar dos cámaras, que se instalan en un ángulo relativo entre sí para que tomen fotografías de toda la extensión simultáneamente (no es necesario abrir el libro 180 °, lo cual es fundamental al digitalizar documentos antiguos). o originales en mal estado).

Los escáneres planetarios y robóticos pueden lograr una productividad de 500 a 2000 páginas por hora, con los mejores modelos, hasta 2500 a 3000 páginas por hora.

Escáneres de libros profesionales

Los escáneres de libros profesionales escanean originales en alta calidad utilizando dos cámaras digitales y luces a cada lado de la cámara, lo que le permite volver a fotografiar un libro de una sola vez. La ventaja de tales escáneres es la alta velocidad de disparo, así como la ausencia de la necesidad de abrir el libro 180 grados. Sin embargo, los precios de tales escáneres suelen comenzar en $10,000.

Escaneo con recorte de página

Para escanear libros de bajo presupuesto, la forma menos costosa es escanear un libro o una revista con una página cortada del lomo. Esto convierte un libro o una revista en una pila de documentos que se pueden cargar en un alimentador automático de documentos estándar, aunque ciertamente no es una buena solución para libros muy antiguos e inusuales, especialmente cuando el libro es caro y coleccionable. Hay dos dificultades en este escaneo, el corte de página y el escaneo en sí.

Recorte de página

Una forma de cortar libros de 500 a 1000 páginas a la vez es con una guillotina de papel. Este diseño es una gran mesa de acero con un tornillo de banco de papel. El corte se realiza con una hoja de acero grande y afilada que se mueve en línea recta y corta toda la longitud de cada hoja a la vez. Una palanca en la cuchilla permite aplicar una fuerza del orden de cientos de kilogramos, necesaria para cortar una pila de papel. No se puede hacer un corte limpio con un cuchillo de media luna tradicional, ya que solo está diseñado para cortar varias hojas, donde 10 hojas es prácticamente el límite. Con el tiempo, al cortar una gran pila de papel, el corte se vuelve cada vez más impreciso y aumenta la fuerza necesaria para cortar el papel. El proceso de corte con guillotina desafila la cuchilla con el tiempo, por lo que es necesario afilarla. El papel estucado desafila la cuchilla más rápido que el papel normal.

Escaneo

Cuando el papel esté libre del lomo del libro, puede escanear con un escáner plano tradicional o usar un escáner alimentador automático de documentos. Las páginas con bordes decorativos acanalados o bordes curvos pueden ser difíciles de escanear con el ADF. El ADF está diseñado para escanear páginas de la misma forma y tamaño, por lo que diferentes tamaños o formas de página pueden resultar en un escaneo incorrecto. Es posible que el papel utilizado en revistas y libros de texto no entre bien en el alimentador automático de papel. En general, los menos problemas surgen con el papel normal. El rodillo adhesivo que sujeta el papel puede desgastarse con el tiempo, por lo que su desempeño debe controlarse cuidadosamente. Si la pila de papel contiene varias hojas de papel, como tarjetas, debe retirarlas inmediatamente antes de escanear.

Escanear sin interferencias

Escáner basado en DSC. El escáner está diseñado para digitalizar publicaciones tanto encuadernadas como bordadas. Adecuado para digitalizar publicaciones relativamente nuevas y en mal estado debido a la cuna especial en forma de V, que permite no abrir el libro por completo (180 grados), lo que minimiza los efectos nocivos en la publicación. El libro permanece en la misma posición. Velocidad de escaneo (modo color): alrededor de 500-700 páginas / hora. Las páginas se pasan manualmente (hay modelos con giro automático, sin embargo, no se recomienda digitalizar en dichos equipos los libros valiosos y deteriorados que forman la base del fondo de la biblioteca para evitar daños). El formato del documento escaneado es A2-A4. La resolución de las imágenes resultantes es de 130-470 ppp (óptica). Los escáneres de este tipo ocupan mucho espacio de trabajo, pero prácticamente no son propensos a averías, ya que son plataformas de escaneo. Modernizado reemplazando cámaras con modelos más avanzados. Se lanza con solo presionar un botón. Un ejemplo de tales escáneres serían los escáneres que utilizan cámaras digitales.

Principales proyectos de digitalización de libros

Los proyectos de digitalización de libros a gran escala tienden a procesar libros que han pasado al dominio público . Aunque Google digitaliza todos los libros en general, los libros protegidos por derechos de autor se proporcionan solo en forma de fragmentos. Los principales proyectos de digitalización hasta la fecha incluyen:

Uno de los principales problemas es el gran volumen de libros que se escanearán. Decenas de millones de libros serán escaneados y luego deberían estar disponibles gratuitamente y buscarse en Internet como una biblioteca universal. Actualmente, las grandes organizaciones confían en la subcontratación o el escaneo en casa con escáneres profesionales o robóticos.

En cuanto a la subcontratación, los libros a menudo se envían para ser digitalizados en India o China, debido a los precios más bajos. Los escáneres profesionales utilizan cámaras digitales, lo que acelera enormemente todo el proceso. Con los escáneres robóticos, tradicionalmente ha sido necesario separar las páginas del lomo del libro para que las páginas puedan alimentarse automáticamente.

Una vez que se escanea la página, los datos se ingresan manualmente o mediante OCR, que es otra medida del costo de escanear un libro. Debido a problemas de derechos de autor, la mayoría de los libros escaneados no están cubiertos por derechos de autor . Sin embargo, se sabe que la Búsqueda de libros de Google escanea libros que están protegidos por derechos de autor y solo puede eliminar un libro del dominio público si el editor lo excluye específicamente de la búsqueda.

Digitalización a voluntad

Varias bibliotecas importantes brindan servicios especiales para la digitalización de publicaciones de sus colecciones a pedido de los lectores. Criterio principal: las publicaciones deben ser de dominio público y deben estar en suficiente estado de conservación. Así, aparece una fuente de financiación para el proceso de digitalización, o se establecen prioridades para la digitalización masiva. Como regla general, se integra una marca sobre la posibilidad de escanear en el catálogo de la biblioteca , una publicación digitalizada se coloca en una biblioteca electrónica para acceso público.

Proyectos existentes

Véase también

Notas

  1. Copia archivada (enlace no disponible) . Consultado el 26 de noviembre de 2008. Archivado desde el original el 20 de diciembre de 2008. 
  2. DigiWunschbuch: WUNSCHBÜCHER (enlace descendente) . Consultado el 26 de noviembre de 2008. Archivado desde el original el 28 de marzo de 2008. 

Enlaces