Archivo de Internet | |
---|---|
URL | archivo.org |
Comercial | No |
tipo de sitio | biblioteca electrónica universal |
Idiomas) | inglés |
ubicación del servidor |
Estados Unidos Egipto Países Bajos |
Dueño | Archivo de Internet |
Autor | Cale Brewster [1] |
Comienzo del trabajo | 24 de enero de 1996 |
Estado actual | obras |
Rotación | |
Número de empleados |
|
Lema | acceso universal a todos los conocimientos |
País | |
Archivos multimedia en Wikimedia Commons |
The Internet Archive (AI) ( Eng. Internet Archive ) es una organización sin fines de lucro fundada en 1996 en San Francisco por el programador estadounidense Brewster Cale . El propósito principal declarado del Archivo es proporcionar acceso público a la información acumulada en Internet. La colección AI consiste en muchas subcolecciones de sitios web archivados , libros digitalizados, archivos de audio y video, juegos y software.
Los proyectos más grandes del Archivo incluyen Wayback Machine , lanzada en 2001, que archiva y brinda acceso a la mayor parte de Internet "abierto". Los usuarios de Wayback Machine pueden rastrear los cambios que tienen lugar en sitios seleccionados y comparar diferentes versiones de ediciones [4] . Otra iniciativa importante de IA es la Biblioteca Abierta , una biblioteca abierta en línea a través de la cual los usuarios pueden tomar prestadas versiones digitalizadas de libros durante 2 semanas [5] . The Archive también inició la creación de Archive It, un servicio de archivo basado en la web que ayuda a organizaciones e individuos a recopilar, crear y preservar colecciones de contenido digital. A principios de mayo de 2022, la colección de Internet Archive constaba de más de 35 millones de libros, 7,9 millones de películas, videos y programas de televisión, 842 mil programas, 14 millones de archivos de audio, 4 millones de imágenes, 2,4 millones de clips de televisión , 237 mil conciertos y más de 682 mil millones de páginas web en Wayback Machine .
Para el almacenamiento de datos a largo plazo, el "Archivo" utiliza un sistema de sitios espejo ubicados en lugares geográficamente distantes [6] . Existen copias de la Wayback Machine en San Francisco , Richmond , Alexandria , Amsterdam . Para un almacenamiento eficiente de archivos, "Archivo" utiliza el formato de archivo ( ARC ), que le permite guardar archivos sin pérdida al archivarlos [6] .
El ex alumno del MIT , Brewster Cale , desempeñó un papel importante en la creación del "Archivo de Internet" . Mientras estudiaba, Cale y sus compañeros tuvieron acceso al prototipo de Internet, ARPANET . Un día decidieron ver qué pasaría si colocaban comunidades separadas (en ese momento, pequeñas listas de correo y grupos de Usenet ) en un espacio virtual común: una única lista de correo. Como recordó más tarde el programador: "Fue caos, anarquía y desinformación, ¡fue terrible!" Sin embargo, fue entonces cuando Cale se dio cuenta del potencial de la red para permitir que personas de diferentes instituciones se comunicaran entre sí sin demoras ni fricciones. Gracias a los experimentos con ARPANET, el programador tuvo la idea de crear el primer almacenamiento digital [7] .
A partir de la década de 1980, Cale ayudó a fundar la empresa de minisupercomputadoras Thinking Machines Corporation , y en 1989 fundó el primer sistema de recuperación de información basado en la web , WAIS , y una empresa del mismo nombre, que vendió en 1995 a America Online por 15 dólares. millones Posteriormente, WAIS se convirtió en el prototipo de los motores de búsqueda modernos y uno de los primeros programas en indexar una gran cantidad de información. Al mismo tiempo, Brewster se mudó de Boston a San Francisco , una ciudad que en ese momento apenas comenzaba a convertirse en el centro de Silicon Valley [8] [9] [10] [11] .
Durante este período, Cale se interesó en archivar todo Internet. Para estos fines, creó en 1996 dos organizaciones interconectadas: NPO Internet Archive y el sistema comercial de archivo web Alexa Internet , que fue creado conjuntamente con Bruce Gilliat y recibió el nombre de la Biblioteca de Alejandría . Alexa Internet se encargó de financiar un proyecto no comercial con las ganancias del archivo web . Además, todos los datos archivados a través de Alexa también se guardaron automáticamente en la colección. La inversión inicial en el proyecto de Internet de Alexa ascendió a alrededor de $ 1 millón. Ya un año después de la creación, Internet Archive y Alexa desarrollaron conjuntamente un complemento de navegador: el programa identificó y guardó automáticamente las páginas web "valiosas" , clasificándolas por el número de visitas y enlaces cruzados y clics [ 12] . El ciclo de creación y archivo de páginas fue de ocho semanas, luego de lo cual se reinició el proceso de escaneo. Integrada en el navegador , la barra de herramientas de Alexa ayudó a los usuarios a navegar por la web mientras la catalogaban, recopilando metadatos sobre cómo las páginas se relacionan entre sí. Al principio, la cinta magnética se usaba para el almacenamiento de datos ; a pesar de que los nuevos discos de almacenamiento ganaron en términos de ahorro de espacio y comodidad, las cintas eran aproximadamente 10 veces más baratas [13] [14] [15] [8] [12] .
El objetivo de Internet Archive era luchar contra la extinción de enlaces : la mayoría de las páginas web que se crearon no eran duraderas. Todos los datos recopilados se guardaron en la colección de Internet Archive [12] [6] . Así, el 72% de los enlaces publicados en 1998 quedaron "muertos" en 2021 [16] [17] . Para demostrar la importancia de escanear y mantener copias de las páginas web, The Archive inició un proyecto conjunto con la Institución Smithsonian en Washington para recopilar capturas de pantalla de sitios web de todos los candidatos presidenciales de 1996 . Posteriormente, estos datos se incluyeron en el archivo del instituto de partidos y candidatos, que recopila datos sobre los partidos políticos estadounidenses y todos los candidatos presidenciales [ 12] [6] [6] .
En 1998, Alexa Internet donó 2 terabytes de contenido archivado durante dos años, o 500 000 sitios web , a la Biblioteca del Congreso . En ese momento, Brewster Keil mencionó que esperaba inspirar a la Biblioteca del Congreso y otras bibliotecas de investigación para preservar el conocimiento no solo en forma impresa sino también en línea [18] [19] . En 1998-1999, Internet Archive y Alexa firmaron un contrato con Microsoft y Netscape Communications para incluir su software en los navegadores Internet Explorer y Netscape Navigator . Los acuerdos permitieron expandir significativamente la infraestructura del Archivo: Alexa se implementó en el 90% de las computadoras personales de ese momento. A finales de 1998, la dirección del Archivo decidió pasar de la cinta magnética a los discos duros [12] [20] . En 1999, Bruce Cale recibió una oferta de Amazon para venderle Alexa Internet, de éxito comercial, por 250 millones de dólares, a lo que el creador accedió. Después de la compra, Alexa continuó enviando datos al "Archivo de Internet". En el mismo año, Andy Jewel creó un nuevo rastreador web que le permite realizar simultáneamente varios escaneos a la vez y guardar los resultados en formato ARC . En el mismo año, la NPO introdujo un nuevo rastreador desarrollado por Jewell, que les permitió recopilar no solo páginas web, sino también otros tipos de datos, como animaciones. A través de una asociación con Rick Prelinger de Prelinger Archives , se completó un proyecto para digitalizar 1,000 películas (valor total de $ 160,000 ) y archivar transmisiones de noticias de televisión [12] [21] . En 2005, la Biblioteca del Congreso adquirió los Archivos Prelinger , todavía se accede a los materiales a través del "Archivo" [22] .
Entre 2000 y 2001, el tamaño del archivo se triplicó a unos 40 terabytes [12] . Al mismo tiempo, el liderazgo enfrentó el problema de brindar acceso a la colección recolectada. Algunos datos estaban disponibles para el público en general, pero requerían conocimientos de Unix por parte del usuario . Para abrir el acceso a la información, los programadores de Alexa crearon Wayback Machine , un servicio en línea a través del cual los usuarios podían buscar la URL que ingresaban. El servicio fue lanzado el 24 de octubre de 2001 y ofrecía acceso a más de 10 mil millones de páginas web archivadas y 100 TB de datos. En ese momento, los datos se almacenaban en servidores Hewlett-Packard y uslab.com con sistemas operativos FreeBSD y Linux . Cada servidor tenía alrededor de 512 MB de RAM y poco más de 300 GB de espacio en el disco duro [12] . Para diciembre de 2014, Wayback Machine informó que había guardado 435 mil millones de páginas web en todo el mundo [23] . Desde un punto de vista técnico, WM no es un archivo, sino una interfaz pública para un subconjunto limitado de todos los repositorios [24] [25] .
En relación con las elecciones presidenciales de EE. UU. de 2000, Internet Archive inició un proyecto conjunto con la Biblioteca del Congreso para recopilar información sobre las campañas políticas de los candidatos [12] . Otro proyecto importante de ese período fue el Archivo del 11 de septiembre, dedicado a los eventos del mismo nombre en 2001. En colaboración con la Biblioteca del Congreso, el Archivo ha recopilado imágenes de más de 30 000 sitios web seleccionados hasta el 1 de diciembre de 2001, así como cientos de horas de cobertura televisiva [12] [26] [27] .
En 2002, el "Archivo" implementó varios proyectos importantes a la vez, lo que amplió significativamente su colección. El primero y más grande de ellos fue el sitio espejo de la biblioteca en la ciudad de Alejandría . En total , se enviaron a Egipto servidores con más de 100 TB de datos, con un valor total de unos 5 millones de dólares [12] . Internet Archive también donó 10 mil millones de páginas web recopiladas entre 1996 y 2001, 2000 horas de transmisiones de televisión egipcias y estadounidenses y 1000 películas antiguas a la Biblioteca de Alejandría [28] [29] .
En el verano de 2002, Internet Archive colaboró con el Centro Carnegie Mellon en el Million Books Project (MBP) para digitalizar más de un millón de libros y ponerlos a disposición para su lectura gratuita en Internet 12] . El proyecto se llevó a cabo con la plena participación de otras universidades americanas y colecciones digitales de India , China , Egipto . El dinero para el MBP fue asignado por la Fundación Nacional de Ciencias de EE. UU. ($ 3,63 millones), el Gobierno de la India (25 millones) y el Ministerio de Educación de la República Popular China (8,46 millones). A su vez, Internet Archive proporcionó el equipo, el personal y los fondos para digitalizar los documentos necesarios. Posteriormente, la colección ensamblada estuvo disponible a través de sitios espejo en India, China, los portales de la Universidad Carnegie Mellon y el Archivo de Internet [30] . En diciembre de 2004, AI anunció una nueva colaboración con varias bibliotecas internacionales para colocar libros digitalizados en archivos de acceso abierto [31] . El segundo gran proyecto de este período fue Bookbombil , una biblioteca móvil que imprime a voluntad obras de la colección del archivo. La biblioteca móvil se movía por San Francisco y, a petición de los usuarios, podía imprimir unas 20 páginas por minuto, después de lo cual los voluntarios del proyecto las recogían a mano, las colocaban en una funda y las encuadernaban con un dispositivo de cola caliente aplicado a la lomo de las páginas. Para cortar el libro se usó un cortador de guillotina [32] [12] .
En 2003, el "Archivo" siguió cooperando con las bibliotecas nacionales. En julio, AI participó en la creación del Consorcio Internacional de Preservación de Internet , un grupo de 12 bibliotecas nacionales de EE. UU. que acordaron unirse para desarrollar estándares, herramientas y prácticas para adquirir, preservar y crear conocimiento e información accesibles desde La Internet. Para lograr este objetivo, el consorcio recopila contenido de Internet de todo el mundo de tal manera que pueda archivarse y protegerse, y promueve el desarrollo y uso de herramientas, métodos y formas comunes para fomentar el desarrollo de las bibliotecas nacionales. En el mismo año, Internet Archive lanzó Heritrix , un rastreador web de código abierto basado en Java que luego fue adoptado por muchas instituciones en todo el mundo [12] [33] .
En 2004, Internet Archive comenzó a migrar datos a hardware de tercera generación , PetaBox . PetaBox se basa en el sistema operativo Linux y proporciona almacenamiento RAID a un precio de aproximadamente $2,000 por terabyte , o $2 millones por petabyte . El primer equipo nuevo se instaló en la sucursal de Ámsterdam del "Archivo" - archivo web de la UE, que recopila documentos en los países de la Unión Europea y también sirve como un espejo de la colección principal [12] [33] [34 ] .
El Archivo de Internet tiene como objetivo proporcionar acceso universal a todo el conocimiento humano y convertirse en una biblioteca de Internet masiva. En junio de 2007, el Estado de California designó Internet Archive como biblioteca, lo que lo puso a disposición de fondos federales e incorporó a una red de organizaciones dedicadas a preservar el acceso abierto a la información [6] [35] .
A principios de la década de 2000, los Archivos compraron una antigua iglesia cristiana en San Francisco y la convirtieron en una biblioteca [6] . En 2009, la organización tenía menos de cinco empleados involucrados en la operación y mantenimiento de los sitios [35] .
|
Para 2012, la colección del Archivo había crecido a 10 petabytes, con más de 1,5 millones de archivos de audio y más de un millón de videos en el dominio público [36] . Para 2014, el Archivo atendía de dos a tres millones de visitantes por día, y la colección ascendía a más de 7 millones de textos, 2,1 millones de grabaciones de audio y 1,8 millones de videos [37] . En 2016, el Archivo celebró su 20 aniversario. En ese momento, la colección de archivos tenía 370 millones de sitios web y 273 mil millones de páginas web [38] .
En 2013 se produjo un incendio en la oficina del Archivo que destruyó parte del equipo, pero la colección no resultó dañada [39] . En el mismo año, en respuesta a las revelaciones de Edward Snowden sobre la Agencia de Seguridad Nacional , Internet Archive introdujo el cifrado para el tráfico web de los lectores [40] .
Después de la victoria de Donald Trump en las elecciones presidenciales de EE. UU. de 2016, el Archivo decidió tener una copia de su colección en Canadá en caso de que Trump decida endurecer las leyes de censura o difamación: Brewster Cale, en su blog, pidió a los seguidores que ayudaran financieramente a comprar el equipo necesario, ya que la mudanza costará varios millones de dólares [41] .
En 2019, Google anunció que pronto eliminaría la información de la red social cerrada Google+ , sin embargo, Internet Archive y Archive Team firmaron un acuerdo para preservar las publicaciones públicas en sus plataformas [42] , solo en las primeras cuatro semanas de archivo. , se recogieron 1,56 petabytes de datos [ 43 ] .
En 2018-2019, el Archivo llevó a cabo una serie de proyectos conjuntos con Wikipedia . En 2018, el Archivo reemplazó una serie de enlaces muertos en la enciclopedia con los que ya se habían archivado en Wayback Machine: un bot especial calculó los enlaces muertos, luego los copió y actualizó, refiriéndose a las copias archivadas. Durante el primer año del proyecto, se restauraron 9 millones de enlaces [44] . En 2019, el Archivo inició un proyecto para mejorar el trabajo de Wikipedia: el portal proporcionó una vista previa de los libros a los que se hace referencia en los artículos. Para ello, los usuarios podían hacer clic en el título del libro y ver un material de dos páginas. En el primer año de existencia del servicio, el Archivo convirtió 130.000 enlaces de artículos de enciclopedia en enlaces directos a 50.000 libros que la organización escaneó y puso a disposición del público en general. En última instancia, AI espera permitir a los usuarios ver y tomar prestados todos los libros citados por Wikipedia [45] . Para que el servicio represente correctamente el material citado, los usuarios de la enciclopedia deben formatear correctamente la cita, indicando los números de página [46] [47] .
En 2020, Internet Archive lanzó una asociación con Brave : ahora el navegador puede detectar automáticamente la falta de disponibilidad de una página web y, a cambio, ofrecer una copia de seguridad a través del servicio Wayback Machine . La función está disponible para errores: 404 , 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 y 526 [48] . En el mismo año, se anunció la cooperación con Cloudflare , que ofrece la función Always On, que almacena en caché las versiones estáticas de los sitios. La asociación permitió que Wayback Machine encontrara aún más sitios web para rastrear [49] .
Internet Archive aboga activamente por la lucha contra la desinformación . En 2019, la organización, junto con Public Knowledge , Wikimedia Foundation , Samuelson Law, Technology and Public Policy Clinic, realizó una conferencia para compartir experiencias sobre prácticas para combatir la información falsa a sabiendas [50] . Desde el comienzo de la pandemia de COVID-19 en marzo de 2020, los teóricos de la conspiración han utilizado capturas de pantalla guardadas por el portal para difundir información falsa sobre el coronavirus [51] . Por ejemplo, se publicó un artículo en Medium que afirma que 21 millones de personas murieron por COVID-19 en China. Luego de que este artículo comenzara a ser ampliamente difundido en Facebook , la red social bloqueó el enlace. Sin embargo, el artículo se conservó en el "Archivo" y los usuarios comenzaron a distribuirlo a través de Wayback Machine [52] . Como contramedida , en noviembre de 2020, Internet Archive implementó herramientas para verificar la autenticidad de la información en Wayback Machine. Al abrir una versión archivada de un sitio, Wayback Machine brinda a los usuarios información sobre el motivo de su eliminación en forma de un banner amarillo en la parte superior de la pantalla. Si se sospecha que una página web está involucrada en una campaña de desinformación, Wayback Machine proporciona detalles de la organización que realizó la verificación, así como un enlace a su informe [53] [54] [55] . Un servicio de verificación de hechos permite a los usuarios comprender mejor por qué ciertas páginas se eliminaron o cambiaron en un momento dado. Los contribuyentes a la verificación de hechos enviados a Wayback Machine incluyen FactCheck.org , PolitiFact , Graphika, Stanford Internet Observatory y otros. Internet Archive explicó las razones para agregar la verificación de hechos a estas páginas, afirmando: "Estamos tratando de preservar nuestra historia digital, pero reconocemos los desafíos de brindar acceso a información falsa y engañosa de una variedad de fuentes" [56] .
En la segunda mitad de la década de 1990, las soluciones de almacenamiento eran caras. Para resolver este problema, Internet Archive utilizó cintas magnéticas en su primera generación de infraestructura. En 2004, el Archivo desarrolló un sistema de almacenamiento potente y económico para grandes cantidades de datos: PetaBox, que puede albergar un petabyte o un millón de gigabytes de datos [6] [12] . Para el almacenamiento a largo plazo, el "Archivo" utiliza un sistema de sitios espejo ubicados en lugares geográficamente distantes [6] . Existen copias de la Wayback Machine en San Francisco , Richmond , Alexandria , Amsterdam . Los archivos se guardan en formato ( ARC ). Cada documento en formato ARC tiene un tamaño aproximado de 100 MB y contiene varios archivos obtenidos durante el escaneo. Cada elemento anidado contiene metadatos sobre el archivo y su búsqueda: el nombre del archivo (su URL), su tamaño, tipo de contenido, fecha y hora de extracción y el nombre de la organización que lo recibió [6] . Por razones de costo, "Archive" almacena datos en discos ATA ubicados en un factor de forma de caja de pizza , con capacidad para cuatro discos, uno de los cuales es un disco de arranque del sistema operativo Linux y el otro almacena datos configurados bajo JBOD . Cada rack tiene 40 nodos de almacenamiento. A fines de la década de 2000, solo el clúster de San Francisco contenía alrededor de 36 bastidores [57] [58] .
La colección Archive se compone de muchas subcolecciones creadas por varias organizaciones, cada una con un enfoque diferente para el archivo web. Algunos de los datos son administrados directamente por el Archivo, mientras que otros son administrados por muchos socios de la organización [59] . En los primeros años, el rastreador web de Internet Alexa era la principal fuente de datos regulares . Sin embargo, con el aumento del volumen de tráfico procesado, la dirección de la NPO se dio cuenta de la necesidad de introducir un robot de búsqueda a gran escala y fácilmente personalizable. Pero los programas que existían en el mercado no tenían el poder y las capacidades suficientes para un escaneo amplio y profundo de Internet. El punto fundamental fue la apertura del software , que promovería el desarrollo de la cooperación entre instituciones interesadas en archivar Internet. En la primera mitad de 2003, el Archivo comenzó a trabajar en el desarrollo de un nuevo rastreador de código abierto llamado Heritrix . El rastreador se escribió en Java y fue desarrollado por el Consorcio Internacional para la Preservación de Internet y otras bibliotecas e instituciones asociadas. Se presentaron los mismos requisitos para Heritrix que para el rastreador de Internet Alexa: el robot debe obedecer todas las instrucciones de rastreo establecidas en el archivo robots.txt del sitio y evitar el archivado agresivo, que puede dificultar el funcionamiento del portal. Además, todos los archivos capturados por el escáner deben combinarse en archivos más grandes para facilitar la administración y el acceso. El rastreador comienza a capturar páginas a partir de URL ya conocidas y luego sigue los enlaces dentro de cada sitio [6] [33] . El robot analiza y sigue los enlaces incrustados y luego agrega todas las URL a la lista de archivos para extraer. Luego repite este proceso con los siguientes enlaces y verifica que todos los sitios guardados estén "capturados" [6] . Heritrix tiene una serie de limitaciones: no puede escanear la web profunda ni ningún material en bases de datos o páginas que requieran autenticación para acceder. El robot tampoco rastreará sitios protegidos con contraseña y obedecerá las excepciones descritas en robot.txt. Además, el escaneado procesa con gran dificultad elementos de JavaScript , transmisión de medios , mapas de imágenes [60] .
Alexa Internet utiliza sus propios algoritmos para escanear la web, analizando la mayoría de las veces los sitios en función de las estadísticas de visitas y la cantidad de enlaces que conducen a ellos. Por lo tanto, si los usuarios desean guardar por separado su propio sitio, pueden guardar la página a través de una barra de herramientas especial integrada en Alexa. Desde 2010, el "Archivo de Internet" ha estado realizando un rastreo web mundial en la red global, recopilando elementos web, páginas, sitios y partes de sitios de todo Internet. De marzo a diciembre de 2011, Worldwide Web Crawling capturó 2700 millones de instantáneas y 2300 millones de URL únicas de 29 millones de sitios web [59] . Cada rastreo comienza con una lista de URL específicas, conocidas como "listas de origen", y también sigue un algoritmo independiente que determina la profundidad del rastreo. La mayoría de los sitios serán secuestrados por uno solo, sin embargo, los portales individuales (como los sitios de noticias) pueden archivarse con mayor frecuencia a través de otros rastreos [59] .
En 2013, Internet Archive, junto con Wikipedia y WordPress , iniciaron el programa Archive No More 404, que monitorea constantemente los portales en busca de enlaces muertos. Posteriormente, GDELT [61] se unió al programa . Como parte de este proyecto, en 2016, Archive, junto con Mozilla Firefox , crearon un complemento que permite a los usuarios ver páginas "muertas" si han sido archivadas [62] . Estas colaboraciones han ampliado enormemente la colección con artículos y materiales sobre la actualidad. El Archivo también almacena datos sobre páginas web escaneadas por Alfred Sloan Foundation y Alexa, NARA e Internet Memory Foundation , registros DNS que contienen más de 2500 millones de registros desde 2013. Además, muchos archivos especializados guardan las capturas de pantalla finales de sus páginas en la colección de Internet Archive. Por ejemplo, incluyen GeoCities y Wretch [59] .
Los rastreos pueden tener como objetivo una "captura" única del sitio para garantizar que se conserve al menos una copia del portal, o pueden diseñarse para volver a escanear con frecuencia un pequeño subconjunto de sitios seleccionados manualmente a intervalos regulares. - la frecuencia de exploración depende directamente de la popularidad del sitio [59] .
Wayback Machine es un servicio en línea gratuito que brinda acceso a los archivos web de Internet Archive. El servicio estuvo disponible para el público recién en 2001. En sus primeros 20 años de existencia, Wayback Machine catalogó y preservó una colección de más de 286 mil millones de sitios web. Las instantáneas de archivo admiten páginas con HTML , JavaScript y CSS [63] . A través de Wayback Machine, los usuarios pueden realizar un seguimiento de los cambios en el sitio y comparar diferentes versiones de ediciones [64] . A partir de mayo de 2022, Wayback Machine proporcionó acceso a más de 682 000 millones de páginas web guardadas [4] [65] . En 2017, Internet Archive presentó una versión modernizada de Wayback Machine [66] . Técnicamente, el software Wayback Machine no es un archivo, sino una interfaz pública para un subconjunto limitado de todos los repositorios [24] . La plataforma es operada por rastreadores web y los usuarios agregan sus propios sitios [63] [67] [68] [69] [70] ingresando la URL del portal de interés [71] [24] [35] [72] .
Cualquiera puede guardar direcciones URL para archivar y, con una cuenta de archivo gratuita, puede crear y archivar cualquier enlace saliente o externo en la página original [73] [73] . Según un estudio de 2014, la mayoría de los usuarios de Archive acuden a Wayback Machine en busca de materiales en inglés que no pueden encontrar en el segmento “en vivo” de Internet [74] .
En 2006, el Archivo introdujo un servicio llamado Archive It, un servicio de archivo basado en la web que ayuda a las organizaciones e individuos a recopilar, crear y almacenar sus propias colecciones de datos digitales. Archive It proporciona rastreo de sitios web, organización y administración de datos, informes técnicos para el monitoreo de rastreo, una interfaz para ingresar metadatos del sitio y búsqueda de texto completo . El servicio funciona con el software de código abierto Heritrix [60] [75] .
Todo el contenido está alojado en los centros de datos de Internet Archive. Más de 200 colecciones relacionadas con la historia, la cultura, la ciencia, los derechos humanos y otros temas socialmente importantes están disponibles para los usuarios [65] [75] [59] .
Archivo web de derechos humanosEl Archivo Web de Derechos Humanos (HRWA) es una colección de sitios web archivados de más de 600 organizaciones no gubernamentales, instituciones nacionales de derechos humanos y blogs que tratan el tema de los derechos humanos de una manera u otra . El HRWA ha sido elaborado por varias organizaciones no gubernamentales, instituciones nacionales de derechos humanos e individuos. La creación de HRWA fue encabezada por las bibliotecas y los servicios de información de la Universidad de Columbia y su Centro para la Documentación e Investigación de los Derechos Humanos (CHRDR) con el apoyo la Fundación Andrew W. Mellon . La recopilación de datos comenzó en 2008, con expertos en derechos humanos de todo el mundo identificando los portales necesarios. A partir de 2022, la colección se ha actualizado periódicamente. Los sitios web de organizaciones intergubernamentales como las Naciones Unidas no se incluyeron en la colección. La colección incluye más de 711 sitios web, de los cuales más de 50 millones se pueden buscar [65] . La recopilación de datos comenzó con un proyecto piloto en 2008, con sitios web rastreados trimestralmente utilizando el servicio Archive It [76] . Las copias de las colecciones se encuentran en Internet Archive y en la Biblioteca de la Universidad de Columbia. Para 2022, la HRWA incluyó más de mil sitios y 50 millones de documentos [65] [77] .
Tomar el control de Wall StreetDesde el inicio de una serie de protestas en la ciudad de Nueva York denominadas " Occupy Wall Street " en 2011 que pedían igualdad social y económica, los miembros del equipo de Archive It y los miembros de la comunidad en línea han identificado y registrado voluntariamente todos los recursos relacionados con el movimiento. . La colección incluye sitios web, blogs, portales sociales y artículos de noticias de medios tradicionales o alternativos [65] . La información sobre las protestas fuera de Nueva York fue recopilada por el Centro Roy Rosenzweig para la Historia y los Nuevos Medios de la Universidad George Mason [78] [79] [80] .
Número de todos los textos (17 de mayo de 2022) |
34 739 370 [81] |
---|
Idioma | Número de textos |
---|---|
inglés | 25 779 040 |
Francés | 740 679 |
Alemán | 727 010 |
Holandés | 722 451 |
Chino | 568 727 |
árabe | 475 878 |
italiano | 396 364 |
español | 311 750 |
japonés | 154 282 |
Griego | 144 773 |
latín | 136 532 |
urdu | 98 953 |
ruso | 76 979 |
portugués | 71 961 |
En 2005, el Archivo inició la creación de Open Content Alliance (OSA), un consorcio de organizaciones y empresas comprometidas conjuntamente con la digitalización de colecciones de bibliotecas y su colocación en el dominio público. Además de Internet Archive, Yahoo , la Universidad de California, la Universidad de Toronto , los Archivos Nacionales de Gran Bretaña y otros participaron en el proyecto [82] . Microsoft [83] también era miembro de la OCA , pero en 2008 la empresa anunció que estaba reduciendo su inversión en un proyecto para digitalizar libros. Al hacerlo, Microsoft eliminó todas las restricciones contractuales sobre los libros de dominio público y permitió que The Archive conservara todo el hardware necesario [84] [85] . La decisión de Microsoft obligó al Archivo a buscar nuevas fuentes de financiación [86] .
A mayo de 2022, el Archivo ofrecía más de 35.000.000 de libros y textos en acceso abierto. También hay una colección de 2,3 millones de libros electrónicos modernos disponibles para todos los usuarios registrados [5] . Los usuarios pueden buscar por contenido, tipo de medio, año, tema y asunto. La página principal de la sección de libros también enumera las colecciones ordenadas por vistas, título, fecha de publicación y autor. El Archivo se ha asociado con más de 1100 instituciones bibliotecarias para crear la colección de libros, como la Biblioteca Pública de Boston , la Biblioteca del Congreso y otras. Durante la asociación, se digitalizaron varios tipos de medios, incluidos microfilmes, revistas y publicaciones seriadas, principalmente en inglés, holandés , alemán , francés , árabe e italiano . Se escanearon alrededor de 3.500 libros por día en 18 lugares de todo el mundo. Los libros publicados hace más de 95 años están disponibles para su descarga [87] . Este mecanismo de distribución digital utiliza las mismas tecnologías de seguridad que utilizan los editores para sus libros electrónicos impresos distribuidos por empresas comerciales como OverDrive, Inc. y Google Books [88] .
Internet Archive funciona como una biblioteca en línea y emite copias digitales a los usuarios, siempre que no haya más de una copia digital de un libro en circulación a la vez [25] . En 2006, se lanzó Open Library , un servicio en línea que permite a los usuarios leer copias electrónicas de libros de acuerdo con el " préstamo digital controlado " (o CDL), que limita el número de préstamos simultáneos de una sola imagen escaneada. Internet Archive pasa por alto las formas tradicionales de restricciones de licencia: las copias se toman de copias físicas en lugar de comprarlas digitalmente, por lo que el proyecto nunca entra en un acuerdo de licencia con un editor [89] .
Número de textos por década
|
|
|
Número de archivos de audio (17 de mayo de 2022) |
14 099 859 [91] |
---|
Número de imágenes (17 de mayo de 2022) |
4 301 137 [92] |
---|
Número de archivos de video (17 de mayo de 2022) |
7 930 236 [93] |
---|
En 2017, The Archive inició The Great 78 Project, dedicado a preservar miles de discos de vinilo de 78 rpm , algunos de los cuales se hicieron a principios del siglo XX. Además del "Archivo", ARCHive of Contemporary Music y George Blood Audio participan en el proyecto. El Gran Proyecto 78 tiene como objetivo encontrar, limpiar, digitalizar y archivar alrededor de mil registros de jugadores antiguos por día [94] . Para ello, cada placa se limpia en una máquina especial que rocía agua destilada sobre su superficie . Posteriormente, una pequeña aspiradora succiona el agua junto con la suciedad acumulada en las placas a lo largo de los años. Luego se fotografían los discos y se elaboran etiquetas a partir de estas fotografías para ser agregados a la base de datos general del archivo. La mayoría de las grabaciones procesadas pertenecen a importantes compañías discográficas como Columbia Records , RCA Records y Capitol Studios , pero la colección incluye alrededor de 1.700 sellos más [95] . Solo en el primer año de funcionamiento, se colocaron alrededor de 50.000 discos digitalizados. El proyecto Internet Archive planea digitalizar más de 200 000 registros físicos, la mayoría de los cuales datan de la década de 1950 y antes [96] .
Una parte significativa de la colección de audio de Internet Archive es Live Music Archive, una colección de más de 220 000 grabaciones en vivo comprimidas sin pérdida . Parte de esta colección provino de la comunidad musical etree , que distribuye grabaciones de conciertos en vivo [97] . El "Archivo" contiene grabaciones de presentaciones en vivo de varios artistas, incluidos Grateful Dead , John Meyer , Elliott Smith , The Smashing Pumpkins [98] .
En 2022, la colección de fotografías del Archivo constaba de 4,3 millones de imágenes [99] . Una de las mayores subcolecciones se obtienen desde 2007 en colaboración con la NASA . Las organizaciones escanearon y archivaron conjuntamente fotografías, películas históricas y videos del archivo de la agencia. A través de esta asociación, las colecciones están disponibles en el archivo unificado de imágenes de la NASA en el sitio web del Archivo [100] .
En 2014, el investigador Kalev Leetaru de la Universidad George Washington subió 2,6 millones de fotos de libros disponibles públicamente del Archivo. Posteriormente, agregó todas las imágenes al servicio de Flickr , agregando etiquetas a todas las imágenes con anticipación para que los usuarios pudieran buscar a través de los materiales [101] .
La colección de videos del Archivo consta de muchas subcolecciones, que incluyen más de 3 millones de horas de transmisiones de noticias de televisión grabadas [38] . El Proyecto de Grabación y Preservación de Noticias fue iniciado por el Proyecto Philly Political Media Watch, un programa creado por la Fundación Sunlight , el Ayuntamiento de Filadelfia , el Consorcio de Datos Lingüísticos de la Universidad de Pensilvania y la Investigación Comunitaria de la Universidad de Delaware y Centro de Servicio . Gracias al proyecto, cientos de miles de noticias y anuncios políticos guardados están disponibles en el sitio web del Archivo [37] .
En 2019, el Archivo amplió su colección con 2,5 mil juegos antiguos escritos para el sistema DOS . Esto sucedió como resultado del proyecto eXoDOS, en el que se analizaron y optimizaron juegos antiguos para ejecutarlos en computadoras modernas [102] . En 2021, Adobe anunció que se suspenderá Flash Player . En respuesta, el Archivo publicó en el sitio una colección de varios cientos de juegos y animaciones flash [103] [104] .
En 2016, Internet Archive publicó una importante colección de programas para la familia de sistemas operativos Windows 3.x. En total, la sección The Windows 3.x Showcase contiene 1523 programas, cuyo funcionamiento es posible gracias al emulador de Windows 3.1 incorporado en JavaScript. Además, la colección incluye programas, juegos y una versión demo de Windows 95 . Para los archivos con derechos de autor, el personal del Archivo publicó análogos gratuitos [105] .
Para brindar acceso a obras de libros a través del servicio de Biblioteca Abierta, la administración del Archivo sigue los principios de Préstamo digital controlado (CDL) , una interpretación de la ley de derechos de autor , según la cual las bibliotecas pueden prestar libros impresos digitalizados con el mismo principio. como impresos - el número de títulos digitales emitidos debe coincidir con los ejemplares que posee la biblioteca. El Archivo adquiere todos los libros de su colección, ya sea en forma impresa o electrónica. Luego los escanea para crear sus propios archivos digitales, que luego pone a disposición de los lectores. Por lo tanto, el proyecto nunca entra en un acuerdo de licencia con el editor. Todos los archivos en línea emitidos tienen un código incrustado, gracias al cual solo un usuario puede acceder al trabajo a través de una cola electrónica. Este modelo permite que las bibliotecas pongan sus libros a disposición digitalmente, pero también permite que los editores y los autores de extensión cobren por su trabajo sin perder ventas. Cuando un libro de biblioteca impreso es muy popular, las bibliotecas tienden a comprar más copias. Los lectores no tienen derecho a copiar o distribuir materiales. De esta manera, el sistema CDL le permite eludir algunas de las restricciones establecidas en la ley de derechos de autor [106] [89] [107] .
El "Archivo" elimina datos de Wayback Machine a pedido de los titulares de derechos de autor, quienes pueden probar los derechos de autor, proporcionar una descripción del material, detalles de contacto del solicitante y una declaración firmada [108] [25] .
Las actividades de Internet Archive han tenido un impacto significativo en el desarrollo de prácticas de archivo web en todo el mundo. Siguiendo el ejemplo de la IA, se han creado muchos programas y portales de archivo web a gran escala, a menudo nacionales. Las principales bibliotecas internacionales fueron de las primeras en almacenar contenido en línea: la Biblioteca del Congreso , la Biblioteca Nacional de Australia , la Biblioteca Nacional de Suecia , la Biblioteca Nacional de Noruega y la Biblioteca Nacional de Nueva Zelanda [109] . En 2013, se puso en marcha el proyecto de archivo web de la UE para escanear y archivar los sitios web de la Unión Europea con el fin de preservar el contenido web europeo a largo plazo y en el dominio público [34] . En 2000, la República Checa inició el proyecto Webarchiv para el archivo web de sitios nacionales [110] . Posteriormente, se implementaron iniciativas similares en Croacia [109] , Hungría [111] , Irlanda [112] , Bélgica y otros países [113] . En la mayoría de los casos, el archivo fue realizado por el rastreador web Heritrix [6] creado por el "Archivo" . Internet Archive también proporciona gran parte de la tecnología que utilizan otras instituciones para crear aplicaciones de archivo [6] .
Las colecciones del archivo son utilizadas a menudo por investigadores de diversos campos de la ciencia. Por lo tanto, los datos se analizan en busca de cambios en las prácticas lingüísticas y sociales [114] , el comportamiento de la empresa, las estrategias de ventas [23] [115] . Además, los científicos pueden usar materiales archivados para establecer el derecho de abrir o publicar [116] , así como para obtener acceso a revistas de acceso abierto ; según una investigación de 2020, 84 revistas de OA en ciencias naturales han desaparecido de Internet desde entonces. principios de la década de 2000, y más de 100 - en el ámbito social y humanitario [117] [118] [119] .
En 2002, los abogados de la Iglesia de la Cienciología exigieron que Internet Archive eliminara de Wayback Machine las copias archivadas de la página del portal Xenu.net propiedad del crítico de la iglesia Andreas Heldal-Lund. El motivo fue la presencia de extractos de documentos de la Iglesia en el portal de Heldala-Lundu. Sin embargo, en respuesta, el "Archivo" eliminó no solo las páginas del sitio con extractos, sino que también cerró el acceso a todo el portal Xenu.net. La decisión del Archivo provocó un debate público masivo sobre la ética y la libertad de expresión [120] [121] .
Debido a la pandemia del COVID-19 y al aislamiento forzoso de muchas personas en 2020, el Archivo puso en marcha el servicio temporal Biblioteca Nacional de Emergencia, poniendo a disposición del público ejemplares de 1,4 millones de libros para aquellas personas que no pudieron acceder a las bibliotecas. A diferencia del funcionamiento tradicional del servicio de Biblioteca Abierta, los usuarios de la Biblioteca en caso de emergencia podían tomar prestados textos sin hacer fila [122] . En respuesta, la asociación estadounidense de autores Authors Guild emitió una carta abierta en la que acusaba a la organización de "robo real" [123] : el proyecto violó una serie de disposiciones de la CDL al permitir que más de un usuario acceda a textos. En respuesta a las violaciones del Internet Archive, cuatro editores comerciales - Hachette , Penguin Random House , Wiley - presentaron una demanda acusando al portal de piratería [124] . Por este motivo, Internet Archive finalizó su programa antes de lo previsto, el 16 de junio de 2020, en lugar del 30 de junio [125] [126] [25] [106] . La demanda buscaba evitar que la Biblioteca Abierta operara como un esquema que digitaliza y presta obras con derechos de autor [25] [89] . El juicio en el caso está programado para noviembre de 2021 [127] .
países de la CEIEn 2014, Roskomnadzor agregó Internet Archive al registro de sitios prohibidos por tener una copia de la película documental Clash of Swords lanzada por el Estado Islámico [128] . Un año después, la Fiscalía de la Federación de Rusia emitió una decisión de bloquear el sitio web de Internet Archive sobre la base del artículo 15.3 de la Ley "Sobre información, tecnologías de la información y protección de la información". La razón para bloquear el portal fue el artículo archivado "Yihad solitaria en Rusia", que, según la oficina del fiscal, contenía llamados a disturbios masivos y actividades extremistas [129] [130] . Después de que el recurso eliminó todos los enlaces a sitios prohibidos en Rusia, se restauró el acceso al portal [131] .
En 2015, el portal Internet Archive se incluyó en la lista de sitios no deseados bloqueados en Kazajstán [132] .
El 6 de junio de 2017, el Tribunal Oktyabrsky de Bishkek bloqueó el sitio en Kirguistán debido a materiales con “contenido extremista” [133] .
En 2019, la Asociación para la Protección de los Derechos de Autor en Internet (AZAPI) abogó por bloquear el "Archivo de Internet" en Rusia. La razón de esto fue la presencia en la colección de la biblioteca de copias de audiolibros de escritores rusos: Dmitry Glukhovsky y Daria Dontsova . La demanda en el caso se presentó el 13 de marzo de 2019 y el Tribunal de la Ciudad de Moscú tuvo lugar el 13 de mayo de 2019 con carácter de emergencia. Según una decisión judicial, se prohibió a Internet Archive crear condiciones técnicas para la colocación de audiolibros [134] .
El 12 de mayo de 2022, Roskomnadzor presentó una demanda contra Internet Archive en virtud del artículo 13.41 del Código de Infracciones Administrativas de la Federación Rusa ("No eliminar información reconocida como prohibida en la Federación Rusa") [135] [136] . El motivo fue un video archivado por el servicio, que mostraba cómo hacer un cóctel molotov . La sesión judicial se llevó a cabo el 28 de junio de 2022, según sus resultados, Internet Archive fue multado con 800 mil rublos [137] .
PavoEl 9 de octubre de 2016, el Archivo se bloqueó temporalmente en Turquía después de que los piratas informáticos lo usaran para alojar 17 GB de correos electrónicos del gobierno [138] .
IndiaEn 2017, el sitio web del servicio WayBackMachine fue bloqueado en India por una decisión del Tribunal de Madrás en respuesta a una demanda de los titulares de derechos de autor de Bollywood , quienes indicaron que el portal tenía varios miles de enlaces a copias pirateadas de películas [139] . Después del cierre, el gobierno indio fue acusado de censura [140] [141] .