Archivo de Internet

Archivo de Internet


URL	archivo.org
Comercial	No
tipo de sitio	biblioteca electrónica universal
Idiomas)	inglés
ubicación del servidor	Estados Unidos Egipto Países Bajos
Dueño	Archivo de Internet
Autor	Cale Brewster [1]
Comienzo del trabajo	24 de enero de 1996
Estado actual	obras
Rotación	▲ $ 36,7 millones ( 2019 ) [2]
Número de empleados	200 personas
Lema	acceso universal a todos los conocimientos
País	Estados Unidos [3]
Archivos multimedia en Wikimedia Commons

The Internet Archive (AI) ( Eng. Internet Archive ) es una organización sin fines de lucro fundada en 1996 en San Francisco por el programador estadounidense Brewster Cale . El propósito principal declarado del Archivo es proporcionar acceso público a la información acumulada en Internet. La colección AI consiste en muchas subcolecciones de sitios web archivados , libros digitalizados, archivos de audio y video, juegos y software.

Los proyectos más grandes del Archivo incluyen Wayback Machine , lanzada en 2001, que archiva y brinda acceso a la mayor parte de Internet "abierto". Los usuarios de Wayback Machine pueden rastrear los cambios que tienen lugar en sitios seleccionados y comparar diferentes versiones de ediciones [4] . Otra iniciativa importante de IA es la Biblioteca Abierta , una biblioteca abierta en línea a través de la cual los usuarios pueden tomar prestadas versiones digitalizadas de libros durante 2 semanas [5] . The Archive también inició la creación de Archive It, un servicio de archivo basado en la web que ayuda a organizaciones e individuos a recopilar, crear y preservar colecciones de contenido digital. A principios de mayo de 2022, la colección de Internet Archive constaba de más de 35 millones de libros, 7,9 millones de películas, videos y programas de televisión, 842 mil programas, 14 millones de archivos de audio, 4 millones de imágenes, 2,4 millones de clips de televisión , 237 mil conciertos y más de 682 mil millones de páginas web en Wayback Machine .

Para el almacenamiento de datos a largo plazo, el "Archivo" utiliza un sistema de sitios espejo ubicados en lugares geográficamente distantes [6] . Existen copias de la Wayback Machine en San Francisco , Richmond , Alexandria , Amsterdam . Para un almacenamiento eficiente de archivos, "Archivo" utiliza el formato de archivo ( ARC ), que le permite guardar archivos sin pérdida al archivarlos [6] .

Historia

Creación

El ex alumno del MIT , Brewster Cale , desempeñó un papel importante en la creación del "Archivo de Internet" . Mientras estudiaba, Cale y sus compañeros tuvieron acceso al prototipo de Internet, ARPANET . Un día decidieron ver qué pasaría si colocaban comunidades separadas (en ese momento, pequeñas listas de correo y grupos de Usenet ) en un espacio virtual común: una única lista de correo. Como recordó más tarde el programador: "Fue caos, anarquía y desinformación, ¡fue terrible!" Sin embargo, fue entonces cuando Cale se dio cuenta del potencial de la red para permitir que personas de diferentes instituciones se comunicaran entre sí sin demoras ni fricciones. Gracias a los experimentos con ARPANET, el programador tuvo la idea de crear el primer almacenamiento digital [7] .

A partir de la década de 1980, Cale ayudó a fundar la empresa de minisupercomputadoras Thinking Machines Corporation , y en 1989 fundó el primer sistema de recuperación de información basado en la web , WAIS , y una empresa del mismo nombre, que vendió en 1995 a America Online por 15 dólares. millones Posteriormente, WAIS se convirtió en el prototipo de los motores de búsqueda modernos y uno de los primeros programas en indexar una gran cantidad de información. Al mismo tiempo, Brewster se mudó de Boston a San Francisco , una ciudad que en ese momento apenas comenzaba a convertirse en el centro de Silicon Valley [8] [9] [10] [11] .

Durante este período, Cale se interesó en archivar todo Internet. Para estos fines, creó en 1996 dos organizaciones interconectadas: NPO Internet Archive y el sistema comercial de archivo web Alexa Internet , que fue creado conjuntamente con Bruce Gilliat y recibió el nombre de la Biblioteca de Alejandría . Alexa Internet se encargó de financiar un proyecto no comercial con las ganancias del archivo web . Además, todos los datos archivados a través de Alexa también se guardaron automáticamente en la colección. La inversión inicial en el proyecto de Internet de Alexa ascendió a alrededor de $ 1 millón. Ya un año después de la creación, Internet Archive y Alexa desarrollaron conjuntamente un complemento de navegador: el programa identificó y guardó automáticamente las páginas web "valiosas" , clasificándolas por el número de visitas y enlaces cruzados y clics [ 12] . El ciclo de creación y archivo de páginas fue de ocho semanas, luego de lo cual se reinició el proceso de escaneo. Integrada en el navegador , la barra de herramientas de Alexa ayudó a los usuarios a navegar por la web mientras la catalogaban, recopilando metadatos sobre cómo las páginas se relacionan entre sí. Al principio, la cinta magnética se usaba para el almacenamiento de datos ; a pesar de que los nuevos discos de almacenamiento ganaron en términos de ahorro de espacio y comodidad, las cintas eran aproximadamente 10 veces más baratas [13] [14] [15] [8] [12] .

El objetivo de Internet Archive era luchar contra la extinción de enlaces : la mayoría de las páginas web que se crearon no eran duraderas. Todos los datos recopilados se guardaron en la colección de Internet Archive [12] [6] . Así, el 72% de los enlaces publicados en 1998 quedaron "muertos" en 2021 [16] [17] . Para demostrar la importancia de escanear y mantener copias de las páginas web, The Archive inició un proyecto conjunto con la Institución Smithsonian en Washington para recopilar capturas de pantalla de sitios web de todos los candidatos presidenciales de 1996 . Posteriormente, estos datos se incluyeron en el archivo del instituto de partidos y candidatos, que recopila datos sobre los partidos políticos estadounidenses y todos los candidatos presidenciales [ 12] [6] [6] .

1997-1999

En 1998, Alexa Internet donó 2 terabytes de contenido archivado durante dos años, o 500 000 sitios web , a la Biblioteca del Congreso . En ese momento, Brewster Keil mencionó que esperaba inspirar a la Biblioteca del Congreso y otras bibliotecas de investigación para preservar el conocimiento no solo en forma impresa sino también en línea [18] [19] . En 1998-1999, Internet Archive y Alexa firmaron un contrato con Microsoft y Netscape Communications para incluir su software en los navegadores Internet Explorer y Netscape Navigator . Los acuerdos permitieron expandir significativamente la infraestructura del Archivo: Alexa se implementó en el 90% de las computadoras personales de ese momento. A finales de 1998, la dirección del Archivo decidió pasar de la cinta magnética a los discos duros [12] [20] . En 1999, Bruce Cale recibió una oferta de Amazon para venderle Alexa Internet, de éxito comercial, por 250 millones de dólares, a lo que el creador accedió. Después de la compra, Alexa continuó enviando datos al "Archivo de Internet". En el mismo año, Andy Jewel creó un nuevo rastreador web que le permite realizar simultáneamente varios escaneos a la vez y guardar los resultados en formato ARC . En el mismo año, la NPO introdujo un nuevo rastreador desarrollado por Jewell, que les permitió recopilar no solo páginas web, sino también otros tipos de datos, como animaciones. A través de una asociación con Rick Prelinger de Prelinger Archives , se completó un proyecto para digitalizar 1,000 películas (valor total de $ 160,000 ) y archivar transmisiones de noticias de televisión [12] [21] . En 2005, la Biblioteca del Congreso adquirió los Archivos Prelinger , todavía se accede a los materiales a través del "Archivo" [22] .

2000–2010

Entre 2000 y 2001, el tamaño del archivo se triplicó a unos 40 terabytes [12] . Al mismo tiempo, el liderazgo enfrentó el problema de brindar acceso a la colección recolectada. Algunos datos estaban disponibles para el público en general, pero requerían conocimientos de Unix por parte del usuario . Para abrir el acceso a la información, los programadores de Alexa crearon Wayback Machine , un servicio en línea a través del cual los usuarios podían buscar la URL que ingresaban. El servicio fue lanzado el 24 de octubre de 2001 y ofrecía acceso a más de 10 mil millones de páginas web archivadas y 100 TB de datos. En ese momento, los datos se almacenaban en servidores Hewlett-Packard y uslab.com con sistemas operativos FreeBSD y Linux . Cada servidor tenía alrededor de 512 MB de RAM y poco más de 300 GB de espacio en el disco duro [12] . Para diciembre de 2014, Wayback Machine informó que había guardado 435 mil millones de páginas web en todo el mundo [23] . Desde un punto de vista técnico, WM no es un archivo, sino una interfaz pública para un subconjunto limitado de todos los repositorios [24] [25] .

En relación con las elecciones presidenciales de EE. UU. de 2000, Internet Archive inició un proyecto conjunto con la Biblioteca del Congreso para recopilar información sobre las campañas políticas de los candidatos [12] . Otro proyecto importante de ese período fue el Archivo del 11 de septiembre, dedicado a los eventos del mismo nombre en 2001. En colaboración con la Biblioteca del Congreso, el Archivo ha recopilado imágenes de más de 30 000 sitios web seleccionados hasta el 1 de diciembre de 2001, así como cientos de horas de cobertura televisiva [12] [26] [27] .

En 2002, el "Archivo" implementó varios proyectos importantes a la vez, lo que amplió significativamente su colección. El primero y más grande de ellos fue el sitio espejo de la biblioteca en la ciudad de Alejandría . En total , se enviaron a Egipto servidores con más de 100 TB de datos, con un valor total de unos 5 millones de dólares [12] . Internet Archive también donó 10 mil millones de páginas web recopiladas entre 1996 y 2001, 2000 horas de transmisiones de televisión egipcias y estadounidenses y 1000 películas antiguas a la Biblioteca de Alejandría [28] [29] .

En el verano de 2002, Internet Archive colaboró con el Centro Carnegie Mellon en el Million Books Project (MBP) para digitalizar más de un millón de libros y ponerlos a disposición para su lectura gratuita en Internet 12] . El proyecto se llevó a cabo con la plena participación de otras universidades americanas y colecciones digitales de India , China , Egipto . El dinero para el MBP fue asignado por la Fundación Nacional de Ciencias de EE. UU. ($ 3,63 millones), el Gobierno de la India (25 millones) y el Ministerio de Educación de la República Popular China (8,46 millones). A su vez, Internet Archive proporcionó el equipo, el personal y los fondos para digitalizar los documentos necesarios. Posteriormente, la colección ensamblada estuvo disponible a través de sitios espejo en India, China, los portales de la Universidad Carnegie Mellon y el Archivo de Internet [30] . En diciembre de 2004, AI anunció una nueva colaboración con varias bibliotecas internacionales para colocar libros digitalizados en archivos de acceso abierto [31] . El segundo gran proyecto de este período fue Bookbombil , una biblioteca móvil que imprime a voluntad obras de la colección del archivo. La biblioteca móvil se movía por San Francisco y, a petición de los usuarios, podía imprimir unas 20 páginas por minuto, después de lo cual los voluntarios del proyecto las recogían a mano, las colocaban en una funda y las encuadernaban con un dispositivo de cola caliente aplicado a la lomo de las páginas. Para cortar el libro se usó un cortador de guillotina [32] [12] .

En 2003, el "Archivo" siguió cooperando con las bibliotecas nacionales. En julio, AI participó en la creación del Consorcio Internacional de Preservación de Internet , un grupo de 12 bibliotecas nacionales de EE. UU. que acordaron unirse para desarrollar estándares, herramientas y prácticas para adquirir, preservar y crear conocimiento e información accesibles desde La Internet. Para lograr este objetivo, el consorcio recopila contenido de Internet de todo el mundo de tal manera que pueda archivarse y protegerse, y promueve el desarrollo y uso de herramientas, métodos y formas comunes para fomentar el desarrollo de las bibliotecas nacionales. En el mismo año, Internet Archive lanzó Heritrix , un rastreador web de código abierto basado en Java que luego fue adoptado por muchas instituciones en todo el mundo [12] [33] .

En 2004, Internet Archive comenzó a migrar datos a hardware de tercera generación , PetaBox . PetaBox se basa en el sistema operativo Linux y proporciona almacenamiento RAID a un precio de aproximadamente $2,000 por terabyte , o $2 millones por petabyte . El primer equipo nuevo se instaló en la sucursal de Ámsterdam del "Archivo" - archivo web de la UE, que recopila documentos en los países de la Unión Europea y también sirve como un espejo de la colección principal [12] [33] [34 ] .

El Archivo de Internet tiene como objetivo proporcionar acceso universal a todo el conocimiento humano y convertirse en una biblioteca de Internet masiva. En junio de 2007, el Estado de California designó Internet Archive como biblioteca, lo que lo puso a disposición de fondos federales e incorporó a una red de organizaciones dedicadas a preservar el acceso abierto a la información [6] [35] .

A principios de la década de 2000, los Archivos compraron una antigua iglesia cristiana en San Francisco y la convirtieron en una biblioteca [6] . En 2009, la organización tenía menos de cinco empleados involucrados en la operación y mantenimiento de los sitios [35] .

Oficina de Internet Archive en San Francisco

2010-2020

Para 2012, la colección del Archivo había crecido a 10 petabytes, con más de 1,5 millones de archivos de audio y más de un millón de videos en el dominio público [36] . Para 2014, el Archivo atendía de dos a tres millones de visitantes por día, y la colección ascendía a más de 7 millones de textos, 2,1 millones de grabaciones de audio y 1,8 millones de videos [37] . En 2016, el Archivo celebró su 20 aniversario. En ese momento, la colección de archivos tenía 370 millones de sitios web y 273 mil millones de páginas web [38] .

En 2013 se produjo un incendio en la oficina del Archivo que destruyó parte del equipo, pero la colección no resultó dañada [39] . En el mismo año, en respuesta a las revelaciones de Edward Snowden sobre la Agencia de Seguridad Nacional , Internet Archive introdujo el cifrado para el tráfico web de los lectores [40] .

Después de la victoria de Donald Trump en las elecciones presidenciales de EE. UU. de 2016, el Archivo decidió tener una copia de su colección en Canadá en caso de que Trump decida endurecer las leyes de censura o difamación: Brewster Cale, en su blog, pidió a los seguidores que ayudaran financieramente a comprar el equipo necesario, ya que la mudanza costará varios millones de dólares [41] .

En 2019, Google anunció que pronto eliminaría la información de la red social cerrada Google+ , sin embargo, Internet Archive y Archive Team firmaron un acuerdo para preservar las publicaciones públicas en sus plataformas [42] , solo en las primeras cuatro semanas de archivo. , se recogieron 1,56 petabytes de datos [ 43 ] .

En 2018-2019, el Archivo llevó a cabo una serie de proyectos conjuntos con Wikipedia . En 2018, el Archivo reemplazó una serie de enlaces muertos en la enciclopedia con los que ya se habían archivado en Wayback Machine: un bot especial calculó los enlaces muertos, luego los copió y actualizó, refiriéndose a las copias archivadas. Durante el primer año del proyecto, se restauraron 9 millones de enlaces [44] . En 2019, el Archivo inició un proyecto para mejorar el trabajo de Wikipedia: el portal proporcionó una vista previa de los libros a los que se hace referencia en los artículos. Para ello, los usuarios podían hacer clic en el título del libro y ver un material de dos páginas. En el primer año de existencia del servicio, el Archivo convirtió 130.000 enlaces de artículos de enciclopedia en enlaces directos a 50.000 libros que la organización escaneó y puso a disposición del público en general. En última instancia, AI espera permitir a los usuarios ver y tomar prestados todos los libros citados por Wikipedia [45] . Para que el servicio represente correctamente el material citado, los usuarios de la enciclopedia deben formatear correctamente la cita, indicando los números de página [46] [47] .

En 2020, Internet Archive lanzó una asociación con Brave : ahora el navegador puede detectar automáticamente la falta de disponibilidad de una página web y, a cambio, ofrecer una copia de seguridad a través del servicio Wayback Machine . La función está disponible para errores: 404 , 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 y 526 [48] . En el mismo año, se anunció la cooperación con Cloudflare , que ofrece la función Always On, que almacena en caché las versiones estáticas de los sitios. La asociación permitió que Wayback Machine encontrara aún más sitios web para rastrear [49] .

La pandemia de COVID-19 y la lucha contra la desinformación

Internet Archive aboga activamente por la lucha contra la desinformación . En 2019, la organización, junto con Public Knowledge , Wikimedia Foundation , Samuelson Law, Technology and Public Policy Clinic, realizó una conferencia para compartir experiencias sobre prácticas para combatir la información falsa a sabiendas [50] . Desde el comienzo de la pandemia de COVID-19 en marzo de 2020, los teóricos de la conspiración han utilizado capturas de pantalla guardadas por el portal para difundir información falsa sobre el coronavirus [51] . Por ejemplo, se publicó un artículo en Medium que afirma que 21 millones de personas murieron por COVID-19 en China. Luego de que este artículo comenzara a ser ampliamente difundido en Facebook , la red social bloqueó el enlace. Sin embargo, el artículo se conservó en el "Archivo" y los usuarios comenzaron a distribuirlo a través de Wayback Machine [52] . Como contramedida , en noviembre de 2020, Internet Archive implementó herramientas para verificar la autenticidad de la información en Wayback Machine. Al abrir una versión archivada de un sitio, Wayback Machine brinda a los usuarios información sobre el motivo de su eliminación en forma de un banner amarillo en la parte superior de la pantalla. Si se sospecha que una página web está involucrada en una campaña de desinformación, Wayback Machine proporciona detalles de la organización que realizó la verificación, así como un enlace a su informe [53] [54] [55] . Un servicio de verificación de hechos permite a los usuarios comprender mejor por qué ciertas páginas se eliminaron o cambiaron en un momento dado. Los contribuyentes a la verificación de hechos enviados a Wayback Machine incluyen FactCheck.org , PolitiFact , Graphika, Stanford Internet Observatory y otros. Internet Archive explicó las razones para agregar la verificación de hechos a estas páginas, afirmando: "Estamos tratando de preservar nuestra historia digital, pero reconocemos los desafíos de brindar acceso a información falsa y engañosa de una variedad de fuentes" [56] .

Almacenamiento

En la segunda mitad de la década de 1990, las soluciones de almacenamiento eran caras. Para resolver este problema, Internet Archive utilizó cintas magnéticas en su primera generación de infraestructura. En 2004, el Archivo desarrolló un sistema de almacenamiento potente y económico para grandes cantidades de datos: PetaBox, que puede albergar un petabyte o un millón de gigabytes de datos [6] [12] . Para el almacenamiento a largo plazo, el "Archivo" utiliza un sistema de sitios espejo ubicados en lugares geográficamente distantes [6] . Existen copias de la Wayback Machine en San Francisco , Richmond , Alexandria , Amsterdam . Los archivos se guardan en formato ( ARC ). Cada documento en formato ARC tiene un tamaño aproximado de 100 MB y contiene varios archivos obtenidos durante el escaneo. Cada elemento anidado contiene metadatos sobre el archivo y su búsqueda: el nombre del archivo (su URL), su tamaño, tipo de contenido, fecha y hora de extracción y el nombre de la organización que lo recibió [6] . Por razones de costo, "Archive" almacena datos en discos ATA ubicados en un factor de forma de caja de pizza , con capacidad para cuatro discos, uno de los cuales es un disco de arranque del sistema operativo Linux y el otro almacena datos configurados bajo JBOD . Cada rack tiene 40 nodos de almacenamiento. A fines de la década de 2000, solo el clúster de San Francisco contenía alrededor de 36 bastidores [57] [58] .

Archivo web

La colección Archive se compone de muchas subcolecciones creadas por varias organizaciones, cada una con un enfoque diferente para el archivo web. Algunos de los datos son administrados directamente por el Archivo, mientras que otros son administrados por muchos socios de la organización [59] . En los primeros años, el rastreador web de Internet Alexa era la principal fuente de datos regulares . Sin embargo, con el aumento del volumen de tráfico procesado, la dirección de la NPO se dio cuenta de la necesidad de introducir un robot de búsqueda a gran escala y fácilmente personalizable. Pero los programas que existían en el mercado no tenían el poder y las capacidades suficientes para un escaneo amplio y profundo de Internet. El punto fundamental fue la apertura del software , que promovería el desarrollo de la cooperación entre instituciones interesadas en archivar Internet. En la primera mitad de 2003, el Archivo comenzó a trabajar en el desarrollo de un nuevo rastreador de código abierto llamado Heritrix . El rastreador se escribió en Java y fue desarrollado por el Consorcio Internacional para la Preservación de Internet y otras bibliotecas e instituciones asociadas. Se presentaron los mismos requisitos para Heritrix que para el rastreador de Internet Alexa: el robot debe obedecer todas las instrucciones de rastreo establecidas en el archivo robots.txt del sitio y evitar el archivado agresivo, que puede dificultar el funcionamiento del portal. Además, todos los archivos capturados por el escáner deben combinarse en archivos más grandes para facilitar la administración y el acceso. El rastreador comienza a capturar páginas a partir de URL ya conocidas y luego sigue los enlaces dentro de cada sitio [6] [33] . El robot analiza y sigue los enlaces incrustados y luego agrega todas las URL a la lista de archivos para extraer. Luego repite este proceso con los siguientes enlaces y verifica que todos los sitios guardados estén "capturados" [6] . Heritrix tiene una serie de limitaciones: no puede escanear la web profunda ni ningún material en bases de datos o páginas que requieran autenticación para acceder. El robot tampoco rastreará sitios protegidos con contraseña y obedecerá las excepciones descritas en robot.txt. Además, el escaneado procesa con gran dificultad elementos de JavaScript , transmisión de medios , mapas de imágenes [60] .

Alexa Internet utiliza sus propios algoritmos para escanear la web, analizando la mayoría de las veces los sitios en función de las estadísticas de visitas y la cantidad de enlaces que conducen a ellos. Por lo tanto, si los usuarios desean guardar por separado su propio sitio, pueden guardar la página a través de una barra de herramientas especial integrada en Alexa. Desde 2010, el "Archivo de Internet" ha estado realizando un rastreo web mundial en la red global, recopilando elementos web, páginas, sitios y partes de sitios de todo Internet. De marzo a diciembre de 2011, Worldwide Web Crawling capturó 2700 millones de instantáneas y 2300 millones de URL únicas de 29 millones de sitios web [59] . Cada rastreo comienza con una lista de URL específicas, conocidas como "listas de origen", y también sigue un algoritmo independiente que determina la profundidad del rastreo. La mayoría de los sitios serán secuestrados por uno solo, sin embargo, los portales individuales (como los sitios de noticias) pueden archivarse con mayor frecuencia a través de otros rastreos [59] .

En 2013, Internet Archive, junto con Wikipedia y WordPress , iniciaron el programa Archive No More 404, que monitorea constantemente los portales en busca de enlaces muertos. Posteriormente, GDELT [61] se unió al programa . Como parte de este proyecto, en 2016, Archive, junto con Mozilla Firefox , crearon un complemento que permite a los usuarios ver páginas "muertas" si han sido archivadas [62] . Estas colaboraciones han ampliado enormemente la colección con artículos y materiales sobre la actualidad. El Archivo también almacena datos sobre páginas web escaneadas por Alfred Sloan Foundation y Alexa, NARA e Internet Memory Foundation , registros DNS que contienen más de 2500 millones de registros desde 2013. Además, muchos archivos especializados guardan las capturas de pantalla finales de sus páginas en la colección de Internet Archive. Por ejemplo, incluyen GeoCities y Wretch [59] .

Los rastreos pueden tener como objetivo una "captura" única del sitio para garantizar que se conserve al menos una copia del portal, o pueden diseñarse para volver a escanear con frecuencia un pequeño subconjunto de sitios seleccionados manualmente a intervalos regulares. - la frecuencia de exploración depende directamente de la popularidad del sitio [59] .

Máquina Wayback

Wayback Machine es un servicio en línea gratuito que brinda acceso a los archivos web de Internet Archive. El servicio estuvo disponible para el público recién en 2001. En sus primeros 20 años de existencia, Wayback Machine catalogó y preservó una colección de más de 286 mil millones de sitios web. Las instantáneas de archivo admiten páginas con HTML , JavaScript y CSS [63] . A través de Wayback Machine, los usuarios pueden realizar un seguimiento de los cambios en el sitio y comparar diferentes versiones de ediciones [64] . A partir de mayo de 2022, Wayback Machine proporcionó acceso a más de 682 000 millones de páginas web guardadas [4] [65] . En 2017, Internet Archive presentó una versión modernizada de Wayback Machine [66] . Técnicamente, el software Wayback Machine no es un archivo, sino una interfaz pública para un subconjunto limitado de todos los repositorios [24] . La plataforma es operada por rastreadores web y los usuarios agregan sus propios sitios [63] [67] [68] [69] [70] ingresando la URL del portal de interés [71] [24] [35] [72] .

Cualquiera puede guardar direcciones URL para archivar y, con una cuenta de archivo gratuita, puede crear y archivar cualquier enlace saliente o externo en la página original [73] [73] . Según un estudio de 2014, la mayoría de los usuarios de Archive acuden a Wayback Machine en busca de materiales en inglés que no pueden encontrar en el segmento “en vivo” de Internet [74] .

Archivarlo

En 2006, el Archivo introdujo un servicio llamado Archive It, un servicio de archivo basado en la web que ayuda a las organizaciones e individuos a recopilar, crear y almacenar sus propias colecciones de datos digitales. Archive It proporciona rastreo de sitios web, organización y administración de datos, informes técnicos para el monitoreo de rastreo, una interfaz para ingresar metadatos del sitio y búsqueda de texto completo . El servicio funciona con el software de código abierto Heritrix [60] [75] .

Todo el contenido está alojado en los centros de datos de Internet Archive. Más de 200 colecciones relacionadas con la historia, la cultura, la ciencia, los derechos humanos y otros temas socialmente importantes están disponibles para los usuarios [65] [75] [59] .

Archivo web de derechos humanos

El Archivo Web de Derechos Humanos (HRWA) es una colección de sitios web archivados de más de 600 organizaciones no gubernamentales, instituciones nacionales de derechos humanos y blogs que tratan el tema de los derechos humanos de una manera u otra . El HRWA ha sido elaborado por varias organizaciones no gubernamentales, instituciones nacionales de derechos humanos e individuos. La creación de HRWA fue encabezada por las bibliotecas y los servicios de información de la Universidad de Columbia y su Centro para la Documentación e Investigación de los Derechos Humanos (CHRDR) con el apoyo la Fundación Andrew W. Mellon . La recopilación de datos comenzó en 2008, con expertos en derechos humanos de todo el mundo identificando los portales necesarios. A partir de 2022, la colección se ha actualizado periódicamente. Los sitios web de organizaciones intergubernamentales como las Naciones Unidas no se incluyeron en la colección. La colección incluye más de 711 sitios web, de los cuales más de 50 millones se pueden buscar [65] . La recopilación de datos comenzó con un proyecto piloto en 2008, con sitios web rastreados trimestralmente utilizando el servicio Archive It [76] . Las copias de las colecciones se encuentran en Internet Archive y en la Biblioteca de la Universidad de Columbia. Para 2022, la HRWA incluyó más de mil sitios y 50 millones de documentos [65] [77] .

Tomar el control de Wall Street

Desde el inicio de una serie de protestas en la ciudad de Nueva York denominadas " Occupy Wall Street " en 2011 que pedían igualdad social y económica, los miembros del equipo de Archive It y los miembros de la comunidad en línea han identificado y registrado voluntariamente todos los recursos relacionados con el movimiento. . La colección incluye sitios web, blogs, portales sociales y artículos de noticias de medios tradicionales o alternativos [65] . La información sobre las protestas fuera de Nueva York fue recopilada por el Centro Roy Rosenzweig para la Historia y los Nuevos Medios de la Universidad George Mason [78] [79] [80] .

Colección de libros

Número de todos los textos (17 de mayo de 2022)	34 739 370 [81]

Idioma	Número de textos
inglés	25 779 040
Francés	740 679
Alemán	727 010
Holandés	722 451
Chino	568 727
árabe	475 878
italiano	396 364
español	311 750
japonés	154 282
Griego	144 773
latín	136 532
urdu	98 953
ruso	76 979
portugués	71 961

Alianza de contenido abierto

En 2005, el Archivo inició la creación de Open Content Alliance (OSA), un consorcio de organizaciones y empresas comprometidas conjuntamente con la digitalización de colecciones de bibliotecas y su colocación en el dominio público. Además de Internet Archive, Yahoo , la Universidad de California, la Universidad de Toronto , los Archivos Nacionales de Gran Bretaña y otros participaron en el proyecto [82] . Microsoft [83] también era miembro de la OCA , pero en 2008 la empresa anunció que estaba reduciendo su inversión en un proyecto para digitalizar libros. Al hacerlo, Microsoft eliminó todas las restricciones contractuales sobre los libros de dominio público y permitió que The Archive conservara todo el hardware necesario [84] [85] . La decisión de Microsoft obligó al Archivo a buscar nuevas fuentes de financiación [86] .

A mayo de 2022, el Archivo ofrecía más de 35.000.000 de libros y textos en acceso abierto. También hay una colección de 2,3 millones de libros electrónicos modernos disponibles para todos los usuarios registrados [5] . Los usuarios pueden buscar por contenido, tipo de medio, año, tema y asunto. La página principal de la sección de libros también enumera las colecciones ordenadas por vistas, título, fecha de publicación y autor. El Archivo se ha asociado con más de 1100 instituciones bibliotecarias para crear la colección de libros, como la Biblioteca Pública de Boston , la Biblioteca del Congreso y otras. Durante la asociación, se digitalizaron varios tipos de medios, incluidos microfilmes, revistas y publicaciones seriadas, principalmente en inglés, holandés , alemán , francés , árabe e italiano . Se escanearon alrededor de 3.500 libros por día en 18 lugares de todo el mundo. Los libros publicados hace más de 95 años están disponibles para su descarga [87] . Este mecanismo de distribución digital utiliza las mismas tecnologías de seguridad que utilizan los editores para sus libros electrónicos impresos distribuidos por empresas comerciales como OverDrive, Inc. y Google Books [88] .

Biblioteca abierta

Internet Archive funciona como una biblioteca en línea y emite copias digitales a los usuarios, siempre que no haya más de una copia digital de un libro en circulación a la vez [25] . En 2006, se lanzó Open Library , un servicio en línea que permite a los usuarios leer copias electrónicas de libros de acuerdo con el " préstamo digital controlado " (o CDL), que limita el número de préstamos simultáneos de una sola imagen escaneada. Internet Archive pasa por alto las formas tradicionales de restricciones de licencia: las copias se toman de copias físicas en lugar de comprarlas digitalmente, por lo que el proyecto nunca entra en un acuerdo de licencia con un editor [89] .

Número de textos por década

Siglo 19

Década	Número de textos [90] (17 de mayo de 2022)
1800	90 206
década de 1810	111 212
1820	177 361
1830	230 717
década de 1840	269 639
1850	333 956
1860	352 204
1870	377 678
1880	496 878
década de 1890	632 531

siglo 20

Década	Número de textos (17 de mayo de 2022)
1900	836 646
1910s	849 519
1920	623 578
1930	557 552
1940	631 979
1950	671 795
1960	806 789
1970	2 672 101
1980	1 320 636
1990	1 645 563

Siglo XXI

Década	Número de textos (17 de mayo de 2022)
años 2000	2033226
2010s	3 543 643

Medios

Número de archivos de audio (17 de mayo de 2022)	14 099 859 [91]

Número de imágenes (17 de mayo de 2022)	4 301 137 [92]

Número de archivos de video (17 de mayo de 2022)	7 930 236 [93]

Sonido

En 2017, The Archive inició The Great 78 Project, dedicado a preservar miles de discos de vinilo de 78 rpm , algunos de los cuales se hicieron a principios del siglo XX. Además del "Archivo", ARCHive of Contemporary Music y George Blood Audio participan en el proyecto. El Gran Proyecto 78 tiene como objetivo encontrar, limpiar, digitalizar y archivar alrededor de mil registros de jugadores antiguos por día [94] . Para ello, cada placa se limpia en una máquina especial que rocía agua destilada sobre su superficie . Posteriormente, una pequeña aspiradora succiona el agua junto con la suciedad acumulada en las placas a lo largo de los años. Luego se fotografían los discos y se elaboran etiquetas a partir de estas fotografías para ser agregados a la base de datos general del archivo. La mayoría de las grabaciones procesadas pertenecen a importantes compañías discográficas como Columbia Records , RCA Records y Capitol Studios , pero la colección incluye alrededor de 1.700 sellos más [95] . Solo en el primer año de funcionamiento, se colocaron alrededor de 50.000 discos digitalizados. El proyecto Internet Archive planea digitalizar más de 200 000 registros físicos, la mayoría de los cuales datan de la década de 1950 y antes [96] .

Una parte significativa de la colección de audio de Internet Archive es Live Music Archive, una colección de más de 220 000 grabaciones en vivo comprimidas sin pérdida . Parte de esta colección provino de la comunidad musical etree , que distribuye grabaciones de conciertos en vivo [97] . El "Archivo" contiene grabaciones de presentaciones en vivo de varios artistas, incluidos Grateful Dead , John Meyer , Elliott Smith , The Smashing Pumpkins [98] .

Foto

En 2022, la colección de fotografías del Archivo constaba de 4,3 millones de imágenes [99] . Una de las mayores subcolecciones se obtienen desde 2007 en colaboración con la NASA . Las organizaciones escanearon y archivaron conjuntamente fotografías, películas históricas y videos del archivo de la agencia. A través de esta asociación, las colecciones están disponibles en el archivo unificado de imágenes de la NASA en el sitio web del Archivo [100] .

En 2014, el investigador Kalev Leetaru de la Universidad George Washington subió 2,6 millones de fotos de libros disponibles públicamente del Archivo. Posteriormente, agregó todas las imágenes al servicio de Flickr , agregando etiquetas a todas las imágenes con anticipación para que los usuarios pudieran buscar a través de los materiales [101] .

Vídeos y juegos

La colección de videos del Archivo consta de muchas subcolecciones, que incluyen más de 3 millones de horas de transmisiones de noticias de televisión grabadas [38] . El Proyecto de Grabación y Preservación de Noticias fue iniciado por el Proyecto Philly Political Media Watch, un programa creado por la Fundación Sunlight , el Ayuntamiento de Filadelfia , el Consorcio de Datos Lingüísticos de la Universidad de Pensilvania y la Investigación Comunitaria de la Universidad de Delaware y Centro de Servicio . Gracias al proyecto, cientos de miles de noticias y anuncios políticos guardados están disponibles en el sitio web del Archivo [37] .

En 2019, el Archivo amplió su colección con 2,5 mil juegos antiguos escritos para el sistema DOS . Esto sucedió como resultado del proyecto eXoDOS, en el que se analizaron y optimizaron juegos antiguos para ejecutarlos en computadoras modernas [102] . En 2021, Adobe anunció que se suspenderá Flash Player . En respuesta, el Archivo publicó en el sitio una colección de varios cientos de juegos y animaciones flash [103] [104] .

Sistemas operativos

En 2016, Internet Archive publicó una importante colección de programas para la familia de sistemas operativos Windows 3.x. En total, la sección The Windows 3.x Showcase contiene 1523 programas, cuyo funcionamiento es posible gracias al emulador de Windows 3.1 incorporado en JavaScript. Además, la colección incluye programas, juegos y una versión demo de Windows 95 . Para los archivos con derechos de autor, el personal del Archivo publicó análogos gratuitos [105] .

Derechos de autor

Préstamos digitales controlados

Para brindar acceso a obras de libros a través del servicio de Biblioteca Abierta, la administración del Archivo sigue los principios de Préstamo digital controlado (CDL) , una interpretación de la ley de derechos de autor , según la cual las bibliotecas pueden prestar libros impresos digitalizados con el mismo principio. como impresos - el número de títulos digitales emitidos debe coincidir con los ejemplares que posee la biblioteca. El Archivo adquiere todos los libros de su colección, ya sea en forma impresa o electrónica. Luego los escanea para crear sus propios archivos digitales, que luego pone a disposición de los lectores. Por lo tanto, el proyecto nunca entra en un acuerdo de licencia con el editor. Todos los archivos en línea emitidos tienen un código incrustado, gracias al cual solo un usuario puede acceder al trabajo a través de una cola electrónica. Este modelo permite que las bibliotecas pongan sus libros a disposición digitalmente, pero también permite que los editores y los autores de extensión cobren por su trabajo sin perder ventas. Cuando un libro de biblioteca impreso es muy popular, las bibliotecas tienden a comprar más copias. Los lectores no tienen derecho a copiar o distribuir materiales. De esta manera, el sistema CDL le permite eludir algunas de las restricciones establecidas en la ley de derechos de autor [106] [89] [107] .

Archivo web

El "Archivo" elimina datos de Wayback Machine a pedido de los titulares de derechos de autor, quienes pueden probar los derechos de autor, proporcionar una descripción del material, detalles de contacto del solicitante y una declaración firmada [108] [25] .

Influencia

Las actividades de Internet Archive han tenido un impacto significativo en el desarrollo de prácticas de archivo web en todo el mundo. Siguiendo el ejemplo de la IA, se han creado muchos programas y portales de archivo web a gran escala, a menudo nacionales. Las principales bibliotecas internacionales fueron de las primeras en almacenar contenido en línea: la Biblioteca del Congreso , la Biblioteca Nacional de Australia , la Biblioteca Nacional de Suecia , la Biblioteca Nacional de Noruega y la Biblioteca Nacional de Nueva Zelanda [109] . En 2013, se puso en marcha el proyecto de archivo web de la UE para escanear y archivar los sitios web de la Unión Europea con el fin de preservar el contenido web europeo a largo plazo y en el dominio público [34] . En 2000, la República Checa inició el proyecto Webarchiv para el archivo web de sitios nacionales [110] . Posteriormente, se implementaron iniciativas similares en Croacia [109] , Hungría [111] , Irlanda [112] , Bélgica y otros países [113] . En la mayoría de los casos, el archivo fue realizado por el rastreador web Heritrix [6] creado por el "Archivo" . Internet Archive también proporciona gran parte de la tecnología que utilizan otras instituciones para crear aplicaciones de archivo [6] .

Las colecciones del archivo son utilizadas a menudo por investigadores de diversos campos de la ciencia. Por lo tanto, los datos se analizan en busca de cambios en las prácticas lingüísticas y sociales [114] , el comportamiento de la empresa, las estrategias de ventas [23] [115] . Además, los científicos pueden usar materiales archivados para establecer el derecho de abrir o publicar [116] , así como para obtener acceso a revistas de acceso abierto ; según una investigación de 2020, 84 revistas de OA en ciencias naturales han desaparecido de Internet desde entonces. principios de la década de 2000, y más de 100 - en el ámbito social y humanitario [117] [118] [119] .

Disputas y bloqueos legales

Iglesia de Cienciología

En 2002, los abogados de la Iglesia de la Cienciología exigieron que Internet Archive eliminara de Wayback Machine las copias archivadas de la página del portal Xenu.net propiedad del crítico de la iglesia Andreas Heldal-Lund. El motivo fue la presencia de extractos de documentos de la Iglesia en el portal de Heldala-Lundu. Sin embargo, en respuesta, el "Archivo" eliminó no solo las páginas del sitio con extractos, sino que también cerró el acceso a todo el portal Xenu.net. La decisión del Archivo provocó un debate público masivo sobre la ética y la libertad de expresión [120] [121] .

Biblioteca Nacional de Emergencias

Debido a la pandemia del COVID-19 y al aislamiento forzoso de muchas personas en 2020, el Archivo puso en marcha el servicio temporal Biblioteca Nacional de Emergencia, poniendo a disposición del público ejemplares de 1,4 millones de libros para aquellas personas que no pudieron acceder a las bibliotecas. A diferencia del funcionamiento tradicional del servicio de Biblioteca Abierta, los usuarios de la Biblioteca en caso de emergencia podían tomar prestados textos sin hacer fila [122] . En respuesta, la asociación estadounidense de autores Authors Guild emitió una carta abierta en la que acusaba a la organización de "robo real" [123] : el proyecto violó una serie de disposiciones de la CDL al permitir que más de un usuario acceda a textos. En respuesta a las violaciones del Internet Archive, cuatro editores comerciales - Hachette , Penguin Random House , Wiley - presentaron una demanda acusando al portal de piratería [124] . Por este motivo, Internet Archive finalizó su programa antes de lo previsto, el 16 de junio de 2020, en lugar del 30 de junio [125] [126] [25] [106] . La demanda buscaba evitar que la Biblioteca Abierta operara como un esquema que digitaliza y presta obras con derechos de autor [25] [89] . El juicio en el caso está programado para noviembre de 2021 [127] .

países de la CEI

En 2014, Roskomnadzor agregó Internet Archive al registro de sitios prohibidos por tener una copia de la película documental Clash of Swords lanzada por el Estado Islámico [128] . Un año después, la Fiscalía de la Federación de Rusia emitió una decisión de bloquear el sitio web de Internet Archive sobre la base del artículo 15.3 de la Ley "Sobre información, tecnologías de la información y protección de la información". La razón para bloquear el portal fue el artículo archivado "Yihad solitaria en Rusia", que, según la oficina del fiscal, contenía llamados a disturbios masivos y actividades extremistas [129] [130] . Después de que el recurso eliminó todos los enlaces a sitios prohibidos en Rusia, se restauró el acceso al portal [131] .

En 2015, el portal Internet Archive se incluyó en la lista de sitios no deseados bloqueados en Kazajstán [132] .

El 6 de junio de 2017, el Tribunal Oktyabrsky de Bishkek bloqueó el sitio en Kirguistán debido a materiales con “contenido extremista” [133] .

En 2019, la Asociación para la Protección de los Derechos de Autor en Internet (AZAPI) abogó por bloquear el "Archivo de Internet" en Rusia. La razón de esto fue la presencia en la colección de la biblioteca de copias de audiolibros de escritores rusos: Dmitry Glukhovsky y Daria Dontsova . La demanda en el caso se presentó el 13 de marzo de 2019 y el Tribunal de la Ciudad de Moscú tuvo lugar el 13 de mayo de 2019 con carácter de emergencia. Según una decisión judicial, se prohibió a Internet Archive crear condiciones técnicas para la colocación de audiolibros [134] .

El 12 de mayo de 2022, Roskomnadzor presentó una demanda contra Internet Archive en virtud del artículo 13.41 del Código de Infracciones Administrativas de la Federación Rusa ("No eliminar información reconocida como prohibida en la Federación Rusa") [135] [136] . El motivo fue un video archivado por el servicio, que mostraba cómo hacer un cóctel molotov . La sesión judicial se llevó a cabo el 28 de junio de 2022, según sus resultados, Internet Archive fue multado con 800 mil rublos [137] .

Pavo

El 9 de octubre de 2016, el Archivo se bloqueó temporalmente en Turquía después de que los piratas informáticos lo usaran para alojar 17 GB de correos electrónicos del gobierno [138] .

India

En 2017, el sitio web del servicio WayBackMachine fue bloqueado en India por una decisión del Tribunal de Madrás en respuesta a una demanda de los titulares de derechos de autor de Bollywood , quienes indicaron que el portal tenía varios miles de enlaces a copias pirateadas de películas [139] . Después del cierre, el gobierno indio fue acusado de censura [140] [141] .

Véase también

Notas

↑ Archivo de Internet: biografías
↑ https://projects.propublica.org/nonprofits/organizations/943242767
↑ Base de datos de identificadores de investigación global (inglés) - 2015.
↑ 12 Máquina Wayback . máquina de regreso. Fecha de acceso: 7 de junio de 2021. (indefinido)
↑ 12 libros electrónicos y textos . Archivo de Internet. Recuperado: 16 de mayo de 2022. (indefinido)
↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Rackley, 2010 , pág. 2966-2976.
↑ Joel Khalili. La historia de la lucha por archivar Internet . radar tecnológico. Consultado el 23 de diciembre de 2021. Archivado desde el original el 22 de diciembre de 2021.
↑ 12 Personal de Recodificación . Transcripción completa: el fundador de Internet Archive, Brewster Kahle, en Recode Decode . Vox. Recodificar (8 de marzo de 2017). Consultado el 12 de junio de 2021. Archivado desde el original el 2 de junio de 2021. (indefinido)
↑ Brewster Kahle . Universidad Harvard. Consultado el 12 de junio de 2021. Archivado desde el original el 25 de octubre de 2021. (indefinido)
↑ Cronología . Internet. Salón de la Fama. Consultado el 12 de junio de 2021. Archivado desde el original el 21 de junio de 2021. (indefinido)
↑ Quentin Hardy. El Gran Trato: Brewster Kahle . Forbes (27 de noviembre de 2009). Consultado el 12 de junio de 2021. Archivado desde el original el 25 de octubre de 2021. (indefinido)
↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Kimpton, 2006 .
↑ Brewster Kahle, 2008 , pág. 265-280.
↑ Kara Swisher. Las ideas del 'bibliotecario' de la Web allanan el camino hacia una fortuna . The Wall Street Journal (20 de mayo de 1999). Consultado el 12 de junio de 2021. Archivado desde el original el 25 de octubre de 2021. (indefinido)
↑ Carolyn dijo. Archivar Internet / Brewster Kahle crea instantáneas digitales de la Web . Puerta SF (7 de mayo de 1998). Consultado el 12 de junio de 2021. Archivado desde el original el 2 de abril de 2019. (indefinido)
↑ Mitchell Clark. Una nueva investigación muestra cuántos enlaces importantes en la web se pierden con el tiempo . El borde (21 de mayo de 2021). Consultado el 13 de junio de 2021. Archivado desde el original el 20 de junio de 2021. (indefinido)
↑ Figura del día: ¿Cuántos enlaces de Internet han estado "muertos" desde 1998? . Ferra (22 de mayo de 2021). Consultado el 13 de junio de 2021. Archivado desde el original el 22 de mayo de 2021. (indefinido)
↑ Bárbara Quint. Un "Regalo de la Web" para la Biblioteca del Congreso de Alexa Internet . Information Today (19 de octubre de 1998). Consultado el 13 de junio de 2021. Archivado desde el original el 31 de marzo de 2019. (indefinido)
↑ John Aldermann. El regalo de Alexa al Gobierno . Por cable (14 de octubre de 1998). Consultado el 12 de junio de 2021. Archivado desde el original el 25 de octubre de 2021. (indefinido)
↑ Personal de David Bank. Microsoft lanza un nuevo navegador y anuncia un acuerdo con RealNetworks . The Wall Street Journal (17 de marzo de 1999). Consultado el 13 de junio de 2021. Archivado desde el original el 19 de mayo de 2021. (indefinido)
↑ Juan Cristiano. ¿Por qué Amazon tiene dos productos completamente diferentes llamados Alexa? . El esquema (junio de 2017). Consultado el 13 de junio de 2021. Archivado desde el original el 1 de junio de 2021. (indefinido)
↑ Rick Prelinger . Creative Commons (1 de octubre de 2005). Consultado el 13 de junio de 2021. Archivado desde el original el 24 de noviembre de 2020. (indefinido)
↑ 12 Arora , 2015 .
↑ 1 2 3 Bowyer, 2021 , pág. 43-57.
↑ 1 2 3 4 5 Aja Romano. Una demanda amenaza el Archivo de Internet, pero no es tan grave como puede haber escuchado . Vox (23 de enero de 2020). Consultado el 12 de junio de 2021. Archivado desde el original el 18 de agosto de 2021. (indefinido)
↑ Los eventos del 11 de septiembre de 2001 afectaron al mundo entero. . Archivo de Internet. Fecha de acceso: 13 de junio de 2021. (indefinido)
↑ Lucas Mearian. El archivo en línea narra 3.000 horas de cobertura televisiva del 11 de septiembre . Mundo Informático (10 de septiembre de 2011). Consultado el 13 de junio de 2021. Archivado desde el original el 25 de octubre de 2021. (indefinido)
↑ Biblioteca de Alejandría . Archivo de Internet. Fecha de acceso: 13 de junio de 2021. (indefinido)
↑ Alexandria 2.0: La búsqueda de un millonario para construir la biblioteca más grande del mundo . Por cable (20 de agosto de 2012). Consultado el 13 de junio de 2021. Archivado desde el original el 7 de marzo de 2021. (indefinido)
↑ Savitskaya, 2019 , pág. 67-76.
↑ Witten, 2007 , pág. 29-59.
↑ Steve Cisler. Carta desde San Francisco. La biblioteca móvil de Internet . Revista de Internet. Consultado el 13 de junio de 2021. Archivado desde el original el 25 de octubre de 2021. (indefinido)
↑ 123Mohr , 2004 . _
↑ 12 Archivo web de la UE . Oficina de Publicaciones de la Unión Europea. Consultado el 17 de junio de 2021. Archivado desde el original el 19 de junio de 2021. (indefinido)
↑ 1 2 3 Jaffe, 2009 .
↑ Aaron Souppouris. Internet Archive alberga ahora 10 petabytes de datos . El borde (27 de octubre de 2012). Consultado el 12 de junio de 2021. Archivado desde el original el 11 de abril de 2021. (indefinido)
↑ 1 2David Streitfeld. El archivo de Internet, tratando de abarcar toda la creación . New York Times (31 de octubre de 2014). Consultado el 13 de junio de 2021. Archivado desde el original el 10 de mayo de 2021. (indefinido)
↑ 1 2 Benny Evangelista. Internet Archive, repositorio de cultura moderna, cumple 20 años . San Francisco Chronicle (28 de octubre de 2016). Consultado el 12 de junio de 2021. Archivado desde el original el 20 de mayo de 2021. (indefinido)
↑ Kurtis Alejandro. Oficina de Internet Archive en San Francisco dañada por un incendio . Puerta SF (6 de noviembre de 2013). Consultado el 13 de junio de 2021. Archivado desde el original el 15 de mayo de 2021. (indefinido)
↑ David Streitfield. Internet Archive protegerá a los visitantes . New York Times (24 de octubre de 2013). Consultado el 13 de junio de 2021. Archivado desde el original el 26 de octubre de 2021. (indefinido)
↑ El archivo de Internet más grande del mundo huye de EE. UU. debido a Trump . Noticias C (30 de noviembre de 2016). Consultado el 11 de junio de 2021. Archivado desde el original el 15 de abril de 2021. (indefinido)
↑ Andrew Liptak. Internet Archive está trabajando para preservar las publicaciones públicas de Google+ antes de que cierre . El borde (17 de marzo de 2019). Consultado el 12 de junio de 2021. Archivado desde el original el 29 de agosto de 2021. (indefinido)
↑ Mark Colina. Conozca a los archivistas activistas que salvan Internet del basurero digital . Descubrir (13 de mayo de 2021). Consultado el 13 de junio de 2021. Archivado desde el original el 8 de junio de 2021. (indefinido)
↑ Enlaces rotos de Wikipedia corregidos por Internet Archive . Noticias de la BBC (3 de octubre de 2018). Consultado el 13 de junio de 2021. Archivado desde el original el 9 de julio de 2021. (indefinido)
↑ Klint Finley. Internet Archive está haciendo que Wikipedia sea más confiable . Por cable (11 de marzo de 2019). Consultado el 13 de junio de 2021. Archivado desde el original el 24 de noviembre de 2019. (indefinido)
↑ John Porter. Internet Archive está agregando vistas previas digitales de fuentes de libros a los artículos de Wikipedia . El borde (4 de noviembre de 2019). Consultado el 12 de junio de 2021. Archivado desde el original el 25 de febrero de 2021. (indefinido)
↑ Adán Smith. Internet Archive vincula libros digitales con citas de Wikipedia . PC Mag (4 de noviembre de 2019). Consultado el 13 de junio de 2021. Archivado desde el original el 7 de marzo de 2021. (indefinido)
↑ John Porter. Brave browser ahora apunta automáticamente a Wayback Machine en 404 . El borde (26 de febrero de 2020). Consultado el 12 de junio de 2021. Archivado desde el original el 22 de junio de 2021. (indefinido)
↑ Lily Hay Newman. The Wayback Machine y Cloudflare quieren respaldar la Web . Por cable (17 de septiembre de 2020). Consultado el 13 de junio de 2021. Archivado desde el original el 18 de mayo de 2021. (indefinido)
↑ Lila Bailey. Lucha contra la desinformación en línea . Blogs de Internet Archive (30 de octubre de 2019). Fecha de acceso: 13 de junio de 2021. (indefinido)
↑ Acker, 2020 .
↑ Elizabeth Dwoskin. La desinformación sobre el coronavirus encuentra nuevas vías en sitios inesperados . Washington Post (20 de junio de 2020). Consultado el 13 de junio de 2021. Archivado desde el original el 16 de junio de 2021. (indefinido)
↑ Wayback Machine ahora valida información para páginas web de archivo . Papelera (2 de noviembre de 2020). Consultado el 5 de junio de 2021. Archivado desde el original el 28 de junio de 2021. (indefinido)
↑ Adi Robertson. Internet Archive advierte a los usuarios sobre la desinformación desacreditada del coronavirus 'zombie' . El borde (12 de mayo de 2020). Consultado el 12 de junio de 2021. Archivado desde el original el 20 de mayo de 2021. (indefinido)
↑ J. Fingas. Internet Archive agrega verificaciones de hechos para explicar las eliminaciones de páginas web . engadget (1 de noviembre de 2020). Consultado el 13 de junio de 2021. Archivado desde el original el 23 de julio de 2021. (indefinido)
↑ Víctor Barreiro. Internet Archive agrega verificaciones de hechos a las páginas en Wayback Machine . Rappler (2 de noviembre de 2020). Consultado el 13 de junio de 2021. Archivado desde el original el 26 de octubre de 2021. (indefinido)
↑ Schwarz, 2006 .
↑ Toyoda, 2012 , pág. 1441-1443.
↑ 1 2 3 4 5 6 Kalev Leetaru. Internet Archive cumple 20 años: una mirada entre bastidores al archivo de la Web . Forbes (11 de junio de 2021). Consultado el 12 de junio de 2021. Archivado desde el original el 26 de octubre de 2021. (indefinido)
↑ 12 Simón, 2006 .
↑ Archivar el mundo: GDELT se une a la iniciativa "No más 404" de Internet Archive . Proyecto GDELT. Consultado el 20 de junio de 2021. Archivado desde el original el 8 de marzo de 2021. (indefinido)
↑ Marcos Graham. ¡No más 404! Resucita páginas web muertas con nuestro nuevo complemento para Firefox. . Archive.org (9 de agosto de 2016). Fecha de acceso: 20 de junio de 2021. (indefinido)
↑ 12 Lerner , 2017 , pág. 1741-1755.
↑ Michael Bryant. ¿Qué es Wayback Machine y por qué es útil? . Groovy Post (22 de abril de 2021). Consultado el 29 de mayo de 2021. Archivado desde el original el 18 de mayo de 2021. (indefinido)
↑ 1 2 3 4 5 Fernando, 2016 , p. 109-112.
↑ Chris Welch. Internet Archive lanzará una Wayback Machine modernizada en 2017 . El borde (22 de octubre de 2015). Consultado el 12 de junio de 2021. Archivado desde el original el 11 de abril de 2021. (indefinido)
↑ Rogers, 2017 , pág. 160-172.
↑ Laura Bohannon. Wayback Machine archiva sitios web durante más de 20 años . Sala de prensa espartana (7 de diciembre de 2017). Consultado el 5 de junio de 2021. Archivado desde el original el 24 de junio de 2021. (indefinido)
↑ O'Connor, 2008 , pág. 64.
↑ Maemura, 2018 .
↑ Notas, 2002 .
↑ Antón Blagoveshchensky. Reenviar al pasado . Rossiyskaya Gazeta (7 de marzo de 2012). Consultado el 12 de junio de 2021. Archivado desde el original el 26 de octubre de 2021. (indefinido)
↑ 12Mark Graham . Sugerencias para utilizar Wayback Machine de Internet Archive en su próxima investigación . Red Global de Periodismo de Investigación (5 de mayo de 2021). Consultado el 29 de mayo de 2021. Archivado desde el original el 29 de mayo de 2021. (indefinido)
↑ Al Noamany, 2014 .
↑ 12 Jones , 2018 .
↑ Graham, 2019 , pág. 103-110.
↑ Índice archivado del archivo web de derechos humanos . Bibliotecas de la Universidad de Columbia. Consultado el 16 de mayo de 2022. Archivado desde el original el 11 de mayo de 2021. (indefinido)
↑ Jennifer Schüssler. Occupy Wall Street: de las calles a los archivos . New York Times (2 de mayo de 2012). Consultado el 13 de junio de 2021. Archivado desde el original el 28 de octubre de 2021. (indefinido)
↑ Movimiento Ocupar 2011/2012 . Archivarlo (noviembre de 2011). Consultado el 15 de junio de 2021. Archivado desde el original el 3 de junio de 2021. (indefinido)
↑ Lischer-Katz, 2013 .
↑ Buscar. Archivo de Internet . Archivo de Internet. Recuperado: 17 de mayo de 2022. (indefinido)
↑ Katie Hafner. En Desafío a Google, Yahoo escaneará libros . The New York Times (3 de octubre de 2005). Consultado el 16 de junio de 2021. Archivado desde el original el 1 de septiembre de 2021. (indefinido)
↑ Microsoft ofrecerá búsquedas de contenido de libros en línea . The New York Times (26 de octubre de 2005). Consultado el 16 de junio de 2021. Archivado desde el original el 1 de septiembre de 2021. (indefinido)
↑ Escaneo de libros para ser financiado públicamente . Archivo de Internet. Fecha de acceso: 15 de junio de 2021. (indefinido)
↑ Nate Anderson. Por qué eliminar Live Book Search es bueno para el futuro de los libros . Ars Technica (26 de mayo de 2008). Consultado el 15 de junio de 2021. Archivado desde el original el 1 de septiembre de 2021. (indefinido)
↑ Miguel Helft. Microsoft cerrará el programa de búsqueda de libros . The New York Times (24 de mayo de 2008). Consultado el 15 de junio de 2021. Archivado desde el original el 12 de diciembre de 2020. (indefinido)
↑ Michael Bryant. ¿Qué es Internet Archive y qué puedo encontrar en él? . Publicación G (22 de abril de 2021). Consultado el 15 de junio de 2021. Archivado desde el original el 16 de junio de 2021. (indefinido)
↑ Brewster Kahle. Transformar nuestras bibliotecas de analógicas a digitales: una visión para 2020 . Revista de educación (13 de marzo de 2017). Consultado el 15 de junio de 2021. Archivado desde el original el 2 de agosto de 2021. (indefinido)
↑ 1 2 3 Russell Brandom. Los editores demandan a Internet Archive por el préstamo de libros electrónicos de Open Library . El borde (1 de junio de 2020). Consultado el 12 de junio de 2021. Archivado desde el original el 1 de junio de 2020. (indefinido)
↑ Buscar . Archivo de Internet. Fecha de acceso: 16 de junio de 2021. (indefinido)
↑ Buscar. Archivo de Internet . Archivo de Internet. Recuperado: 17 de mayo de 2022. (indefinido)
↑ Buscar. Archivo de Internet . Archivo de Internet. Recuperado: 17 de mayo de 2022. (indefinido)
↑ Buscar. Archivo de Internet . Archivo de Internet. Recuperado: 17 de mayo de 2022. (indefinido)
↑ Will Pritchard. Cómo The Great 78 Project está salvando medio millón de canciones de la oscuridad . La fábrica de vinilos (18 de agosto de 2017). Consultado el 16 de junio de 2021. Archivado desde el original el 7 de noviembre de 2017. (indefinido)
↑ Kait Sánchez. Así es como Internet Archive digitaliza registros de 78 rpm . El borde (26 de abril de 2021). Consultado el 12 de junio de 2021. Archivado desde el original el 25 de mayo de 2021. (indefinido)
↑ Dani Deahl. Ahora se pueden escuchar más de 50.000 piezas de vinilo digitalizadas en Internet Archive . El borde (12 de agosto de 2017). Consultado el 12 de junio de 2021. Archivado desde el original el 12 de julio de 2021. (indefinido)
↑ Jake Coyle. En la Red: Conciertos en la Web . Noticias de Taiwán. Consultado el 16 de junio de 2021. Archivado desde el original el 28 de octubre de 2021. (indefinido)
↑ Bastón de Verge. Los servicios de transmisión de música favoritos de The Verge . El borde (13 de abril de 2021). Consultado el 16 de junio de 2021. Archivado desde el original el 20 de abril de 2021. (indefinido)
↑ imágenes . Archivo de Internet. Fecha de acceso: 16 de junio de 2021. (indefinido)
↑ Bob Jacobs, Paul Hickmann. NASA e Internet Archive Team para digitalizar imágenes espaciales . NASA. Consultado el 16 de junio de 2021. Archivado desde el original el 28 de agosto de 2021. (indefinido)
↑ Leo Kelión. Millones de imágenes históricas publicadas en Flickr . Noticias de la BBC (29 de agosto de 2014). Consultado el 16 de junio de 2021. Archivado desde el original el 5 de agosto de 2021. (indefinido)
↑ Vasili Parfenov. 2500 razones para instalar DOS aparecieron en el "Archivo de Internet" . Mecánica Popular (17 de octubre de 2019). Consultado el 12 de junio de 2021. Archivado desde el original el 28 de octubre de 2021. (indefinido)
↑ Alejandro Abramov. Internet Archive conservará los proyectos basados en Flash . SpB IT (23 de noviembre de 2020). Consultado el 12 de junio de 2021. Archivado desde el original el 28 de enero de 2021. (indefinido)
↑ Ian Carlos Campbell. Internet Archive ahora protege juegos y animaciones Flash . El borde (19 de noviembre de 2020). Consultado el 12 de junio de 2021. Archivado desde el original el 20 de noviembre de 2020. (indefinido)
↑ Se ha publicado un archivo de 1500 programas basados en navegador para Windows 3.x. N+1 (15 de febrero de 2016). Consultado el 12 de junio de 2021. Archivado desde el original el 28 de octubre de 2021. (indefinido)
↑ 12 Ojalá , 2021 .
↑ Constanza Grady. Por qué los autores están tan enojados con la Biblioteca de emergencia de Internet Archive . Vox (2 de abril de 2020). Consultado el 12 de junio de 2021. Archivado desde el original el 4 de abril de 2020. (indefinido)
↑ Berčič, 2005 , pág. 17-24.
↑ 12 Holub , 2014 .
↑ Webarchiv: 20 años de archivo web en la República Checa . Consorcio Internacional de Preservación de Internet (8 de diciembre de 2020). Consultado el 17 de junio de 2021. Archivado desde el original el 4 de julio de 2021. (indefinido)
↑ De piloto a portal: un año de archivo web en Hungría . Consorcio Internacional de Preservación de Internet (26 de junio de 2020). Consultado el 17 de junio de 2021. Archivado desde el original el 4 de julio de 2021. (indefinido)
↑ Colecciones de la Biblioteca Nacional de Irlanda 2011-2018 . Archivarlo. Consultado el 17 de junio de 2021. Archivado desde el original el 2 de julio de 2021. (indefinido)
↑ Brugger, 2019 .
↑ Harrison, 2005 .
↑ Milligan, 2016 .
↑ Pearce, 2009 , pág. 875.
↑ Jeffrey Brainard. Decenas de revistas científicas han desaparecido de Internet y nadie las ha conservado . Ciencia (8 de septiembre de 2020). Consultado el 1 de junio de 2021. Archivado desde el original el 15 de octubre de 2020. (indefinido)
↑ Diana Kwon. Más de 100 revistas científicas han desaparecido de Internet . Naturaleza (10 de septiembre de 2020). Consultado el 1 de junio de 2021. Archivado desde el original el 3 de octubre de 2020. (indefinido)
↑ avouner. Decenas de revistas científicas han desaparecido de Internet en los últimos 20 años y nadie las ha salvado . Habr (10 de septiembre de 2020). Consultado el 5 de junio de 2021. Archivado desde el original el 29 de octubre de 2021. (indefinido)
↑ Lisa M. Bowman. Archivo neto silencia a crítico de Cienciología . CNet (24 de septiembre de 2002). Fecha de acceso: 10 de junio de 2021. (indefinido)
↑ Ernest Miller. Características: Sherman, establece la Wayback Machine para Scientology . LawMeme (24 de septiembre de 2002). Fecha de acceso: 10 de junio de 2021. (indefinido)
↑ Dmitri Kinsky. Internet Archive ha lanzado al público más de un millón de libros raros . Mundo de Fantasía (3 de abril de 2020). Consultado el 12 de junio de 2021. Archivado desde el original el 4 de noviembre de 2021. (indefinido)
↑ Los editores de libros estadounidenses demandan a Internet Archive . Vedomosti (2 de junio de 2020). Consultado el 12 de junio de 2021. Archivado desde el original el 30 de junio de 2021. (indefinido)
↑ Los editores de libros occidentales están exprimiendo la "máquina del tiempo" de Internet del mundo . CNoticias (2 de junio de 2020). Consultado el 12 de junio de 2021. Archivado desde el original el 1 de septiembre de 2021. (indefinido)
↑ Kim Lyon. El Archivo de Internet ha terminado su 'biblioteca de emergencia' antes de tiempo . El borde (14 de junio de 2020). Consultado el 12 de junio de 2021. Archivado desde el original el 9 de julio de 2021. (indefinido)
↑ Elizabeth A. Harris. Los editores demandan a Internet Archive por los libros electrónicos gratuitos . New York Times (1 de junio de 2020). Fecha de acceso: 13 de junio de 2021. (indefinido)
↑ Andrew Albanese. Juez establece cronograma tentativo para caso de derechos de autor de archivos de Internet . Publishers Weekly (1 de septiembre de 2020). Consultado el 18 de junio de 2021. Archivado desde el original el 8 de septiembre de 2020. (indefinido)
↑ Roskomnadzor agregó el "archivo de Internet" al registro de sitios prohibidos . Meduza (25 de octubre de 2014). Consultado el 18 de junio de 2021. Archivado desde el original el 15 de junio de 2021. (indefinido)
↑ Georgy Peremitin. Roskomnadzor bloqueó el archivo de Internet . RBC (25 de junio de 2015). Consultado el 12 de junio de 2021. Archivado desde el original el 21 de agosto de 2021. (indefinido)
↑ "Archivo de Internet" agregado a la lista de sitios prohibidos . Moscú 24 (1 de septiembre de 2015). Consultado el 12 de junio de 2021. Archivado desde el original el 27 de noviembre de 2021. (indefinido)
↑ Dmitri Shestoperov, Anastasia Yevtushenko. El "Archivo de Internet" está en línea nuevamente . Gazeta.ru (18 de abril de 2016). Consultado el 13 de junio de 2021. Archivado desde el original el 3 de mayo de 2021. (indefinido)
↑ Los expertos explican el motivo del bloqueo de sitios web en Kazajstán . Kaz Pravda (21 de octubre de 2015). Consultado el 18 de junio de 2021. Archivado desde el original el 3 de octubre de 2021. (indefinido)
↑ Natalia Kozina. Las autoridades de Kirguistán han bloqueado el "Archivo de Internet" debido a "materiales extremistas" . Kloop (18 de julio de 2017). Consultado el 12 de junio de 2021. Archivado desde el original el 28 de junio de 2021. (indefinido)
↑ "Internet Archive" puede estar permanentemente bloqueado en Rusia . Noticias C (23 de agosto de 2019). Consultado el 12 de junio de 2021. Archivado desde el original el 24 de junio de 2021. (indefinido)
↑ En Rusia, se abrió un caso contra el "archivo de todo Internet" . RBC (12 de mayo de 2022). Consultado el 13 de mayo de 2022. Archivado desde el original el 12 de mayo de 2022. (indefinido)
↑ Internet Archive se enfrenta a una multa de 4 millones de rublos por no eliminar contenido prohibido . Interfax (12 de mayo de 2022). Consultado el 17 de mayo de 2022. Archivado desde el original el 16 de mayo de 2022. (indefinido)
↑ Valery Románov. Tribunal ruso multó a Internet Archive por cóctel molotov . www.gazeta.ru (29 de junio de 2022). Recuperado: 1 julio 2022. (indefinido)
↑ Turquía restaura el acceso a Google Drive después de bloquear los servicios de almacenamiento en la nube . Noticias diarias (10 de octubre de 2016). Consultado el 18 de junio de 2021. Archivado desde el original el 14 de abril de 2021. (indefinido)
↑ Archivo de Internet bloqueado en India . Nag (16 de agosto de 2017). Consultado el 12 de junio de 2021. Archivado desde el original el 29 de octubre de 2021. (indefinido)
↑ Colm Gorey. India acusada de censura porque Internet Archive se bloquea inesperadamente . Silicon Republic (9 de agosto de 2017). Consultado el 18 de junio de 2021. Archivado desde el original el 2 de marzo de 2021. (indefinido)
↑ Leo Kelión. 'Bollywood bloquea el Archivo de Internet' . BBC. Consultado el 18 de junio de 2021. Archivado desde el original el 6 de agosto de 2018. (indefinido)

Literatura

Acker, A. y Chaiet, M. La militarización de los archivos web: artesanía de datos y públicos de COVID-19. // Revisión de la desinformación de la Escuela Kennedy de Harvard (HKS). - 2020. - doi : 10.37016/mr-2020-41 .
Arora S., Li Y., Youtie J., Shapira P. Uso de la máquina wayback para extraer sitios web en las ciencias sociales: un recurso metodológico. - 2015. - T. 67 , núm. 8 _ - S. 1904-1915 . -doi : 10.1002/ asi.23503 .
AlNoamany Y., AlSum A., Weigle M., Nelson M. Quién y qué vincula a Internet Archive // Int J Digit Libr. - 2014. - Edición. 14 _ - S. 101-115 . -doi : 10.1007/ s00799-014-0111-5 .
Berčič B. Protección de datos personales y material protegido por derechos de autor en la web: los casos de Google e Internet Archive // Ley de tecnología de las comunicaciones. - 2005. - T. 14 , núm. 1 . - S. 17-24 . -doi : 10.1080/ 1360083042000325283 .
Bowyer S. The Wayback Machine: notas sobre un reencantamiento // Archival Science. - 2021. - T. 21 . - S. 43-57 .
Fernando Z., Marenzi I., Nejdl W., Kalyani R. ArchiveWeb: Ampliación y exploración colaborativa de colecciones de archivos web // Investigación y tecnología avanzada para bibliotecas digitales. - 2016. - S. 107-121 .
Harrison T. The Internet Archive and Content Analysis // Investigación social cualitativa sobre las TIC. — 2005.
Graham P. Editorial invitada: Reflexiones sobre la ética del archivado web // Journal of Archival Organization. - 2019. - S. 103-110 . doi : 10.1080 / 15332748.2018.1517589 .
Jaffe E., Kirkpatrick S. Arquitectura de The Internet Archive // Actas de SYSTOR 2009: The Israeli Experimental Systems Conference 2009, Haifa, Israel, 4-6 de mayo de 2009. - 2009. - doi : 10.1145/1534530.1534545 .
Kahle B. Brewster Kahle. Fundador, WAIS, Internet Archive, Alexa Internet // Fundadores en el trabajo. Historias de los primeros días de las Startups. - 2008. - S. 265-280 .
Carolina Holub. Archivo web croata: una descripción general // Pregled NDC. - 2014. - Edición. 25 . - S. 11-16 .
Kimpton M., Ubois J. Año a año: de un archivo de Internet a un archivo en Internet // Archivo web. - 2006. - S. 201-212 .
Lischer-Katz Z. Conceptualización de formas de archivo emergentes: un estudio de caso del "archivo" de Ocupar Wall Street // Asociación para la ciencia y la tecnología de la información. - 2013. - doi : 10.1002/meet.14504901275 .
Lerner A., Kohno T., Roesner F. Reescribiendo la historia: cambiando la web archivada desde el presente // Association for Computing Machinery. - 2017. - doi : 10.1145/3133956.3134042 .
Maemura E., Worby N., Milligan I., Becker C. Si estos rastreos pudieran hablar: estudiar y documentar la procedencia de los archivos web // Revista de la asociación de ciencia y tecnología de la información. - 2018. - T. 69 , núm. 10 _ - S. 1223-1233 .
Milligan I. Lost in the Infinite Archive: la promesa y las trampas de los archivos web // International Journal of Humanities and Arts Computing. — 2016.
Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M. Una introducción a Heritrix // 4.º Taller internacional de archivo web (2004). — 2004.
Murphy J., Hashim N., O'Connor P. Take Me Back: Validación de Wayback Machine // Journal of Computer-Mediated Communication. - 2008. - Edición. 13 _ - S. 60-75 .
Niels Brugger, Ditte Laursen. La Web Histórica y las Humanidades Digitales. El Caso del Dominio Web Nacional. — Routledge. - 2019. - 206 págs. — ISBN 9780367671181 .
Notas G. The Wayback Machine: The Web's Archive // Online. - 2002. - T. 26 , núm. 2 .
Ojala M. Préstamo digital controlado: ¿préstamo legal o piratería? // Información Hoy. - 2021. - T. 45 , núm. 1 .
Pearce D., Charlton B. El plagio de material en línea puede probarse utilizando Internet Archive Wayback Machine (archive.org) // Hipótesis médica. - 2009. - S. 875 .
Rackley M. Internet Archive // Enciclopedia de biblioteconomía y ciencias de la información. - 2010. - Vol. 1 , número. 1 . - S. 2966-2976 .
Rogers R. Haciendo historia web con Internet Archive: documentales screencast // Historias de Internet. - 2017. - Vol. 1 , número. 1-2 . - S. 160-172 . -doi : 10.1080/ 24701475.2017.1307542 .
Simon J. Centro de Bibliotecas de Investigación Partidos Políticos del Medio Oriente Recolección de Web y otros esfuerzos // "Taller de Desarrollo de Colecciones Internacionales". — 2006.
Shawn M. Jones, Michele C. Weigle, Alexander Nwala, Michael L. Nelson. Las múltiples formas de Archive-It. Características de las colecciones Archive-It // ArXiv.org. — 2018.
Schwarz T., Baker M., Bassi S., Baumgart B., Flagg W., Ingen C., Joste K., Manasse M., Shah M. Investigaciones de fallas de disco en Internet Archive // Conferencia NASA/IEEE sobre Sistemas y Tecnologías de Almacenamiento Masivo. — 2006.
Toyoda M., Kitsuregawa M. La historia del archivo web // Actas del IEEE. - 2012. - T. 100 . - S. 1441-1443 .
Witten I., Gori M., Numerico T. La literatura y la web // Web Dragons. - 2007. - S. 29-59 .
Savitskaya T. E. Proyecto "Millones de libros" // Bibliotekovedenie. - 2019. - T. 68 , núm. 1 . - S. 67-76 . (Ruso)

Enlaces

Sitio oficial
Archivo web de la UE Archivado el 19 de junio de 2021 en Wayback Machine .