Máquina de regreso | |
---|---|
| |
URL | web.archivo.org |
tipo de sitio | archivo web |
Idiomas) | inglés |
Lenguaje de programación | java , pitón |
Dueño | Archivo de Internet |
Comienzo del trabajo | 24 de octubre de 2001 |
País | |
Archivos multimedia en Wikimedia Commons |
Wayback Machine (del inglés - "Time Machine") es un archivo en línea gratuito de la biblioteca sin fines de lucro " Archivo de Internet ". Con la ayuda de robots de búsqueda , Wayback Machine archiva y pone a disposición del público la mayor parte de la Internet "abierta" [1] . El servicio se lanzó en 1996, pero no estuvo disponible para el público hasta 2001. En sus primeros 20 años de existencia, Wayback Machine catalogó y preservó una colección de más de 286 mil millones de páginas web. Las instantáneas archivadas se muestran en formato HTML , JavaScript y CSS [2] . Gracias a los documentos guardados en Wayback Machine, los usuarios pueden realizar un seguimiento de los cambios que se producen en los sitios y comparar diferentes versiones de ediciones [3] . A partir de junio de 2022, Wayback Machine brinda acceso a más de 689 mil millones de páginas web guardadas [4] .
En 1989, el científico inglés Tim Berners-Lee creó la World Wide Web , un sistema que le permite transferir datos a través de computadoras conectadas a Internet. Sin embargo, con la difusión de la World Wide Web, se han identificado dos problemas principales. El primero fue la falta de espacio para almacenar todos los datos, lo que provocó que muchos documentos y páginas web fueran eliminados. Otro problema era que después de editar una página web (por motivos legales, por ejemplo), los usuarios no podían ver su versión original. Internet Archive, una biblioteca digital estadounidense , una organización sin fines de lucro creada por los programadores Brewster Cale y Bruce Galliat en 1996, buscó solucionar estas deficiencias. En asociación con Alexa Internet ( una subsidiaria de indexación web de Amazon ), el "Archivo" inició la creación y el almacenamiento de copias de sitios existentes para desarrollar el "acceso universal al conocimiento". La organización proporcionó acceso público gratuito a materiales digitalizados como páginas web, libros, grabaciones de audio, incluidos conciertos en vivo, videos, imágenes y software. A partir de 2021, Internet Archive tiene su sede en San Francisco , en un antiguo edificio de iglesia cristiana ubicado en el área de Richmond . Un periodista de la emisora de radio local Kawl en 2019 comparó la oficina del Archivo con un templo romano [5] [6] [7] . La organización tiene como objetivo salvar a Internet de la extinción [8] .
La Wayback Machine se convirtió en el proyecto más famoso del Archivo. El servicio en línea lleva el nombre de la máquina del tiempo de la serie animada de la década de 1960 The Rocky and Bullwinkle Show . Proporciona acceso a una colección digital de más de 550 mil millones de páginas web [3] [9] [10] . El proyecto Wayback Machine se concibió como una solución al problema de un error 404 , lo que significa que el servidor no puede encontrar los datos en la dirección solicitada. Esto se debe a la llamada extinción de enlaces : la creciente inaccesibilidad de los datos una vez publicados. Por ejemplo, en 1997, la vida media de una página web era de 44 días. En 2003, esta cifra era de 100 días. Un análisis de 2008 de enlaces a 2700 recursos digitales, la mayoría de los cuales no tenían equivalentes impresos, mostró que alrededor del 8 por ciento de los enlaces dejaron de funcionar después de un año. Para 2011, después de tres años, el 30 por ciento de los enlaces de la colección estaban rotos [11] . Gracias a la integración con Alexa, el usuario que encontró el mensaje de error pudo acceder a la versión archivada de la página a través de la barra de herramientas integrada en el navegador. Si hubiera una copia de la página inaccesible en la base de datos de Wayback Machine, entonces se iluminaría un botón especial. Al mismo tiempo, los usuarios podían dar permiso al navegador para ver y registrar la actividad; en este caso, todos los sitios visitados se archivaban en el portal [12] .
La Wayback Machine se lanzó en mayo de 1996, pero no estuvo disponible para el público hasta 2001; antes de eso, toda la información registrada en cintas magnéticas digitales estaba abierta solo a un número limitado de científicos e investigadores [13] . En el momento de la "apertura", el archivo contenía más de 10 mil millones de páginas archivadas [3] . Para diciembre de 2014, Wayback Machine informó que había guardado 435 mil millones de páginas web en todo el mundo [1] . Técnicamente, el software Wayback Machine no es un archivo, sino una interfaz pública para un subconjunto limitado de todos los repositorios [14] . Por lo tanto, Wayback Machine no puede considerarse un motor de búsqueda de la colección de la organización, ya que no busca en la base de datos de otra gran biblioteca virtual: Open Library , que permite a los usuarios acceder a copias digitales gratuitas de libros que se descargan y archivan como parte de el proyecto [15] [16 ] .
Con el lanzamiento de Wayback Machine, Internet Archive se ha convertido en uno de los portales en línea más populares y reconocibles y en el principal servicio de archivo web [3] [8] . En 1999, The Archive comenzó a expandir la colección más allá del contenido web de archivo para brindar estatus a los recursos digitales nativos y digitalizados, incluidos libros, audio, películas, imágenes, documentos, software y videojuegos [6] . Algunos escaneos los realizan los propios robots de búsqueda del archivo, mientras que otros los realizan organizaciones asociadas. Las bases de datos individuales pueden adquirirse a través de donaciones de usuarios y adquisiciones dirigidas [16] . Los propios fundadores de la organización compararon su colección con la Biblioteca de Alejandría [6] . A partir de 2021, Wayback Machine contenía más de 424 000 millones de páginas web [14] , más que los documentos de la Biblioteca del Congreso [17] [6] [16] .
La plataforma Wayback Machine funciona a través de dos elementos principales: robots de búsqueda (o rastreadores web) y una interfaz. Los rastreadores web visitan, recuperan, descargan y archivan páginas web. A su vez, a través de la interfaz, los usuarios acceden a las colecciones en línea [2] .
Colección Wayback Machine por año | Páginas archivadas (en miles de millones) |
---|---|
2005 | 40 |
2008 | 85 |
2012 | 150 |
2013 | 373 |
2014 | 400 |
2015 | 452 |
2016 | 505 |
2020 | 514 |
2021 | 581 |
2022 | 689 |
Inicialmente, la colección de archivos se reabastecía mediante un complemento de navegador de Alexa Internet , que capturaba y guardaba automáticamente cada página web a medida que se visitaba, y luego transfería toda la información recopilada al "Archivo de Internet". Los usuarios también podían instalar una barra de herramientas gratuita que les permitía comprobar el estado de archivo de un sitio web seleccionado [16] .
En 2002, el Archivo lanzó su propio robot de búsqueda de código abierto , Heritrix . Los códigos de los rastreadores se escriben utilizando una combinación de lenguajes de programación C y Perl . Además, Internet Archive también acepta datos escaneados de otros donantes [6] . Las copias escaneadas de sitios web se convierten automáticamente en archivos de unos 100 MB, que luego se almacenan en servidores. La tasa total de reposición del archivo es de unos 10 terabytes por mes [19] .
Los rastreadores web capturan la versión del sitio tal como se guardó cuando se accedió a él a través de la URL. Los robots rastrean regularmente grandes cantidades de páginas web, descargando, analizando y renderizando páginas HTML , JavaScript y CSS de forma recursiva [2] . El mecanismo de rastreo es similar al trabajo de los motores de búsqueda: los robots buscan de forma independiente portales para archivar a través de un buscador, escanean páginas y sitios relacionados, formando así una red de portales. En el momento de la creación de Internet Archive, la red mundial era tan pequeña que los rastreadores web podían atravesar todos los sitios en una sola sesión. Sin embargo, con el tiempo, el crecimiento constante de los portales en línea y su volatilidad han hecho que sea casi imposible pasar por alto toda la red. Por lo tanto, no todos los cambios de sitio se registran en Wayback Machine [8] . La Guía de Internet Archive no especifica cómo los robots encuentran y seleccionan páginas para rastrear, pero afirma que la mayoría de las veces los rastreadores se dirigen a los sitios que tienen enlaces cruzados desde otros portales y son de dominio público. El rastreador comienza con una página web y luego sigue cada hipervínculo en esa página web para ir a nuevos sitios. En cada una de las nuevas páginas web, el rastreador repite el proceso [14] . Continuará hasta que se detenga el archivo o alcance el límite establecido por el script [20] . Además, cada usuario puede usar un formulario especial en el portal y llamar al rastreador, que guardará la página en el estado actual [2] . Wayback Machine solo rastrea páginas web públicas y no puede acceder a contenido protegido con contraseña o ubicado en un servidor privado [10] [14] [3] .
La interfaz de Wayback Machine permite a los usuarios realizar dos acciones principales: acceder al historial de cambios en el sitio y ver todas las ediciones realizadas en los portales. La función de comparar diferentes versiones de sitios también está disponible [12] [21] [17] [22] . Para hacer esto, la URL del portal de interés se ingresa en un cuadro de búsqueda especial, después de lo cual Wayback Machine emite una lista de fechas de archivo. Se usa un asterisco después de algunas fechas para indicar cambios encontrados en la página. La URL de la página archivada comienza con web.archive.org [23] [14] .
Cualquiera puede guardar direcciones URL para archivar y, con una cuenta de archivo gratuita, puede crear y archivar cualquier enlace saliente o externo en la página de inicio y obtener un informe general [24] [24] .
En 2018, la colección de Internet Archive era de más de 40 petabytes o 40 millones de gigabytes de datos, Wayback Machine proporcionó acceso a aproximadamente el 63 % de todos los materiales disponibles [25] . En febrero de 2020, el archivo de Wayback Machine tenía más de 900 000 millones de URL y más de 400 000 millones de páginas web [26] . A partir de junio de 2021, Wayback Machine proporcionó acceso a más de 581 000 millones de páginas web guardadas [4] .
El portal Wayback Machine se usa a menudo en el campo legal: los abogados usan el servicio para buscar información sobre reclamos civiles, casos penales, procedimientos administrativos y procesos de patentes. Las versiones de archivo de los sitios obtenidos a través de Wayback Machine se pueden usar para resolver problemas de leyes de patentes o establecer sanciones por publicar material que ya se eliminó de la web [2] [12] . A pesar del uso generalizado de la colección de Internet Archive para proporcionar pruebas, algunos tribunales estadounidenses se han negado a aceptar capturas de pantalla de páginas web, citando la dificultad legal de identificar el documento original y su versión archivada [27] . En 2018, la Corte de Apelaciones del Segundo Circuito de EE . UU. dictaminó que las capturas de pantalla de las páginas web archivadas de Wayback Machine son evidencia legal que se puede usar en procedimientos legales; anteriormente, la Corte de Apelaciones del Tercer Circuito Federal de Apelaciones de los Estados Unidos tomó una decisión similar [28] ; más tarde , la Corte de Apelaciones del Séptimo Circuito de los Estados Unidos también dictaminó que las capturas de pantalla del archivo web eran evidencia electrónica admisible [29] .
Gracias a los artículos archivados en Wayback Machine, los autores pueden establecer el derecho de abrir o publicar [30] . Para sociólogos e historiadores, Wayback Machine ofrece una valiosa fuente de datos a gran escala para analizar el comportamiento de la empresa, las estrategias de ventas y las prácticas sociales [1] [31] . Wayback Machine también permite el acceso a revistas de acceso abierto . Así, desde principios de la década de 2000, 84 revistas de AA de ciencias naturales y unas 100 más de ciencias sociales y humanidades han desaparecido de Internet [32] [33] [34] .
Activistas e investigadores están utilizando el portal para combatir la desinformación , que se ha intensificado desde la elección del presidente Donald Trump en Estados Unidos . En respuesta a un aumento en las declaraciones contradictorias de la administración presidencial, el Archivo ha creado una colección separada llamada Archivo Trump que contiene las apariciones televisivas y los tuits del presidente . El Archivo espera que su repositorio ayude a otros a identificar información falsa y verificar contenido sospechoso [35] [36] . Sin embargo, en algunos casos, activistas individuales han argumentado que los recursos archivados por Wayback Machine, por el contrario, contribuyeron a la difusión de información errónea. Entonces, con el inicio de la pandemia de coronavirus , los teóricos de la conspiración utilizaron las capturas de pantalla guardadas por el portal para difundir información falsa sobre el coronavirus [37] . Como contramedida , en noviembre de 2020, el Archivo implementó herramientas para verificar la autenticidad de la información en Wayback Machine. Para hacer esto, la organización sin fines de lucro se asoció con varias compañías de verificación de hechos para brindar a los usuarios razones para eliminar una página en particular de la colección. Al abrir una versión archivada de un sitio, Wayback Machine brinda a los usuarios información sobre el motivo de su eliminación en forma de un banner amarillo en la parte superior de la pantalla. Si se sospecha que una página web está involucrada en una campaña de desinformación, Wayback Machine proporciona detalles de la organización que realizó la verificación y un enlace a su informe [38] .
En algunos casos, la información obtenida a través de Wayback Machine ha aparecido en grandes escándalos. Así, con la ayuda del portal, se supo que el representante oficial del Departamento de Salud y Servicios Humanos de EE. UU., Michael Caputo , publicó comentarios racistas y despectivos sobre el pueblo chino en una serie de tuits ya borrados [ 39] . Además, Wayback Machine conserva una copia de un mensaje eliminado de una página titulada "Informes de Igor Ivanovich Strelkov " en la red social VKontakte sobre el avión An-26 derribado, que en realidad resultó ser un Boeing 777 de pasajeros [40]. ] [41] . En mayo de 2021, Bellingcat descubrió que el ejército de EE. UU. en Europa estaba usando aplicaciones de memoria móvil para niños para almacenar datos clasificados. Debido a una configuración de privacidad establecida incorrectamente, otros usuarios han obtenido acceso a información confidencial. Después de que se descubrió la filtración, los militares retiraron todas las tarjetas, pero permanecieron en la Wayback Machine [42] .
Internet Archive no solicita permiso para copiar sitios web antes de la recopilación remota de datos, pero elimina o restringe el acceso al material archivado a pedido. Anteriormente, los propietarios de sitios web tenían la oportunidad de "optar por no archivar" a través del archivo robots.txt estándar , que excluye los sitios web o sus páginas individuales, directorios, de la lista de portales para rastreadores web [8] [43] . A partir de 2022, las solicitudes para eliminar sitios o sus páginas del archivo solo se aceptan después de que se elimine una solicitud directa de la administración del sitio. Sin embargo, debido a la retención de otros datos, Internet Archive se encuentra en una posición legalmente vulnerable [44] . Por ejemplo, en 2005, Wayback Machine se vio envuelta en una disputa de marca registrada entre Healthcare Advocates y Health Advocate. Este último usó Wayback Machine para acceder a las páginas web de Healthcare Advocates que datan de 1999 en un intento de encontrar información que respaldara el caso. En respuesta, Healthcare Advocates demandó tanto a Health Advocate como a The Archive, alegando que Archive violó la Ley de derechos de autor del milenio digital . Posteriormente, el caso se resolvió extrajudicialmente [45] .
En 2002, el Archivo eliminó de su sistema los enlaces a las copias archivadas del portal Xenu.net propiedad del crítico eclesiástico Andreas Heldal-Lund. La eliminación se produjo a petición de los abogados de la Iglesia de la Cienciología , que reclamaron la propiedad de extractos de documentos de la Iglesia publicados en el sitio web [46] [47] .
Investigadores y activistas han criticado a Wayback Machine e Internet Archive por tratar de preservar todo el material en línea, mucho del cual es de poco valor. Según algunos investigadores, esto se debe a la política obsoleta del Archivo, que se fundó a fines de la década de 1990; luego, en los albores de la creación de los archivos de Internet, se creía que los datos de Internet debían almacenarse en su totalidad. Sin embargo, con la creación de muchos sitios de un día, muchos investigadores y activistas han cambiado de opinión [48] . Otras críticas se relacionan con las limitaciones técnicas del servicio: Wayback Machine no permite que se almacenen y procesen ciertos elementos de JavaScript, y también puede crear páginas archivadas que contienen enlaces rotos, faltan gráficos o están incompletas [49] . Los rastreadores capturan solo una instantánea estática del sitio: las funciones del portal basadas en Java o Flash no funcionarán. Esto significa que se pierde la mayor parte de la funcionalidad de la página web original [8] .
En 2015, Roskomnadzor decidió bloquear Wayback Machine por copiar una página del texto "Yihad solitaria en Rusia" que contenía información sobre "la teoría y práctica de la resistencia guerrillera". La página correspondiente en Internet Archive se agregó al registro oficial de sitios web prohibidos en Rusia el 23 de junio de 2015, por lo que algunos proveedores de Internet rusos se vieron obligados a bloquear completamente el sitio web de Archive [50] [51] [52] . El acceso a Wayback Machine se reabrió en 2016 después de que los videos prohibidos fueran eliminados del portal [53] .
En 2019, los representantes de Internet Copyright Association (ACAPI) presentaron una serie de demandas contra el servicio Wayback Machine por infracción de derechos de autor. Los representantes de AZAPI solicitaron al Tribunal de la Ciudad de Moscú que decidiera sobre el bloqueo permanente del portal en el territorio de Rusia, sin embargo, a partir de agosto de 2020, Internet Archive aún continuaba su trabajo [54] [55] [56] [57] .
En 2017, el portal fue bloqueado en India y Kirguistán por el contenido de "materiales extremistas" [58] [59] [60] . A partir de 2021, el sitio está bloqueado en China [61] .
En junio de 2022, el Tribunal de Distrito de Tagansky de Moscú multó a Internet Archive con 800.000 rublos por no eliminar un vídeo sobre cómo hacer un cóctel Molotov con la WayBack Machine [62] .