La Deep Web (también conocida como la "Web Invisible", "Deep Web", "Deep Internet"; en inglés deep web ;) es un conjunto de páginas web de la World Wide Web que no están indexadas por los motores de búsqueda .
El término se originó de acc. inglés red invisible [1] . La parte más significativa de la deep web es la Deep Web (del inglés deep web, hidden web ), que consiste en páginas web generadas dinámicamente por consultas a bases de datos en línea [2] .
El concepto de Deep Web no debe confundirse con el concepto de Dark Web (del inglés dark web ), que se refiere a segmentos de red , aunque conectados a Internet en general , pero que requieren ciertas herramientas de software para acceder.
La web profunda contiene páginas web que no están conectadas a otros hipervínculos (por ejemplo, páginas web sin salida creadas dinámicamente por secuencias de comandos en los propios sitios, bajo demanda, a las que los enlaces directos no conducen), así como sitios que solo son accesible para usuarios registrados y páginas web accesibles solo con contraseña.
Los motores de búsqueda utilizan robots de búsqueda especiales que siguen los hipervínculos e indexan el contenido de las páginas web en las que se encuentran, ingresando su contenido y los hipervínculos en sus bases de datos. Habiendo encontrado enlaces a otras páginas en la página web indexada, el robot de búsqueda los sigue e indexa el contenido de cada una de las páginas encontradas, encuentra nuevos hipervínculos y los sigue para la indexación; como resultado de hacer clic en enlaces que conducen fuera de las páginas indexadas, el número de páginas web indexadas aumenta constantemente. El bot de búsqueda no puede acceder a páginas web que no están vinculadas desde otras páginas, por lo que el contenido de estas páginas no está indexado. Como resultado, sin conocer la URL de un sitio o página web de la Deep Web, un usuario normal no podrá acceder a ellos.
La Deep Web también incluye sitios cuyos propietarios se negaron voluntariamente a ser indexados por los motores de búsqueda (por ejemplo, utilizando el archivo “robots.txt” ), así como sitios y páginas web protegidos por autorización de visualización de información por parte de terceros. En este caso, sin conocer el nombre de usuario y (o) la contraseña de la página web, es imposible ver completamente su contenido o utilizar el sitio web.
Se desconoce el tamaño de la web profunda. Hay estimaciones relativamente fiables del número total de sitios que conducen a bases de datos en línea: alrededor de 300 000 de estos sitios en toda la Web en 2004 y alrededor de 14 000 en RuNet en 2006 [3] [4] .
En 2005 , Yahoo! tomó un paso serio hacia la solución de este problema. La empresa lanzó el motor de búsqueda "Yahoo! Suscripciones”, que busca sitios (todavía pocos), cuyo acceso está abierto solo a los miembros registrados de estos sitios. Esto, sin embargo, no resolvió completamente el problema existente. Los expertos en motores de búsqueda todavía están tratando de encontrar opciones técnicas para indexar el contenido de la base de datos y acceder a sitios web privados.
Uno de los servicios de datos de la web profunda más populares es UFOseek , originalmente diseñado para organizar datos paranormales [5] .
Aunque no siempre es posible encontrar directamente el contenido de un servidor web en particular para que pueda indexarse, aún es posible acceder a dicho sitio (debido a vulnerabilidades informáticas ).
Para descubrir contenido en la web, los motores de búsqueda utilizan rastreadores web que siguen hipervínculos a través de números de puerto virtual de protocolo conocido. Este método es ideal para descubrir contenido en la World Wide Web , pero suele ser ineficaz cuando se busca contenido en la web profunda. Por ejemplo, los rastreadores web no buscan páginas dinámicas que sean el resultado de consultas a la base de datos debido al número indefinido de esas mismas consultas. Se ha observado que esto se puede solucionar (parcialmente) proporcionando enlaces a los resultados de la consulta, pero esto puede inflar inadvertidamente la popularidad de un miembro de la red profunda.
Hay varios motores de búsqueda que han accedido a la deep web. Intute ha terminado su financiación y ahora es un archivo temporal a partir de julio de 2011. Scirus cerró a finales de enero de 2013.
Los investigadores han estado estudiando cómo se puede escanear automáticamente la web profunda, incluido el contenido al que solo se puede acceder con un software dedicado como Tor . En 2001, Sriram Raghavan y Héctor García-Molina (Departamento de Ciencias de la Computación de Stanford, Universidad de Stanford ) presentaron un modelo arquitectónico de un motor de búsqueda oculto que usaba palabras clave proporcionadas por los usuarios o recopiladas de interfaces de consulta para consultar y rastrear la web profunda.
Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la web profunda. El protocolo Sitemap (desarrollado e implementado por primera vez por Google en 2005) y mod_oai son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos web profundos en servidores web específicos. Ambos mecanismos permiten que los servidores web alojen URL accesibles en ellos, lo que permite el descubrimiento automático de recursos que no están conectados directamente a la World Wide Web . El sistema de navegación web profunda de Google calcula las vistas para cada formulario HTML y agrega las páginas HTML resultantes al índice del motor de búsqueda de Google. Los resultados se basan en 1000 solicitudes por segundo de contenido web profundo. En este sistema, el precálculo de la representación se realiza mediante tres algoritmos: