Sistema de búsqueda

Motor de búsqueda ( ing. motor de búsqueda ) - algoritmos y un conjunto de programas informáticos que los implementan (en el sentido amplio del término, incluidos los sistemas analógicos para el procesamiento automatizado de información de primera generación ), proporcionando al usuario la capacidad de acceder rápidamente la información que necesita buscando en una vasta colección de datos disponibles [1] . Una de las aplicaciones más conocidas de los motores de búsqueda son los servicios web para buscar información textual o gráfica en la World Wide Web . También existen sistemas capaces de buscar archivosen servidores FTP , productos en tiendas en línea , información en grupos de noticias de Usenet .

Para buscar información utilizando un motor de búsqueda, el usuario formula una consulta de búsqueda [2] . El trabajo del motor de búsqueda es encontrar, a petición del usuario, documentos que contengan las palabras clave especificadas o palabras relacionadas de alguna manera con las palabras clave [3] . Al hacerlo, el motor de búsqueda genera una página de resultados de búsqueda . Dichos resultados de búsqueda pueden contener varios tipos de resultados, por ejemplo: páginas web , imágenes , archivos de audio . Algunos motores de búsqueda también extraen información de bases de datos relevantes y directorios de recursos en Internet . Para encontrar la información que necesita, es más conveniente utilizar motores de búsqueda modernos que le permitan encontrar rápidamente la información necesaria y garantizar la precisión y la exhaustividad de la búsqueda. Al trabajar con estas máquinas, basta con especificar las palabras clave que reflejen con mayor precisión la información que busca, o realizar una consulta más compleja de palabras clave para afinar el área de búsqueda. Después de ingresar una consulta de búsqueda, recibirá una lista de enlaces a documentos en Internet, comúnmente conocidos como páginas web o simplemente páginas, que contienen las palabras clave especificadas. Por lo general, los enlaces se complementan con fragmentos de texto del documento encontrado, que a menudo ayudan a determinar de inmediato el tema de la página encontrada. Al hacer clic en el enlace, puede ir al documento seleccionado.

El motor de búsqueda es mejor, cuantos más documentos relevantes para la consulta del usuario, se devolverá. Los resultados de búsqueda pueden volverse menos relevantes debido a las peculiaridades de los algoritmos o al factor humano . A partir de 2020, el motor de búsqueda más popular del mundo y, en particular, en Rusia es Google. .

Según los métodos de búsqueda y mantenimiento, se dividen en cuatro tipos de motores de búsqueda: sistemas que utilizan robots de búsqueda , sistemas dirigidos por humanos, sistemas híbridos y metasistemas . La arquitectura de un motor de búsqueda normalmente incluye:

un robot de búsqueda que recopila información de sitios de Internet o de otros documentos;
indexador , proporcionando una búsqueda rápida de la información acumulada;
motor de búsqueda - interfaz gráfica de usuario [ .

Historia

Cronología
Año	Sistema	Evento
1993	Catálogo W3	lanzar
	Aliweb	lanzar
	Estación de salto	lanzar
1994	WebCrawler	lanzar
	búsqueda de información	lanzar
	Lycos	lanzar
1995	AltaVista	lanzar
	Daum	Base
	Índice de texto abierto	lanzar
	Magallanes	lanzar
	Excitar	lanzar
	SAPO	lanzar
	yahoo!	lanzar
1996	Dogpile	lanzar
	Inktomi	Base
	Excursionista	Base
	HotBot_	Base
	Pregúntale a Jeeves	Base
1997	aurora boreal	lanzar
1997	Yandex	lanzar
1998	Google	lanzar
1999	AlltheWeb	lanzar
	genio sabe	Base
	Naver	lanzar
	Teoma	Base
	Vivisimo	Base
2000	Baidu	Base
2000	Exalead	Base
2003	info.com_	lanzar
2004	yahoo! Búsqueda	lanzamiento final
	A9.com	lanzar
	sogou	lanzar
2005	Búsqueda de MSN	lanzamiento final
	Ask.com	lanzar
	Nigma	lanzar
	GoodSearch	lanzar
	SearchMe	Base
2006	wikiseek	Base
	quaero	Base
	Búsqueda en vivo	lanzar
	ChaCha	Lanzamiento ( beta )
	Guruji.com	Lanzamiento ( beta )
2007	búsqueda de wiki	lanzar
	Sproose	lanzar
	Búsqueda Wikia	lanzar
	blackle.com	lanzar
2008	Pato Pato a ganar	lanzar
	Tooby	lanzar
	picolador	lanzar
	Viewzi	lanzar
	cuil	lanzar
	Boogami	lanzar
	pez salto	Lanzamiento ( beta )
	bosque	lanzar
	VADLO	lanzar
	set de poder	lanzar
2009	Bing	lanzar
	KAZ.KZ	lanzar
	Yebol	Lanzamiento ( beta )
	Mugurdy	cierre
	explorador	lanzar
2010	cuil	cierre
	blekko	Lanzamiento ( beta )
	verzi	cierre
2012	WAZZUB	lanzar
2014	Satélite	Lanzamiento ( beta )

Al principio del desarrollo de Internet, Tim Berners-Lee mantuvo una lista de servidores web publicada en el sitio web del CERN [4] . Había más y más sitios, y mantener manualmente una lista de este tipo se volvió cada vez más difícil. El sitio web de la NCSA tenía una sección dedicada a "¡Novedades!". ( English What's New! ) [5] , donde se publicaron enlaces a nuevos sitios.

El primer programa de computadora para buscar en Internet fue el programa Archie ( ing. archie - un archivo sin la letra "c"). Fue creado en 1990 por Alan Emtage, Bill Heelan y J. Peter Deutsch, estudiantes de informática de la Universidad McGill de Montreal . El programa descargó listas de todos los archivos de todos los servidores FTP anónimos disponibles y creó una base de datos que se podía buscar por nombre de archivo. Sin embargo, el programa de Archie no indexó el contenido de estos archivos, ya que la cantidad de datos era tan pequeña que todo se podía encontrar fácilmente a mano.

El desarrollo y difusión del protocolo de red Gopher , acuñado en 1991 por Mark McCahill en la Universidad de Minnesota , ha llevado a la creación de dos nuevos programas de búsqueda, Veronica y Jughead . Al igual que Archie, buscaron nombres de archivos y encabezados almacenados en los sistemas de índice de Gopher. Veronica ( inglés: Very Easy Rodent-Oriented Net-wide Index to Computerized Archives ) permitió búsquedas de palabras clave de la mayoría de los títulos de menú de Gopher en todas las listas de Gopher. El programa Jughead ( Jonzy 's Universal Gopher Hierarchy Excavation And Display ) recuperó información del menú de ciertos servidores Gopher. Aunque el nombre del motor de búsqueda Archie no tiene nada que ver con los cómics de Archie , Veronica y Jughead son, sin embargo, personajes de estos cómics.

Para el verano de 1993, todavía no había un solo sistema para buscar en la web, aunque numerosos directorios especializados se mantenían manualmente. Oscar Nierstrasz, de la Universidad de Ginebra , escribió una serie de scripts en Perl que periódicamente copiaban estas páginas y las reescribían a un formato estándar. Esto se convirtió en la base de W3Catalog , el primer motor de búsqueda primitivo de la web, lanzado el 2 de septiembre de 1993 [6] .

Probablemente el primer rastreador web escrito en Perl fue el bot " World Wide Web Wanderer " de Matthew Gray en el MIT en junio de 1993. Este robot creó el índice de búsqueda " Wandex ". El propósito del robot Wanderer era medir el tamaño de la World Wide Web y encontrar todas las páginas web que contenían las palabras de la consulta. En 1993, apareció el segundo motor de búsqueda " Aliweb ". Aliweb no usó un rastreador , sino que esperó las notificaciones de los administradores del sitio web sobre la presencia de un archivo de índice en un formato determinado en sus sitios.

JumpStation , [7] creado en diciembre de 1993 por Jonathan Fletcher buscaba e indexaba páginas web usando un rastreador y usaba un formulario web como interfaz para formular consultas de búsqueda. Fue la primera herramienta de búsqueda en Internet que combinó las tres funciones esenciales de un motor de búsqueda (verificación, indexación y búsqueda real). Debido a los recursos informáticos limitados de la época, la indexación y, por lo tanto, la búsqueda, se limitaba solo a los títulos y títulos de las páginas web encontradas por el rastreador.

El primer recurso de indexación de texto completo que utilizó un motor de búsqueda de robot ("basado en rastreadores") fue el sistema "WebCrawler" , lanzado en 1994. A diferencia de sus predecesores, permitía a los usuarios buscar cualquier palabra en cualquier página web, lo que desde entonces se ha convertido en el estándar para la mayoría de los motores de búsqueda. Además, fue el primer motor de búsqueda en ser ampliamente utilizado. En 1994, se lanzó el sistema " Lycos ", desarrollado en la Universidad Carnegie Mellon y se convirtió en una empresa comercial seria.

Pronto aparecieron muchos otros motores de búsqueda de la competencia, como: "Magellan" , " Excite ", "Infoseek" , "Inktomi" , "Northern Light" y " AltaVista ". En cierto modo, competían con directorios en línea populares como Yahoo! ". Pero las capacidades de búsqueda de los directorios se limitaban a buscar a través de los propios directorios, y no a través de los textos de las páginas web. Los directorios posteriores se fusionaron o se suministraron con robots de búsqueda para mejorar la búsqueda.

En 1996, Netscape quería hacer un trato exclusivo con uno de los motores de búsqueda, convirtiéndolo en el motor de búsqueda predeterminado en el navegador web Netscape . Esto generó tal interés que Netscape firmó un contrato con cinco de los motores de búsqueda más importantes (Yahoo!, Magellan, Lycos, Infoseek y Excite) a la vez. Por 5 millones de dólares al año, se ofrecían a su vez en la página de búsqueda de Netscape [8] [9] .

Los motores de búsqueda participaron en la " burbuja de las puntocom " de finales de la década de 1990 [10] . Varias empresas ingresaron al mercado de manera espectacular, generando ganancias récord durante sus ofertas públicas iniciales . Algunos se han alejado del mercado de motores de búsqueda públicos para trabajar solo con el sector corporativo, como Northern Light .

Google retomó la idea de vender palabras clave en 1998, cuando era una pequeña empresa que operaba un motor de búsqueda en goto.com . Este movimiento marcó un cambio para los motores de búsqueda de competir entre sí a una de las empresas comerciales más rentables en Internet [11] . Los motores de búsqueda comenzaron a vender los primeros lugares en los resultados de búsqueda a empresas individuales.

El motor de búsqueda de Google ha estado en una posición destacada desde principios de la década de 2000 [12] . La empresa ha logrado una alta posición debido a los buenos resultados de búsqueda utilizando el algoritmo PageRank . El algoritmo fue presentado al público en el artículo "La anatomía del motor de búsqueda" escrito por Sergey Brin y Larry Page, fundadores de Google [13] . Este algoritmo iterativo clasifica las páginas web en función de una estimación del número de hipervínculos a una página web, suponiendo que las páginas "buenas" e "importantes" obtienen más enlaces que otras. La interfaz de Google está diseñada con un estilo espartano, donde no hay nada superfluo, a diferencia de muchos de sus competidores, que convirtieron el motor de búsqueda en un portal web . El motor de búsqueda de Google se ha vuelto tan popular que han aparecido imitadores, como el Mystery Seeker (motor de búsqueda secreto).

Para el año 2000 Yahoo! realizó búsquedas basadas en el sistema Inktomi. yahoo! compró Inktomi en 2002 y compró Overture en 2003, que era propietaria de AlltheWeb y AltaVista Entonces Yahoo! Trabajó sobre la base del motor de búsqueda de Google hasta 2004, hasta que finalmente lanzó su propio motor de búsqueda basado en todas las tecnologías adquiridas anteriormente.

Microsoft lanzó por primera vez Microsoft Network Search (MSN Search) en el otoño de 1998 utilizando los resultados de búsqueda de Inktomi. Muy pronto, a principios de 1999, el sitio comenzó a mostrar resultados de Looksmart mezclados con resultados de Inktomi. Durante un breve periodo de tiempo (en 1999), la búsqueda de MSN utilizó resultados de búsqueda de AltaVista. En 2004, Microsoft comenzó la transición a su propia tecnología de búsqueda utilizando su propio robot de búsqueda: msnbot . Después del cambio de marca por parte de Microsoft, el motor de búsqueda Bing se lanzó el 1 de junio de 2009 . 29 de julio de 2009 Yahoo! y Microsoft firmaron un acuerdo en virtud del cual Yahoo! La búsqueda fue impulsada por la tecnología Microsoft Bing. A partir de 2015, la alianza entre Bing y Yahoo! dio el primer fruto real. Ahora Bing tiene el 20,1% del mercado y Yahoo! 12,7%, que en total ocupa el 32,60% del mercado total de buscadores en Estados Unidos según datos de diversas fuentes .

Buscar información en ruso

En 1996 se implementó una búsqueda teniendo en cuenta la morfología rusa en el buscador Altavista y se lanzaron los buscadores rusos originales Rambler y Aport . El 23 de septiembre de 1997 se inauguró el buscador Yandex . El 22 de mayo de 2014, Rostelecom inauguró el motor de búsqueda nacional Sputnik , que en el momento de 2015 se encuentra en pruebas beta. El 22 de abril de 2015 se lanzó un nuevo servicio Sputnik. Niños especialmente para niños con mayor seguridad.

Los métodos de análisis de conglomerados y búsqueda de metadatos han ganado gran popularidad . De las máquinas internacionales de este tipo , la Clusty la más famosa . En 2005, con el apoyo de la Universidad Estatal de Moscú , se lanzó en Rusia el motor de búsqueda Nigma , que admite la agrupación automática . En 2006, se inauguró la metamáquina rusa Quintura , que ofrece agrupación visual en forma de nube de etiquetas . Nigma también experimentó [14] con el agrupamiento visual.

Cómo funciona un motor de búsqueda

Los componentes principales del motor de búsqueda: robot de búsqueda , indexador , motor de búsqueda [15] .

Por regla general, los sistemas funcionan por etapas. Primero, el rastreador obtiene el contenido, luego el indexador genera un índice de búsqueda y, finalmente, el rastreador proporciona la funcionalidad para buscar los datos indexados. Para actualizar el motor de búsqueda, este ciclo de indexación se repite [15] .

Los motores de búsqueda funcionan almacenando información sobre muchas páginas web que obtienen de las páginas HTML . Un robot de búsqueda o "rastreador" ( ing. Crawler ) es un programa que sigue automáticamente todos los enlaces que se encuentran en la página y los destaca. El rastreador, basado en enlaces o en una lista predefinida de direcciones, busca nuevos documentos que aún no son conocidos por el motor de búsqueda. El propietario del sitio puede excluir ciertas páginas usando robots.txt , que se puede usar para evitar la indexación de archivos, páginas o directorios del sitio.

El motor de búsqueda analiza el contenido de cada página para su posterior indexación. Las palabras se pueden extraer de títulos, texto de página o campos especiales: metaetiquetas . Un indexador es un módulo que analiza una página, después de dividirla en partes, utilizando sus propios algoritmos léxicos y morfológicos. Todos los elementos de una página web se aíslan y analizan por separado. Los datos de la página web se almacenan en una base de datos de índice para su uso en solicitudes posteriores. El índice permite encontrar rápidamente información a petición del usuario [16] .

Una serie de motores de búsqueda, como Google, almacenan la totalidad o parte de la página original, la denominada caché , así como diversa información sobre la página web. Otros sistemas, como AltaVista, almacenan cada palabra de cada página encontrada. El uso del caché ayuda a acelerar la extracción de información de las páginas ya visitadas [16] . Las páginas almacenadas en caché siempre contienen el texto que el usuario especificó en la consulta de búsqueda. Esto puede ser útil cuando la página web se ha actualizado, es decir, ya no contiene el texto de la solicitud del usuario y la página en el caché aún es antigua [16] . Esta situación está relacionada con la pérdida de enlaces ( ing. linkrot ) y el enfoque de usabilidad ( usabilidad ) de Google. Esto implica emitir pequeños fragmentos de texto desde la memoria caché que contienen el texto de la consulta. Se aplica el principio de la menor sorpresa , el usuario normalmente espera ver las palabras buscadas en los textos de las páginas recibidas ( expectativas del usuario ). Además de acelerar las búsquedas utilizando páginas en caché, las páginas en caché pueden contener información que ya no está disponible en ningún otro lugar.

El motor de búsqueda funciona con archivos de salida recibidos del indexador. El motor de búsqueda acepta las solicitudes de los usuarios, las procesa mediante un índice y devuelve los resultados de la búsqueda [15] .

Cuando un usuario ingresa una consulta en un motor de búsqueda (generalmente usando palabras clave ), el sistema verifica su índice y devuelve una lista de las páginas web más relevantes (ordenadas por algún criterio), generalmente con una breve anotación que contiene el título del documento y a veces partes del texto [16 ] . El índice de búsqueda se construye según una técnica especial basada en información extraída de páginas web [12] . Desde 2007, el motor de búsqueda de Google le permite buscar teniendo en cuenta el tiempo de creación de los documentos que está buscando (llamando al menú "Herramientas de búsqueda" y especificando el rango de tiempo).

La mayoría de los motores de búsqueda admiten el uso de operadores booleanos AND, OR, NOT en las consultas, lo que le permite refinar o ampliar la lista de palabras clave buscadas. En este caso, el sistema buscará palabras o frases exactamente como se ingresaron. Algunos motores de búsqueda tienen la posibilidad de búsqueda aproximada , en este caso, los usuarios amplían el área de búsqueda especificando la distancia a las palabras clave [16] . También existe una búsqueda conceptual , que utiliza un análisis estadístico del uso de las palabras y frases buscadas en los textos de las páginas web. Estos sistemas le permiten redactar consultas en lenguaje natural.

La utilidad de un motor de búsqueda depende de la relevancia de las páginas que encuentra. Si bien millones de páginas web pueden incluir una palabra o frase, algunas pueden ser más relevantes, populares o autorizadas que otras. La mayoría de los motores de búsqueda utilizan métodos de clasificación para colocar los "mejores" resultados en la parte superior de la lista. Los motores de búsqueda deciden qué páginas son más relevantes y en qué orden deben mostrarse los resultados de diferentes formas [16] . Los métodos de búsqueda, como la propia Internet, cambian con el tiempo. Así aparecieron dos tipos principales de buscadores: los sistemas de palabras clave predefinidas y ordenadas jerárquicamente y los sistemas en los que se genera un índice invertido a partir del análisis del texto.

La mayoría de los motores de búsqueda son empresas comerciales que obtienen ganancias de la publicidad , en algunos motores de búsqueda puede comprar las primeras posiciones en los resultados de búsqueda para determinadas palabras clave a cambio de una tarifa. Aquellos buscadores que no cobran por el orden de los resultados, ganan en publicidad contextual , mientras que los mensajes publicitarios corresponden a la solicitud del usuario. Dichos anuncios se muestran en la página con una lista de resultados de búsqueda, y los motores de búsqueda ganan cada vez que un usuario hace clic en los mensajes publicitarios.

Tipos de motores de búsqueda

Hay cuatro tipos de motores de búsqueda: robóticos, impulsados por humanos, híbridos y metasistemas [17] .

sistemas que utilizan robots de búsqueda . Constan de tres partes: un rastreador ("bot", "robot" o "spider"), un índice y un software de motor de búsqueda. Se necesita el rastreador para eludir la red y crear listas de páginas web. Un índice es un gran archivo de copias de páginas web. El propósito del software es evaluar los resultados de búsqueda. Debido al hecho de que el rastreador en este mecanismo explora constantemente la red, la información está más actualizada. La mayoría de los motores de búsqueda modernos son sistemas de este tipo.
sistemas dirigidos por humanos (directorios de recursos) . Estos motores de búsqueda obtienen listas de páginas web. El directorio contiene la dirección, el título y una breve descripción del sitio. El catálogo de recursos busca resultados solo a partir de las descripciones de las páginas que le envían los webmasters. La ventaja de los directorios es que todos los recursos se verifican manualmente, por lo tanto, la calidad del contenido será mejor en comparación con los resultados que obtiene el sistema del primer tipo de forma automática. Pero también hay un inconveniente: la actualización de estos catálogos se realiza manualmente y puede retrasarse significativamente con respecto al estado real de las cosas. Las clasificaciones de página no pueden cambiar instantáneamente. Ejemplos de tales sistemas incluyen el directorio de Yahoo , dmoz y Galaxy.
sistemas híbridos . Los motores de búsqueda como Yahoo , Google, MSN combinan las funciones de los sistemas que utilizan robots de búsqueda y sistemas controlados por humanos.
metasistemas . Los motores de metabúsqueda combinan y clasifican los resultados de varios motores de búsqueda a la vez. Estos motores de búsqueda fueron útiles cuando cada motor de búsqueda tenía un índice único y los motores de búsqueda eran menos "inteligentes". Dado que la búsqueda ha mejorado tanto ahora, la necesidad de ellos ha disminuido. Ejemplos: MetaCrawler y MSN Search.

Mercado de motores de búsqueda

Google es el motor de búsqueda más popular del mundo con una cuota de mercado del 92,16%. Bing ocupa la segunda posición, su participación es del 2,88% [18] .

Los motores de búsqueda más populares del mundo [19] :

Sistema de búsqueda	Cuota de mercado en julio de 2014	Cuota de mercado en octubre de 2014	Cuota de mercado en septiembre de 2017	Cuota de mercado en septiembre de 2020 [20]	Cuota de mercado en diciembre de 2021 [21]
Google	68,69%	58,01%	69,24%	92,16%	91,94%
Bing	17,17%	29,06%	12,26%	2,88%	2,86%
Baidu	6,22%	8,01%	6,48%	1,14%	1,37%
yahoo!	6,74%	4,01%	5,19%	1,52%	1,5%
AOL	0,13%	0,21%	1,11%
Excitar	0,22%	0,00%	0,00%
Pedir	0,13%	0,10%	0,24%

Asia

En los países de Asia oriental y en Rusia, Google no es el motor de búsqueda más popular. En China, por ejemplo, el buscador Soso es más popular .

En Corea del Sur, aproximadamente el 70% de la población utiliza Naver , su propio portal de búsqueda [22] Yahoo! Japón y Yahoo! Taiwán son los motores de búsqueda más populares en Japón y Taiwán, respectivamente [23] .

Rusia y motores de búsqueda en idioma ruso

El motor de búsqueda de Google es utilizado por el 50,3% de los usuarios en Rusia, Yandex , por el 47,9% [24] .

Según los datos de LiveInternet de diciembre de 2017 sobre la cobertura de consultas de búsqueda en ruso [25] :

Todos los idiomas:
- Google (42,9%)
- Bing (0,3%)
- yahoo! (0,0%) y buscadores propiedad de esta empresa: Inktomi , AltaVista , Alltheweb
De habla inglesa e internacional:
- AskJeeves ( mecanismo Teoma )
De habla rusa : la mayoría de los motores de búsqueda "de habla rusa" indexan y buscan textos en muchos idiomas: ucraniano , bielorruso , inglés , tártaro y otros. Se diferencian de los sistemas "en todos los idiomas" que indexan todos los documentos en una fila, en que indexan principalmente recursos ubicados en zonas de dominio donde domina el idioma ruso, o limitan sus robots a sitios en idioma ruso.
- Yandex (60,4%)
- Correo.ru (3,5%)
- Caminante (0.2%)

Algunos de los motores de búsqueda utilizan algoritmos de búsqueda externos.

Datos cuantitativos del buscador de Google

El número de usuarios de Internet y motores de búsqueda y los requisitos de los usuarios para estos sistemas está en constante crecimiento. Para aumentar la velocidad de búsqueda de la información necesaria, los grandes motores de búsqueda contienen una gran cantidad de servidores. Los servidores generalmente se agrupan en centros de servidores (centros de datos). Los motores de búsqueda populares tienen centros de servidores repartidos por todo el mundo.

En octubre de 2012, Google lanzó el proyecto Where the Internet Lives, donde los usuarios tienen la oportunidad de familiarizarse con los centros de datos de la empresa [26] .

El motor de búsqueda de Google sabe lo siguiente sobre el trabajo de los centros de datos [27] :

La capacidad total de todos los centros de datos de Google, a partir de 2011, se estimó en 220 MW.
Cuando Google planeó abrir un nuevo complejo de tres edificios en Oregón en 2008 con una superficie total de 6,5 millones de metros cuadrados, Harper's Magazine calculó que un complejo tan grande consume más de 100 MW de electricidad, que es comparable al consumo de energía de una ciudad de 300.000 humanos.
El número estimado de servidores de Google en 2012 es de 1 millón.
El gasto en centros de datos de Google fue de 1900 millones de dólares en 2006 y 2400 millones de dólares en 2007.

El tamaño de la World Wide Web indexada por Google a partir de diciembre de 2014 es de aproximadamente 4360 millones de páginas [28] .

Motores de búsqueda que tienen en cuenta los tabúes religiosos

La expansión global de Internet y la creciente popularidad de los dispositivos electrónicos en el mundo árabe y musulmán , en particular en los países de Medio Oriente y el subcontinente indio , contribuyeron al desarrollo de motores de búsqueda locales que tienen en cuenta las tradiciones islámicas . Dichos motores de búsqueda contienen filtros especiales que ayudan a los usuarios a evitar el acceso a sitios prohibidos, como sitios con pornografía, y les permiten usar solo aquellos sitios cuyo contenido no es contrario a la fe islámica.

Poco antes del mes musulmán del Ramadán , en julio de 2013, se presentó al mundo Halalgoogling , un sistema que proporciona a los usuarios solo enlaces "correctos" halal [29] mediante el filtrado de resultados de búsqueda recibidos de otros motores de búsqueda como Google y Bing . . Dos años antes, en septiembre de 2011, se lanzó el motor de búsqueda I'mHalal para atender a los usuarios de Oriente Medio. Sin embargo, este servicio de búsqueda tuvo que cerrarse pronto, según el propietario, por falta de financiación [30] .

La falta de inversión y la lentitud de la difusión de la tecnología en el mundo musulmán ha obstaculizado el progreso y el éxito de un motor de búsqueda islámico serio. El fracaso de las enormes inversiones en proyectos web de estilo de vida musulmán, uno de los cuales fue Muxlim , es evidente . Ha recibido millones de dólares de inversores como Rite Internet Ventures y ahora, según el último informe de I'mHalal antes de que cerrara, se le ocurre la dudosa idea de que "el próximo Facebook o Google solo aparecerán en Oriente Medio ". .si apoyas a nuestra brillante juventud" .

Sin embargo, los expertos islámicos en Internet han estado ocupados durante años definiendo lo que está o no de acuerdo con la Sharia , y clasifican los sitios web como " halal " o " haram ". Todos los motores de búsqueda islámicos anteriores y actuales son solo un conjunto de datos especialmente indexados, o son motores de búsqueda importantes como Google, Yahoo y Bing con algún tipo de sistema de filtrado que se utiliza para evitar que los usuarios accedan a sitios prohibidos, como sitios sobre desnudos, LGBT , juegos de azar y cualquier otro tema que se considere antiislámico .

Entre otros motores de búsqueda orientados a la religión, son comunes Jewogle, la versión judía de Google, y SeekFind.org, un sitio cristiano que incluye filtros para mantener a los usuarios alejados del contenido que podría socavar o debilitar su fe [31] .

Resultados personales y burbujas de filtro

Muchos motores de búsqueda, como Google y Bing, usan algoritmos para adivinar selectivamente qué información le gustaría ver a un usuario en función de sus actividades pasadas en el sistema. Como resultado, los sitios web solo muestran información que es consistente con los intereses anteriores del usuario. Este efecto se llama "burbuja de filtro" [32] .

Todo esto lleva a que los usuarios reciban mucha menos información que contradiga su punto de vista y se aíslen intelectualmente en su propia “burbuja de información”. Así, el "efecto burbuja" puede tener consecuencias negativas para la formación de la opinión cívica [33] .

Sesgo del motor de búsqueda

Aunque los motores de búsqueda están programados para clasificar sitios web en función de una combinación de su popularidad y relevancia, en realidad, los estudios experimentales indican que varios factores políticos, económicos y sociales influyen en las SERP [34] [35] .

Este sesgo puede ser el resultado directo de procesos económicos y comerciales: las empresas que anuncian en un motor de búsqueda pueden volverse más populares en los resultados de búsqueda orgánicos en ese motor de búsqueda. La eliminación de resultados de búsqueda que no cumplen con las leyes locales es un ejemplo de la influencia de los procesos políticos. Por ejemplo, Google no mostrará algunos sitios web neonazis en Francia y Alemania, donde la negación del Holocausto es ilegal [36] .

El sesgo también puede ser una consecuencia de los procesos sociales, ya que los algoritmos de los motores de búsqueda suelen estar diseñados para excluir puntos de vista sin formato en favor de resultados más "populares" [37] . Los algoritmos de indexación de los principales motores de búsqueda priorizan los sitios estadounidenses [35] .

Una bomba de búsqueda es un ejemplo de un intento de manipular los resultados de búsqueda por motivos políticos, sociales o comerciales.

Véase también

Notas

↑ Sistema de búsqueda / D. V. Barashev, N. S. Vasilyeva, B. A. Novikov // Gran Enciclopedia Rusa : [en 35 volúmenes] / cap. edición Yu. S. Osipov . - M. : Gran Enciclopedia Rusa, 2004-2017.
↑ Chu y Rosenthal, 1996 , pág. 129.
↑ Tarakeswar y Kavitha, 2011 , pág. 29
↑ Servidores World Wide Web .
↑ Novedades .
↑ Óscar Niestrasz .
↑ Archivo de NCSA .
↑ Yahoo! y Netscape .
↑ Netscape, 1996 .
↑ La dinámica de la competencia, 2001 .
↑ Introducción a la informática .
↑ 1 2 Historia de Google .
↑ Brin y Page , pág. 3.
↑ Nigma .
↑ 1 2 3 Risvik y Michelsen, 2002 , pág. 290.
↑ 1 2 3 4 5 6 Gestión del conocimiento, 2011 .
↑ Tarakeswar y Kavitha, 2011 , pág. 29
↑ SNM .
↑ Estadísticas .
^ Cuota de mercado de motores de búsqueda en todo el mundo . Estadísticas globales de StatCounter . Consultado el 21 de diciembre de 2020. Archivado desde el original el 10 de diciembre de 2020.
^ Cuota de mercado de motores de búsqueda en todo el mundo . Estadísticas globales de StatCounter . Consultado el 9 de enero de 2022. Archivado desde el original el 10 de diciembre de 2020.
↑ Naver .
↑ Equipo web de la OII. Era de los imperios de Internet (inglés) . Geografía de la información . Consultado el 2 de marzo de 2022. Archivado desde el original el 2 de marzo de 2022.
↑ Internet en vivo .
↑ Internet en vivo . Consultado el 2 de enero de 2018. Archivado desde el original el 19 de febrero de 2019. (indefinido)
↑ Donde vive Internet .
↑ Antula .
↑ Tamaño de la red mundial .
↑ Islam .
↑ Soy Halal . Consultado el 28 de mayo de 2018. Archivado desde el original el 29 de mayo de 2018. (indefinido)
↑ Noticias cristianas .
↑ París, 2011 .
↑ Auralista, 2012 , pág. 13
↑ Seguev, 2010 .
↑ 1 2 Sesgo de cobertura del motor de búsqueda, 2004 .
↑ Reemplazo de Google .
↑ Dando forma a la Web, 2000 .

Literatura

Ashmanov I. S. , Ivanov A. A. Promoción de sitios web en motores de búsqueda. — M. : Williams , 2007. — 304 p. - ISBN 978-5-8459-1155-1 .
Baikov V. D. Internet. Buscar información. Promoción del sitio web. - San Petersburgo. : BHV-Petersburgo , 2000. - 288 p. - ISBN 5-8206-0095-9 .
Kolisnichenko D. N. Sistemas de búsqueda y promoción de sitios en Internet. - M. : Dialéctica , 2007. - 272 p. — ISBN 978-5-8459-1269-5 .
Lande DV Búsqueda de conocimientos en Internet. - M. : Dialéctica , 2005. - 272 p. — ISBN 5-8459-0764-0 .
Lande D. V., Snarsky A. A. , Bezsudnov I. V. Internet: Navegación en redes complejas: modelos y algoritmos . — M.: Librokom (Editorial URSS), 2009. — 264 p. — ISBN 978-5-397-00497-8 .
Chu H., Rosenthal M. Motores de búsqueda para la World Wide Web: una metodología de evaluación y estudio comparativo // Actas de la reunión anual de la Sociedad Estadounidense de Ciencias de la Información: revista. - 1996. - vol. 33 . - P. 127-135 .
Gandal, Neil. La dinámica de la competencia en el mercado de motores de búsqueda en Internet. - 2001. - vol. 19.- Pág. 1103-1117. - doi : 10.1016/S0167-7187(01)00065-0 .
Introna LD, Nissenbaum H. Dar forma a la web: por qué importa la política de los motores de búsqueda // La sociedad de la información: una revista internacional. - 2000. - vol. 16. - doi : 10.1080/01972240050133634 .
Jawadekar, Waman S. 8. Gestión del conocimiento: herramientas y tecnología // Gestión del conocimiento: texto y casos. - Nueva Delhi: Tata McGraw-Hill Education Private Ltd, 2011. - P. 278. - 319 p. - ISBN 978-0-07-07-0086-4 .
Pariser E. La burbuja de filtros: lo que Internet te oculta. - NY: Penguin Group, 2011. - 257 p. — ISBN 978-0-14-196992-3 .
Risvik KM, Michelsen R. Motores de búsqueda y dinámica web (inglés) // Redes informáticas: revista. - 2002. - vol. 39 , núm. 3 . - pág. 289-302 . Archivado desde el original el 29 de noviembre de 2014.
Segev El. Google y la brecha digital: los sesgos del conocimiento en línea. —Oxford: Chandos Publishing. - 2010. - 171 págs. — ISBN 978-1-84334-565-7 .
Tarakeswar MK, Kavitha MD Motores de búsqueda: un estudio (inglés) // Revista de aplicaciones informáticas (JCA): revista. - 2011. - vol. 4 , núm. 1 . - P. 29-33 . — ISSN 0974-1925 .
Vaughan L., Thelwall M. Sesgo de cobertura del motor de búsqueda: evidencia y posibles causas // Procesamiento y gestión de la información: revista. - 2004. - vol. 40. - Pág. 693-707. - doi : 10.1016/S0306-4573(03)00063-3 .
Zhang, Seaghdha, Quercia, Jambor. Auralista: introducción de la serendipia en la recomendación musical // ACM WSDM. - 2012. - Págs. 13-22 . — ISSN 978-1-4503-0747-5 . -doi : 10.1145/ 2124295.2124300 . Archivado desde el original el 29 de noviembre de 2014.
Las ofertas de navegador empujan las acciones de Netscape hasta un 7,8 % // Los Angeles Times: diario. — 1996.

Enlaces

¡Qué hay de nuevo!: febrero de 1994 . home.mcom.com. Consultado: 14 de mayo de 2012. (indefinido)
Servidores de World Wide Web . W3.org. Consultado: 14 de mayo de 2012. (indefinido)
La anatomía de un motor de búsqueda web hipertextual a gran escala . (indefinido)
Estadísticas del sitio de Internet en vivo . Internet en vivo. Consultado: 4 de junio de 2014. (indefinido)
Arturo, Carlos. Las empresas tecnológicas chinas a punto de dominar el mundo . The Guardian (3 de junio de 2014). Consultado: 4 de junio de 2014. (indefinido)
Reemplazo de Google con sistemas de búsqueda alternativos en China: documentación y capturas de pantalla . Centro Berkman para Internet y Sociedad (2002). (indefinido)
Emma Barnet. Koogle, un Google kosher, lanza . The Telegraph (15 de junio de 2009). Recuperado: 9 de diciembre de 2014.
El número de servidores de Google será de 10 millones . ITUA.info. Consultado: 28 de octubre de 2009. (indefinido)
Tamaño de la red mundial . (indefinido)

diccionarios y enciclopedias	gran noruego universalis
En catálogos bibliográficos	J9U : 987007546957505171 LCCN : sh97007463 NKC : ph250788

Buscadores y máquinas _
General	Ask.com (Ask Jeeves, mecanismo Teoma ) blekko Cuil (cerrado) Pato Pato a ganar Exalead Gigablasto Google Bing (búsqueda en vivo/búsqueda de MSN) Qquiero yahoo! Búsqueda Inktomi AltaVista (cerrado) toda la web ) Yandex.Buscar Aliweb Lycos
Regional	Accoona (China/Estados Unidos) Alleba (Filipinas) Ansearch (Australia/EE.UU./Reino Unido/Nueva Zelanda) Aport (Rusia, cerrado) Daum (Corea del Sur) Guruji.com (India) [email protected] (Rusia) Maktoob (Bl. Este) META (Ucrania, cerrado) Miner.hu (Hungría) Najdi.si (Eslovenia) Onkosh (Bl. Este) Rambler-Poisk (Rusia, cerrado) Redif (India) SAPO (Portugal) Search.ch (Suiza) Sesam (Noruega/Suecia) Seznam.cz (República Checa) Sputnik (Rusia, cerrado) Walla! (Israel)
lideres	Baidu (China) Naver (Corea del Sur) yahoo! Japón (Japón) Yandex.Search (Rusia)
Temático	Ojo de estaño Unipágina Lexxe Topsy FindBook.ru
Metabúsqueda	AskNet Impulso mental grumoso pila de perros exactous.ru Ecosia Excitar FarSEER robot caliente info.com Ixquick Krózilo Mamá metarastreador Metalib Nigma (cerrado) Búsqueda innumerable paso lateral cera de surf Turbo10 rastreador web Búsqueda global de archivos
abierto / gratis	Parque de datosBúsqueda Egothor Gonzui Comida ht://dig langosta Busco Lucena Kit de herramientas Lemur y motor de búsqueda Indri mnoGoBuscar Namazu nuez OpenFTS Sciencenet (científico, basado en tecnología YaCy ) Búsqueda Wikia Esfinge SWISH-E Motor de búsqueda de perros Xapian YaCy Zettair VuBuscar
Bebé	AGAKIDS (Rusia) Pregunta a los niños (Reino Unido) Frag Finn (Alemania) Niños AOL (EE. UU.) Niños Yahoo! (EE.UU) Quintura Children (Rusia) Familia Yandex (Rusia) Gogul (Rusia)

Web y sitios web
globalmente	La red mundial Internet 1.0 web 2.0 Internet 3.0 web semántica Neuronet
En la zona	Sitio web Portal Página Servicio Anillo
Tipos de sitios y servicios	Atlas virtuales red de banners Biblioteca Blog ( plataforma ) Alojamiento de videos wiki sitio de tarjeta de visita Pregunta respuesta Marcadores servicios de citas juego de navegador Directorio de recursos Tienda en línea microblog sitio de noticias Sistema de búsqueda sitio porno correo web Red social Tumblelog Rastreador de BitTorrent Alojamiento de archivos Foro Servicio Tablero de imagen Alojamiento de fotos Charlar
Creación y mantenimiento	Maestro Desarrollo Diseño Diseño Programación usabilidad Experiencia de interacción promoción del sitio web Optimización de motores de búsqueda (SEO) Alojamiento Administrador de sistema Moderador Cuenta Autorización
Tipos de diseños, páginas, sitios.	Estático Dinámica Fijado Goma dinámicamente elástico Adaptado
Técnico	Servidor web Navegador DNS CMF CMS HTTP ( respuestas encabezados ) SPDY RÁPIDO CGI HTML XHTML CSS PHP JavaScript DHTML Galleta DOM XML AJAX JSON Destello RSS átomo informador microformato favicon.ico_ _ robots.txt Mapas del sitio mapa del sitio .htaccess
Marketing	Mercadeo por Internet publicidad en Internet Bandera publicidad contextual Rompecabezas ciberocupación
sociedad y Cultura	Blogosfera Comunidad de Internet ( distrito ) Literatura de red

Buscando información en Internet
Instrumentos	Sistema de búsqueda Metabuscador buscador
Indexación	Índice de búsqueda Indexación en buscadores Robot de búsqueda Estándar de excepción de robot
Solicitud	Consulta de busqueda Lenguaje de consulta
resultados de busqueda	Página de resultados de búsqueda rango Relevancia Rango de página Optimización de motores de búsqueda
Otro	Búsqueda vertical Recuperación de información búsqueda social Mercadotecnia de búsqueda búsqueda abierta Archivo de sitios web Navegador sin conexión WAIS