ReCAPTCHA

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 17 de mayo de 2022; las comprobaciones requieren 4 ediciones .
reCAPTCHA
Tipo de colaboración colectiva
Autor
  • Luis Von Ahn
  • ben maurer
  • colin mcmillen
  • Harshad Bhujbal
  • manuel blum
Desarrollador Google
Primera edición 27 de mayo de 2007  ( 2007-05-27 )
Sitio web google.com/recaptcha
 Archivos multimedia en Wikimedia Commons

ReCAPTCHA es un sistema desarrollado en la Universidad Carnegie Mellon para proteger sitios web de los bots de Internet y al mismo tiempo ayudar en la digitalización de textos de libros. Es una continuación del proyecto CAPTCHA [1] . En septiembre de 2009, Google adquirió reCAPTCHA . A principios de 2011, reCAPTCHA estaba digitalizando los archivos y libros de The New York Times disponibles en la Búsqueda de libros de Google .

En la primavera de 2012, Google lanzó un experimento para reconocer imágenes de Google Maps y Google Street View utilizando el servicio ReCAPTCHA [2] . A partir de julio de 2013, el servicio ReCAPTCHA continúa ofreciendo fragmentos de imágenes de Google Street View para su reconocimiento; por regla general, estos son fragmentos que muestran números de edificios. Por lo tanto, el lema original de ReCAPTCHA - Stop Spam, Read Books - hoy tiene poco que ver con el uso real de este sistema.

A principios de 2015, se actualizó ReCAPTCHA. Ahora se le pide al usuario que simplemente marque la casilla de verificación , después de hacer clic en la casilla de verificación, se le puede pedir al usuario que seleccione todas las imágenes que se encuentran bajo condiciones predeterminadas, por ejemplo, seleccione todas las motocicletas .

Cómo funciona

reCAPTCHA prácticamente no se deja engañar por el software OCR . La segunda palabra se toma de una fuente que requiere reconocimiento (por ejemplo, un libro). La verificación y el paso de "captcha" se realizan de acuerdo con la palabra conocida por el sistema. La segunda palabra desconocida es opcional. La segunda palabra ingresada por el usuario se almacena en el sistema y se utiliza como una posible opción de reconocimiento. El reconocimiento de la palabra final se realiza seleccionando la palabra utilizada con mayor frecuencia para la entrada. El sistema reCAPTCHA proporciona a los usuarios imágenes para el reconocimiento y recopila los resultados, luego de lo cual los transfiere a los organizadores de la digitalización de materiales [1] .

Influencia

El sistema es ampliamente utilizado por sitios como Facebook , TicketMaster, Twitter , StumbleUpon , Steam (10 de enero de 2015), LiveJournal y aproximadamente otros 350 000 sitios. Cada día se digitalizan aproximadamente 100 millones de palabras, lo que podría producir aproximadamente 2,5 millones de libros al año. El número de personas que ayudaron a digitalizar al menos una palabra del libro se estima en 750 millones [1] . La eficiencia de este método es bastante alta, ya que el sistema cuenta con varias opciones reconocidas.

Dado que las palabras se muestran en orden aleatorio, inevitablemente surgen curiosas combinaciones de palabras. Esto dio lugar al meme de Internet "inglip", cuando las personas toman una captura de pantalla de dos palabras proporcionadas por el sistema reCAPTCHA y dibujan dibujos divertidos [1] .

Chistes como "encontrar un Viet Cong " aparecieron en la dirección de la versión gráfica de reCAPTCHA (hay una jungla sólida en la imagen).

Crítica

generales

Cuando conecta este servicio al sitio, se le ofrece un número limitado de solicitudes de forma gratuita. Los algoritmos reCAPTCHA se construyen deliberadamente para que el usuario realice tantas solicitudes como sea posible, lo que conduce a un exceso del límite gratuito y obliga al propietario del sitio a cambiar a la versión paga. Los usuarios se ven obligados a ingresar el doble de texto que se requiere para una forma determinada de la prueba de Turing , sin recibir ninguna recompensa por hacerlo. Los ingresos del texto reconocido utilizado permanecen en Google Corporation . Requiere JavaScript para funcionar y en caso de utilizar un navegador desactualizado, el visitante se ve obligado a actualizar al navegador de Google .

Sin embargo, los propietarios de los sitios tienen derecho a reservarse la opción de cómo protegerse de los bots.

Con solicitudes de CAPTCH demasiado frecuentes desde la misma dirección IP, reCAPTCHA se vuelve casi ilegible, lo que hace que sea muy difícil ingresarlo cuando se usa el software Tor (ya que la frecuencia de las solicitudes de captcha de los nodos de salida de Tor es mucho mayor que la de una IP de usuario normal) . Además, en tales casos, ambas palabras ofrecidas al usuario para su reconocimiento son comprobables, es decir, reCAPTCHA comienza a actuar como cualquier otro sistema de protección contra bots. Sin embargo, después de la próxima actualización del algoritmo en reCaptcha, ingresar al sitio se volvió difícil para muchos usuarios, por lo que si una persona ingresa al sitio y comienza a resolver el anti-bot, será demasiado lento, pero incluso después de resolver este problema. correctamente, el sistema anti-bot no contará su respuesta y le pedirá que elija las imágenes correctas nuevamente, que nuevamente se actualizarán muy lentamente, como resultado, el usuario puede pasar algún tiempo (de varios minutos) resolviendo este problema. También apareció el bloqueo de acceso para resolver captcha desde una dirección IP específica, lo que imposibilita su uso al ingresar al sitio, y aunque con una dirección ip dinámica puedes asignarte una nueva al volver a conectarte, una ip estática no se puede usar. .

Implementaciones de texto

El usuario no está obligado a introducir ambas palabras. Uno de ellos no está marcado, es bastante fácil reconocerlo: en diferentes momentos, la palabra marcada era "ruidosa" con un doble contorno, líneas y distorsiones geométricas. Además, a veces se encuentran en una palabra sin marcar signos de puntuación , texto en otros idiomas, fórmulas matemáticas, etc. También es posible invertir los colores de fondo y las letras para una palabra sin marcar .

Una palabra compleja no verificable sacada de contexto puede ser mal identificada. Por ejemplo, el Capitán Infernet ( Louis-Antoine Infernet , participante en la Batalla de Trafalgar ) a veces se identificaba como Internet [3] .

Implementaciones gráficas

Algunas imágenes son difíciles de reconocer incluso por una persona. Puede haber problemas con la incertidumbre de la pregunta, por ejemplo: es necesario marcar autobuses, pero en la imagen un trolebús; la elección de los escaparates puede no ser obvia si se muestra una entrada acristalada al edificio.

Notas

  1. 1 2 3 4 Louis von Ahn: Massive Online Collaboration Archivado el 6 de junio de 2012 en Wayback Machine // Conferencia TED , 2011
  2. Peretz Sara. Google ahora usa ReCAPTCHA para decodificar direcciones de Street View  (  enlace muerto) (29 de marzo de 2012). Consultado el 14 de agosto de 2012. Archivado desde el original el 18 de agosto de 2012.
  3. La Revista del Caballero y Crónica Histórica.  (Inglés) . Libros de Google . Consultado el 12 de febrero de 2012. Archivado desde el original el 23 de mayo de 2013.

Enlaces