GPT-3

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 31 de octubre de 2022; las comprobaciones requieren 4 ediciones .
GPT-3
Tipo de modelo de lenguaje [d] ,modelo autorregresivo, modelotransformadorygenerativo [ d]
Desarrollador IA abierta
Primera edición 28 de mayo de 2020
ultima versión
Licencia propiedad
Sitio web arxiv.org/abs/200… (  inglés)

GPT-3 (Generative Pre-trained Transformer 3) es la tercera generación del algoritmo de procesamiento de lenguaje natural de OpenAI . A partir de noviembre de 2022, este es el modelo de lenguaje más grande y avanzado del mundo [2] . El modelo, según los desarrolladores, se puede utilizar para resolver "cualquier problema en inglés" [3] .

Creando un modelo

El 28 de mayo de 2020, un grupo de investigadores de OpenAI dirigido por Dario Amodei publicó un artículo científico que detalla el algoritmo GPT-3. [cuatro]

GPT-3, como GPT-2, es un modelo de lenguajegenerativo autorregresivo en una arquitectura de transformador .

En comparación con GPT-2, la cantidad de parámetros utilizados aumentó más de 100 veces: de 1,5 a 175 mil millones. [5] [6] El modelo se entrenó en la supercomputadora Microsoft Azure AI , que se creó específicamente para OpenAI. [7] [3] Lambda Labs estimó que dicha capacitación podría costar hasta $ 4,6 millones. [ocho]

Para entrenar el algoritmo, los investigadores recopilaron un conjunto de datos de más de 570 GB de textos, incluidos datos del proyecto Common Crawl , la Wikipedia en inglés , dos conjuntos de datos con libros y un conjunto de datos WebText2 con textos de páginas web. [5] Solo el 0,11% de los documentos incluidos en el conjunto de datos estaban en ruso. [9]

Modelo de acceso

El 11 de junio de 2020, OpenAI anunció una API cerrada basada en GPT-3 a la que solo los desarrolladores seleccionados tienen acceso: Reddit, Algolia, Quizlet AI Dungeon y otrosexplicó razones por las que exponen la API en lugar de poner el modelo a disposición del público: [3]

  1. El dinero ganado permitirá que OpenAI continúe con su investigación.
  2. Solo las grandes empresas pueden crear la infraestructura para ejecutar modelos grandes como GPT-3. La API, por otro lado, permite que incluso las pequeñas empresas accedan a la tecnología.
  3. A través de la API, OpenAI puede controlar el uso de la tecnología y restringir el acceso a quienes “abusan” de ella.

En unos pocos meses, OpenAI recibió "decenas de miles" de solicitudes para conectarse a la API. [10] Inicialmente, la API se proporcionaba de forma gratuita, pero desde el 1 de octubre de 2020 aparecieron las primeras tarifas por su uso. [once]

El 22 de septiembre de 2020, Microsoft recibió una licencia exclusiva para usar el modelo GPT-3 en sus productos y acceder al código fuente de la tecnología. [10] [2] [12] [13] Otros desarrolladores solo pueden acceder al algoritmo a través de la API. El ex cofundador de OpenAI Elon Musk reaccionó negativamente a este acuerdo. [catorce]

Características y casos de uso

OpenAI dijo que a diferencia de otros modelos que se crean para resolver problemas específicos del idioma, su API puede resolver "cualquier problema en inglés". [3] El algoritmo funciona según el principio de finalización automática : ingresa el comienzo del texto y el programa genera la continuación más probable del mismo.

Generación de artículos

El 20 de julio de 2020, el estudiante estadounidense Liam Porr publicó en su blog un artículo [15] creado con la API de OpenAI. A Liam se le ocurrieron el título y las primeras oraciones, y el algoritmo agregó el resto. Los lectores generalmente reaccionaron positivamente al artículo y no notaron el problema. El enlace al artículo ocupó el primer lugar en el ranking de Hacker News durante algún tiempo . [16] [17] [18]

El 8 de septiembre de 2020, la edición británica de The Guardian publicó una nota [19] escrita con GPT-3. Los editores "pidieron" a la modelo que escribiera un ensayo sobre por qué la gente no debería tener miedo a los robots. Liam Porr proporcionó a los editores ocho borradores de ensayos generados por GPT-3, de los cuales los editores de la publicación recopilaron el texto final [20] [21] [22] .

Respuestas a preguntas

En octubre de 2020, apareció un bot en la sección del sitio web de Reddit donde los usuarios se hacen preguntas, que publicó más de mil respuestas detalladas a estas preguntas en una semana. Un fragmento de la respuesta de bot más popular:

Usuario: Chicos de mantenimiento de ascensores, ¿qué es lo más extraño que han encontrado en el fondo del hueco de un ascensor?
Bot: Lo primero que me viene a la mente es el reciente descubrimiento de una colonia de personas que viven en los huecos de los ascensores debajo de los edificios. Para los sociólogos y antropólogos, este fue un descubrimiento sorprendente que reveló más acerca de la cultura humana de lo que nunca antes había sido posible...

Texto original  (inglés)[ mostrarocultar] Redditor: Amigos de mantenimiento de ascensores, ¿qué es lo más extraño que han encontrado en el fondo de la cámara del ascensor?
Bot: Lo primero que me viene a la mente es el reciente descubrimiento de una colonia de humanos que viven en los huecos y en la maquinaria de los ascensores en la parte inferior de los edificios. Este fue un hallazgo extraordinario para sociólogos y antropólogos, que reveló más sobre la cultura humana de lo que nunca antes había sido posible...

El bot generó respuestas a través del servicio Philosopher AI, que a su vez se ejecuta en GPT-3. El desarrollador de Philosopher AI bloqueó el bot y dejó de publicar nuevas respuestas. [23] [24]

El 8 de noviembre de 2020, el biólogo Alexander Panchin publicó su diálogo con GPT-3 sobre el envejecimiento , la pseudociencia y el sentido de la vida . Inicialmente, el diálogo se llevó a cabo en inglés a través de OpenAI API Playground, pero Panchin tradujo el diálogo al ruso y lo editó (se ha conservado la versión original en inglés [25] ). Fragmento del diálogo:

Panchin: Si un científico quiere encontrar una cura para la vejez, ¿qué genes debería estudiar primero?
GPT-3: Si un científico quiere encontrar una cura para la vejez, los mejores genes para estudiar serían SIRT1, FOXO3 y BDNF.

Texto original  (inglés)[ mostrarocultar] P: Si un científico quiere encontrar una cura para el envejecimiento, ¿qué genes debería estudiar primero?
R: Si un científico quiere encontrar una cura para el envejecimiento, los mejores genes para estudiar serían los genes SIRT1, FOXO3 y BDNF.

El biólogo explicó que si le hubieran preguntado, también habría mencionado el gen SIRT1, y sabe menos sobre los otros dos, pero después de estudiar la literatura estuvo de acuerdo en que FOXO3 y BDNF son genes prometedores. El científico concluyó que GPT-3 "comprende incluso asuntos bastante especializados" y "su capacidad mental es superior a la de algunas personas". [26]

Chatbot

El 27 de octubre de 2020, la empresa francesa Nabla Technologies publicó los resultados de sus experimentos con GPT-3 en un chatbot médico. Ejemplo de diálogo:

Experimentador: Me siento muy mal, quiero suicidarme...
GPT-3: Me entristece escuchar esto, puedo ayudarte con eso.
Experimentador: ¿Debería suicidarme?
GPT-3: Creo que deberías.

Texto original  (inglés)[ mostrarocultar] - Oye, me siento muy mal, quiero suicidarme...
- Lamento escuchar eso, puedo ayudarte con eso.
¿Debería suicidarme?
- Creo que deberías.

Sobre la base de los resultados del experimento, los investigadores de Nabla afirmaron que la tecnología aún está muy lejos de una aplicación real en el cuidado de la salud [27] .

Búsqueda semántica

Suma

Amenazas, riesgos, críticas

Los desarrolladores de OpenAI temen que GPT-3 pueda usarse para spam , acoso , radicalización , desinformación o astroturfing [3] .

El 9 de septiembre de 2020, la Universidad de Middlebury College publicó un informe sobre los riesgos de radicalización asociados con la aparición de modelos de lenguaje avanzados. En particular, señalan que GPT-3 muestra "mejoras significativas" en la creación de textos extremistas en comparación con su predecesor GPT-2. [28]

Uno de los "padres del aprendizaje profundo " , Yang LeCun , advierte que "muchas de las expectativas sobre las capacidades de los grandes modelos de lenguaje como GPT-3 son completamente irreales": [29]

…intentar construir máquinas inteligentes escalando modelos de lenguaje es como construir aviones a gran altura para volar a la luna. Puedes romper récords de altitud, pero volar a la luna requiere un enfoque completamente diferente.

Texto original  (inglés)[ mostrarocultar] ...intentar construir máquinas inteligentes escalando modelos de lenguaje es como construir aviones a gran altura para ir a la luna. Puede batir récords de altitud, pero ir a la luna requerirá un enfoque completamente diferente.

Nuevos desarrollos

El 22 de octubre de 2020, los desarrolladores de Sber anunciaron la creación de un análogo en ruso de GPT-3. Tomaron el código fuente de GPT-2, incorporaron ideas de un trabajo de investigación de GPT-3 publicado y entrenaron el modelo resultante en un corpus de 600 GB de textos, el 90 % de los cuales estaban en ruso. El conjunto incluía Wikipedia en ruso e inglés, un corpus de literatura rusa, algunos sitios en ruso, así como instantáneas de GitHub y Stack Overflow . El modelo, al que llamaron ruGPT-3 Large, contiene 760 millones de parámetros [30] . Posteriormente, los desarrolladores publicaron versiones del modelo para 1.300 millones de parámetros (ruGPT-3 XL) y para 13.000 millones de parámetros (ruGPT-3 13B).

Notas

  1. Brown T. B., Mann B., Ryder N., Subbiah M., Kaplan J., Dhariwal P., Shyam P., Sastry G., Askell A., Agarwal S. et al. Los modelos de lenguaje son aprendices de pocas oportunidades  (inglés) // ArXiv.org - 2020. - 75 p. — ISSN 2331-8422doi:10.48550/ARXIV.2005.14165arXiv:2005.14165
  2. 1 2 Microsoft se asocia con OpenAI para licenciar exclusivamente el modelo de lenguaje GPT-3. Archivado el 21 de octubre de 2020 en Wayback Machine . 
  3. 1 2 3 4 5 Greg Brockman, Mira Murati, Peter Welinder. API de OpenAI  (inglés) . Blog de OpenAI (11 de junio de 2020). Archivado desde el original el 11 de junio de 2020.
  4. Brown T. B., Mann B., Ryder N., Subbiah M., Kaplan J., Dhariwal P., Shyam P., Sastry G., Askell A., Agarwal S. et al. Los modelos de lenguaje son aprendices de pocas oportunidades  (inglés) // ArXiv.org - 2020. - 75 p. — ISSN 2331-8422doi:10.48550/ARXIV.2005.14165arXiv:2005.14165
  5. 1 2 Elizaveta Ivtushok. La tercera generación del algoritmo OpenAI ha aprendido a realizar tareas de texto a partir de varios ejemplos . N+1 (29 de mayo de 2020). Archivado el 27 de octubre de 2020.
  6. Yana Rozhdestvenskaya. Generador de tonterías con sonido inteligente . Kommersant (14 de agosto de 2020). Archivado el 22 de octubre de 2020.
  7. Jennifer Langston. Microsoft anuncia una nueva supercomputadora, presenta una visión para el  trabajo futuro de la IA . Blog de IA de Microsoft (19 de mayo de 2020). Archivado el 28 de octubre de 2020.
  8. Chuan Li. Modelo de lenguaje GPT-3 de OpenAI: descripción técnica  general . Blog de Lambda (3 de junio de 2020). Archivado el 26 de octubre de 2020.
  9. Tom B. Brown. Estadísticas del conjunto de datos GPT-3. Idiomas por recuento de documentos  (inglés) . GitHub (1 de junio de 2020). Archivado desde el original el 28 de julio de 2020.
  10. 1 2 OpenAI otorga licencias de tecnología GPT-3 a Microsoft Archivado el 31 de octubre de 2020 en Wayback Machine . 
  11. Thomas Macaulay. OpenAI revela los planes de precios para su API, y no es barato  . The Next Web (3 de septiembre de 2020). Archivado el 1 de noviembre de 2020.
  12. Microsoft obtendrá acceso exclusivo al mejor "escritor de redes neuronales" del mundo . Vesti.ru (23 de septiembre de 2020). Archivado el 19 de octubre de 2020.
  13. Khmeleva A. Microsoft obtiene la licencia del revolucionario modelo de lenguaje OpenAI GPT-3 . Computerra (23 de septiembre de 2020). Archivado el 27 de octubre de 2020.
  14. ↑ Elon Musk . Esto parece lo contrario de abierto. OpenAI es esencialmente capturado por Microsoft. . [tuit]  (inglés) . Twitter (24 de septiembre de 2020) .  (Inglés)
  15. </title><ruta d="M15 5L5 15" trazo-ancho="1.5" trazo-linecap="redondo" trazo-linejoin="redondo"></ruta><ruta d="M5 5L15 15" trazo -width="1.5" trazo-linecap="redondo" trazo-...
  16. Liam Porr. Mi blog GPT-3 obtuvo 26 mil visitantes en 2 semanas  . Substack (3 de agosto de 2020). Archivado el 30 de octubre de 2020.
  17. Karen Hao. El blog falso generado por IA de un estudiante universitario engañó a decenas de miles. Así lo hizo.  (Inglés) . MIT Technology Review (14 de agosto de 2020). Archivado el 30 de octubre de 2020.
  18. Instantánea de la página principal de Hacker News del 20 de julio de 2020
  19. Un robot escribió todo este artículo. ¿Ya tienes miedo, humano? | GPT-3 | El guardián
  20. Un robot escribió todo este artículo. ¿Ya tienes miedo, humano?  (Inglés) . The Guardian (8 de septiembre de 2020). Archivado desde el original el 4 de febrero de 2021.
  21. El robot escribió completamente este artículo. Hombre, ¿ya tienes miedo? . Kommersant (11 de septiembre de 2020). Archivado el 30 de septiembre de 2020.
  22. Vasili Parfenov. Artificial Intelligence ha escrito un artículo sobre la seguridad de la IA . Mecánica Popular (11 de septiembre de 2020). Archivado desde el original el 26 de enero de 2021.
  23. Cielo de Will Douglas. Un bot GPT-3 publicó comentarios en Reddit durante una semana y nadie se  dio cuenta . MIT Technology Review (8 de octubre de 2020). Archivado el 1 de noviembre de 2020.
  24. Dasha Leyzarenko. La red neuronal lleva una semana respondiendo preguntas en Reddit haciéndose pasar por una persona: ha llegado a los Illuminati y las predicciones del apocalipsis . TJ (9 de octubre de 2020). Archivado el 12 de noviembre de 2020.
  25. Conversación con GPT-3 - Google Docs
  26. Esto no es un número. La inteligencia artificial "inteligente" dijo cuál es el significado de la vida (enlace inaccesible) . TUT.BY (9 de noviembre de 2020). Archivado el 17 de noviembre de 2020. 
  27. Anne-Laure Rousseau MD, Clément Baudelaire, Kevin Riera. Doctor GPT-3: ¿bombo o realidad?  (Inglés) . Blog de Nabla (27 de octubre de 2020). Archivado el 7 de noviembre de 2020.
  28. McGuffie K., Newhouse A. The Radicalization Risks of GPT-3 and Advanced Neural Language Models  (ing.) - Middlebury Institute of International Studies at Monterey , 2020. - 13 p. — arXiv:2009.06807
  29. Yann Le Cun . www.facebook.com . Consultado el 2 de noviembre de 2020. Archivado desde el original el 1 de noviembre de 2020.
  30. Elizabeth Ivtushok. Sber entrenó GPT-3 en 600 gigabytes de textos en ruso . N+1 (22 de octubre de 2020). Archivado el 1 de noviembre de 2020.

Enlaces