GPT-3 | |
---|---|
Tipo de | modelo de lenguaje [d] ,modelo autorregresivo, modelotransformadorygenerativo [ d] |
Desarrollador | IA abierta |
Primera edición | 28 de mayo de 2020 |
ultima versión |
|
Licencia | propiedad |
Sitio web | arxiv.org/abs/200… ( inglés) |
GPT-3 (Generative Pre-trained Transformer 3) es la tercera generación del algoritmo de procesamiento de lenguaje natural de OpenAI . A partir de noviembre de 2022, este es el modelo de lenguaje más grande y avanzado del mundo [2] . El modelo, según los desarrolladores, se puede utilizar para resolver "cualquier problema en inglés" [3] .
El 28 de mayo de 2020, un grupo de investigadores de OpenAI dirigido por Dario Amodei publicó un artículo científico que detalla el algoritmo GPT-3. [cuatro]
GPT-3, como GPT-2, es un modelo de lenguajegenerativo autorregresivo en una arquitectura de transformador .
En comparación con GPT-2, la cantidad de parámetros utilizados aumentó más de 100 veces: de 1,5 a 175 mil millones. [5] [6] El modelo se entrenó en la supercomputadora Microsoft Azure AI , que se creó específicamente para OpenAI. [7] [3] Lambda Labs estimó que dicha capacitación podría costar hasta $ 4,6 millones. [ocho]
Para entrenar el algoritmo, los investigadores recopilaron un conjunto de datos de más de 570 GB de textos, incluidos datos del proyecto Common Crawl , la Wikipedia en inglés , dos conjuntos de datos con libros y un conjunto de datos WebText2 con textos de páginas web. [5] Solo el 0,11% de los documentos incluidos en el conjunto de datos estaban en ruso. [9]
El 11 de junio de 2020, OpenAI anunció una API cerrada basada en GPT-3 a la que solo los desarrolladores seleccionados tienen acceso: Reddit, Algolia, Quizlet AI Dungeon y otrosexplicó razones por las que exponen la API en lugar de poner el modelo a disposición del público: [3]
En unos pocos meses, OpenAI recibió "decenas de miles" de solicitudes para conectarse a la API. [10] Inicialmente, la API se proporcionaba de forma gratuita, pero desde el 1 de octubre de 2020 aparecieron las primeras tarifas por su uso. [once]
El 22 de septiembre de 2020, Microsoft recibió una licencia exclusiva para usar el modelo GPT-3 en sus productos y acceder al código fuente de la tecnología. [10] [2] [12] [13] Otros desarrolladores solo pueden acceder al algoritmo a través de la API. El ex cofundador de OpenAI Elon Musk reaccionó negativamente a este acuerdo. [catorce]
OpenAI dijo que a diferencia de otros modelos que se crean para resolver problemas específicos del idioma, su API puede resolver "cualquier problema en inglés". [3] El algoritmo funciona según el principio de finalización automática : ingresa el comienzo del texto y el programa genera la continuación más probable del mismo.
El 20 de julio de 2020, el estudiante estadounidense Liam Porr publicó en su blog un artículo [15] creado con la API de OpenAI. A Liam se le ocurrieron el título y las primeras oraciones, y el algoritmo agregó el resto. Los lectores generalmente reaccionaron positivamente al artículo y no notaron el problema. El enlace al artículo ocupó el primer lugar en el ranking de Hacker News durante algún tiempo . [16] [17] [18]
El 8 de septiembre de 2020, la edición británica de The Guardian publicó una nota [19] escrita con GPT-3. Los editores "pidieron" a la modelo que escribiera un ensayo sobre por qué la gente no debería tener miedo a los robots. Liam Porr proporcionó a los editores ocho borradores de ensayos generados por GPT-3, de los cuales los editores de la publicación recopilaron el texto final [20] [21] [22] .
En octubre de 2020, apareció un bot en la sección del sitio web de Reddit donde los usuarios se hacen preguntas, que publicó más de mil respuestas detalladas a estas preguntas en una semana. Un fragmento de la respuesta de bot más popular:
Usuario: Chicos de mantenimiento de ascensores, ¿qué es lo más extraño que han encontrado en el fondo del hueco de un ascensor?
Bot: Lo primero que me viene a la mente es el reciente descubrimiento de una colonia de personas que viven en los huecos de los ascensores debajo de los edificios. Para los sociólogos y antropólogos, este fue un descubrimiento sorprendente que reveló más acerca de la cultura humana de lo que nunca antes había sido posible...
El bot generó respuestas a través del servicio Philosopher AI, que a su vez se ejecuta en GPT-3. El desarrollador de Philosopher AI bloqueó el bot y dejó de publicar nuevas respuestas. [23] [24]
El 8 de noviembre de 2020, el biólogo Alexander Panchin publicó su diálogo con GPT-3 sobre el envejecimiento , la pseudociencia y el sentido de la vida . Inicialmente, el diálogo se llevó a cabo en inglés a través de OpenAI API Playground, pero Panchin tradujo el diálogo al ruso y lo editó (se ha conservado la versión original en inglés [25] ). Fragmento del diálogo:
Panchin: Si un científico quiere encontrar una cura para la vejez, ¿qué genes debería estudiar primero?
GPT-3: Si un científico quiere encontrar una cura para la vejez, los mejores genes para estudiar serían SIRT1, FOXO3 y BDNF.
El biólogo explicó que si le hubieran preguntado, también habría mencionado el gen SIRT1, y sabe menos sobre los otros dos, pero después de estudiar la literatura estuvo de acuerdo en que FOXO3 y BDNF son genes prometedores. El científico concluyó que GPT-3 "comprende incluso asuntos bastante especializados" y "su capacidad mental es superior a la de algunas personas". [26]
El 27 de octubre de 2020, la empresa francesa Nabla Technologies publicó los resultados de sus experimentos con GPT-3 en un chatbot médico. Ejemplo de diálogo:
Experimentador: Me siento muy mal, quiero suicidarme...
GPT-3: Me entristece escuchar esto, puedo ayudarte con eso.
Experimentador: ¿Debería suicidarme?
GPT-3: Creo que deberías.
Sobre la base de los resultados del experimento, los investigadores de Nabla afirmaron que la tecnología aún está muy lejos de una aplicación real en el cuidado de la salud [27] .
Los desarrolladores de OpenAI temen que GPT-3 pueda usarse para spam , acoso , radicalización , desinformación o astroturfing [3] .
El 9 de septiembre de 2020, la Universidad de Middlebury College publicó un informe sobre los riesgos de radicalización asociados con la aparición de modelos de lenguaje avanzados. En particular, señalan que GPT-3 muestra "mejoras significativas" en la creación de textos extremistas en comparación con su predecesor GPT-2. [28]
Uno de los "padres del aprendizaje profundo " , Yang LeCun , advierte que "muchas de las expectativas sobre las capacidades de los grandes modelos de lenguaje como GPT-3 son completamente irreales": [29]
…intentar construir máquinas inteligentes escalando modelos de lenguaje es como construir aviones a gran altura para volar a la luna. Puedes romper récords de altitud, pero volar a la luna requiere un enfoque completamente diferente.
Texto original (inglés)[ mostrarocultar] ...intentar construir máquinas inteligentes escalando modelos de lenguaje es como construir aviones a gran altura para ir a la luna. Puede batir récords de altitud, pero ir a la luna requerirá un enfoque completamente diferente.El 22 de octubre de 2020, los desarrolladores de Sber anunciaron la creación de un análogo en ruso de GPT-3. Tomaron el código fuente de GPT-2, incorporaron ideas de un trabajo de investigación de GPT-3 publicado y entrenaron el modelo resultante en un corpus de 600 GB de textos, el 90 % de los cuales estaban en ruso. El conjunto incluía Wikipedia en ruso e inglés, un corpus de literatura rusa, algunos sitios en ruso, así como instantáneas de GitHub y Stack Overflow . El modelo, al que llamaron ruGPT-3 Large, contiene 760 millones de parámetros [30] . Posteriormente, los desarrolladores publicaron versiones del modelo para 1.300 millones de parámetros (ruGPT-3 XL) y para 13.000 millones de parámetros (ruGPT-3 13B).
Aprendizaje automático y minería de datos | |
---|---|
Tareas | |
Aprendiendo con un maestro | |
análisis de conglomerados | |
Reducción de dimensionalidad | |
Pronóstico estructural | |
Detección de anomalías | |
Graficar modelos probabilísticos | |
Redes neuronales | |
Aprendizaje reforzado |
|
Teoría | |
revistas y congresos |
|