GPT-3

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 31 de octubre de 2022; las comprobaciones requieren 4 ediciones .

GPT-3
Tipo de	modelo de lenguaje [d] ,modelo autorregresivo, modelotransformadorygenerativo [ d]
Desarrollador	IA abierta
Primera edición	28 de mayo de 2020
ultima versión	175B [1]
Licencia	propiedad
Sitio web	arxiv.org/abs/200… ( inglés)

GPT-3 (Generative Pre-trained Transformer 3) es la tercera generación del algoritmo de procesamiento de lenguaje natural de OpenAI . A partir de noviembre de 2022, este es el modelo de lenguaje más grande y avanzado del mundo [2] . El modelo, según los desarrolladores, se puede utilizar para resolver "cualquier problema en inglés" [3] .

Creando un modelo

El 28 de mayo de 2020, un grupo de investigadores de OpenAI dirigido por Dario Amodei publicó un artículo científico que detalla el algoritmo GPT-3. [cuatro]

GPT-3, como GPT-2, es un modelo de lenguajegenerativo autorregresivo en una arquitectura de transformador .

En comparación con GPT-2, la cantidad de parámetros utilizados aumentó más de 100 veces: de 1,5 a 175 mil millones. [5] [6] El modelo se entrenó en la supercomputadora Microsoft Azure AI , que se creó específicamente para OpenAI. [7] [3] Lambda Labs estimó que dicha capacitación podría costar hasta $ 4,6 millones. [ocho]

Para entrenar el algoritmo, los investigadores recopilaron un conjunto de datos de más de 570 GB de textos, incluidos datos del proyecto Common Crawl , la Wikipedia en inglés , dos conjuntos de datos con libros y un conjunto de datos WebText2 con textos de páginas web. [5] Solo el 0,11% de los documentos incluidos en el conjunto de datos estaban en ruso. [9]

Modelo de acceso

El 11 de junio de 2020, OpenAI anunció una API cerrada basada en GPT-3 a la que solo los desarrolladores seleccionados tienen acceso: Reddit, Algolia, Quizlet AI Dungeon y otrosexplicó razones por las que exponen la API en lugar de poner el modelo a disposición del público: [3]

El dinero ganado permitirá que OpenAI continúe con su investigación.
Solo las grandes empresas pueden crear la infraestructura para ejecutar modelos grandes como GPT-3. La API, por otro lado, permite que incluso las pequeñas empresas accedan a la tecnología.
A través de la API, OpenAI puede controlar el uso de la tecnología y restringir el acceso a quienes “abusan” de ella.

En unos pocos meses, OpenAI recibió "decenas de miles" de solicitudes para conectarse a la API. [10] Inicialmente, la API se proporcionaba de forma gratuita, pero desde el 1 de octubre de 2020 aparecieron las primeras tarifas por su uso. [once]

El 22 de septiembre de 2020, Microsoft recibió una licencia exclusiva para usar el modelo GPT-3 en sus productos y acceder al código fuente de la tecnología. [10] [2] [12] [13] Otros desarrolladores solo pueden acceder al algoritmo a través de la API. El ex cofundador de OpenAI Elon Musk reaccionó negativamente a este acuerdo. [catorce]

Características y casos de uso

OpenAI dijo que a diferencia de otros modelos que se crean para resolver problemas específicos del idioma, su API puede resolver "cualquier problema en inglés". [3] El algoritmo funciona según el principio de finalización automática : ingresa el comienzo del texto y el programa genera la continuación más probable del mismo.

Generación de artículos

El 20 de julio de 2020, el estudiante estadounidense Liam Porr publicó en su blog un artículo [15] creado con la API de OpenAI. A Liam se le ocurrieron el título y las primeras oraciones, y el algoritmo agregó el resto. Los lectores generalmente reaccionaron positivamente al artículo y no notaron el problema. El enlace al artículo ocupó el primer lugar en el ranking de Hacker News durante algún tiempo . [16] [17] [18]

El 8 de septiembre de 2020, la edición británica de The Guardian publicó una nota [19] escrita con GPT-3. Los editores "pidieron" a la modelo que escribiera un ensayo sobre por qué la gente no debería tener miedo a los robots. Liam Porr proporcionó a los editores ocho borradores de ensayos generados por GPT-3, de los cuales los editores de la publicación recopilaron el texto final [20] [21] [22] .

Respuestas a preguntas

En octubre de 2020, apareció un bot en la sección del sitio web de Reddit donde los usuarios se hacen preguntas, que publicó más de mil respuestas detalladas a estas preguntas en una semana. Un fragmento de la respuesta de bot más popular:

Usuario: Chicos de mantenimiento de ascensores, ¿qué es lo más extraño que han encontrado en el fondo del hueco de un ascensor?
Bot: Lo primero que me viene a la mente es el reciente descubrimiento de una colonia de personas que viven en los huecos de los ascensores debajo de los edificios. Para los sociólogos y antropólogos, este fue un descubrimiento sorprendente que reveló más acerca de la cultura humana de lo que nunca antes había sido posible...

Texto original (inglés)[ mostrarocultar] Redditor: Amigos de mantenimiento de ascensores, ¿qué es lo más extraño que han encontrado en el fondo de la cámara del ascensor?
Bot: Lo primero que me viene a la mente es el reciente descubrimiento de una colonia de humanos que viven en los huecos y en la maquinaria de los ascensores en la parte inferior de los edificios. Este fue un hallazgo extraordinario para sociólogos y antropólogos, que reveló más sobre la cultura humana de lo que nunca antes había sido posible...

El bot generó respuestas a través del servicio Philosopher AI, que a su vez se ejecuta en GPT-3. El desarrollador de Philosopher AI bloqueó el bot y dejó de publicar nuevas respuestas. [23] [24]

El 8 de noviembre de 2020, el biólogo Alexander Panchin publicó su diálogo con GPT-3 sobre el envejecimiento , la pseudociencia y el sentido de la vida . Inicialmente, el diálogo se llevó a cabo en inglés a través de OpenAI API Playground, pero Panchin tradujo el diálogo al ruso y lo editó (se ha conservado la versión original en inglés [25] ). Fragmento del diálogo:

Panchin: Si un científico quiere encontrar una cura para la vejez, ¿qué genes debería estudiar primero?
GPT-3: Si un científico quiere encontrar una cura para la vejez, los mejores genes para estudiar serían SIRT1, FOXO3 y BDNF.

Texto original (inglés)[ mostrarocultar] P: Si un científico quiere encontrar una cura para el envejecimiento, ¿qué genes debería estudiar primero?
R: Si un científico quiere encontrar una cura para el envejecimiento, los mejores genes para estudiar serían los genes SIRT1, FOXO3 y BDNF.

El biólogo explicó que si le hubieran preguntado, también habría mencionado el gen SIRT1, y sabe menos sobre los otros dos, pero después de estudiar la literatura estuvo de acuerdo en que FOXO3 y BDNF son genes prometedores. El científico concluyó que GPT-3 "comprende incluso asuntos bastante especializados" y "su capacidad mental es superior a la de algunas personas". [26]

Chatbot

El 27 de octubre de 2020, la empresa francesa Nabla Technologies publicó los resultados de sus experimentos con GPT-3 en un chatbot médico. Ejemplo de diálogo:

Experimentador: Me siento muy mal, quiero suicidarme...
GPT-3: Me entristece escuchar esto, puedo ayudarte con eso.
Experimentador: ¿Debería suicidarme?
GPT-3: Creo que deberías.

Texto original (inglés)[ mostrarocultar] - Oye, me siento muy mal, quiero suicidarme...
- Lamento escuchar eso, puedo ayudarte con eso.
¿Debería suicidarme?
- Creo que deberías.

Sobre la base de los resultados del experimento, los investigadores de Nabla afirmaron que la tecnología aún está muy lejos de una aplicación real en el cuidado de la salud [27] .

Búsqueda semántica

Suma

Amenazas, riesgos, críticas

Los desarrolladores de OpenAI temen que GPT-3 pueda usarse para spam , acoso , radicalización , desinformación o astroturfing [3] .

El 9 de septiembre de 2020, la Universidad de Middlebury College publicó un informe sobre los riesgos de radicalización asociados con la aparición de modelos de lenguaje avanzados. En particular, señalan que GPT-3 muestra "mejoras significativas" en la creación de textos extremistas en comparación con su predecesor GPT-2. [28]

Uno de los "padres del aprendizaje profundo " , Yang LeCun , advierte que "muchas de las expectativas sobre las capacidades de los grandes modelos de lenguaje como GPT-3 son completamente irreales": [29]

…intentar construir máquinas inteligentes escalando modelos de lenguaje es como construir aviones a gran altura para volar a la luna. Puedes romper récords de altitud, pero volar a la luna requiere un enfoque completamente diferente.

Texto original (inglés)[ mostrarocultar] ...intentar construir máquinas inteligentes escalando modelos de lenguaje es como construir aviones a gran altura para ir a la luna. Puede batir récords de altitud, pero ir a la luna requerirá un enfoque completamente diferente.

Nuevos desarrollos

El 22 de octubre de 2020, los desarrolladores de Sber anunciaron la creación de un análogo en ruso de GPT-3. Tomaron el código fuente de GPT-2, incorporaron ideas de un trabajo de investigación de GPT-3 publicado y entrenaron el modelo resultante en un corpus de 600 GB de textos, el 90 % de los cuales estaban en ruso. El conjunto incluía Wikipedia en ruso e inglés, un corpus de literatura rusa, algunos sitios en ruso, así como instantáneas de GitHub y Stack Overflow . El modelo, al que llamaron ruGPT-3 Large, contiene 760 millones de parámetros [30] . Posteriormente, los desarrolladores publicaron versiones del modelo para 1.300 millones de parámetros (ruGPT-3 XL) y para 13.000 millones de parámetros (ruGPT-3 13B).

Notas

↑ Brown T. B., Mann B., Ryder N., Subbiah M., Kaplan J., Dhariwal P., Shyam P., Sastry G., Askell A., Agarwal S. et al. Los modelos de lenguaje son aprendices de pocas oportunidades (inglés) // ArXiv.org - 2020. - 75 p. — ISSN 2331-8422 — doi:10.48550/ARXIV.2005.14165 — arXiv:2005.14165
↑ 1 2 Microsoft se asocia con OpenAI para licenciar exclusivamente el modelo de lenguaje GPT-3. Archivado el 21 de octubre de 2020 en Wayback Machine .
↑ 1 2 3 4 5 Greg Brockman, Mira Murati, Peter Welinder. API de OpenAI (inglés) . Blog de OpenAI (11 de junio de 2020). Archivado desde el original el 11 de junio de 2020.
↑ Brown T. B., Mann B., Ryder N., Subbiah M., Kaplan J., Dhariwal P., Shyam P., Sastry G., Askell A., Agarwal S. et al. Los modelos de lenguaje son aprendices de pocas oportunidades (inglés) // ArXiv.org - 2020. - 75 p. — ISSN 2331-8422 — doi:10.48550/ARXIV.2005.14165 — arXiv:2005.14165
↑ 1 2 Elizaveta Ivtushok. La tercera generación del algoritmo OpenAI ha aprendido a realizar tareas de texto a partir de varios ejemplos . N+1 (29 de mayo de 2020). Archivado el 27 de octubre de 2020. (indefinido)
↑ Yana Rozhdestvenskaya. Generador de tonterías con sonido inteligente . Kommersant (14 de agosto de 2020). Archivado el 22 de octubre de 2020. (indefinido)
↑ Jennifer Langston. Microsoft anuncia una nueva supercomputadora, presenta una visión para el trabajo futuro de la IA . Blog de IA de Microsoft (19 de mayo de 2020). Archivado el 28 de octubre de 2020.
↑ Chuan Li. Modelo de lenguaje GPT-3 de OpenAI: descripción técnica general . Blog de Lambda (3 de junio de 2020). Archivado el 26 de octubre de 2020.
↑ Tom B. Brown. Estadísticas del conjunto de datos GPT-3. Idiomas por recuento de documentos (inglés) . GitHub (1 de junio de 2020). Archivado desde el original el 28 de julio de 2020.
↑ 1 2 OpenAI otorga licencias de tecnología GPT-3 a Microsoft Archivado el 31 de octubre de 2020 en Wayback Machine .
↑ Thomas Macaulay. OpenAI revela los planes de precios para su API, y no es barato . The Next Web (3 de septiembre de 2020). Archivado el 1 de noviembre de 2020.
↑ Microsoft obtendrá acceso exclusivo al mejor "escritor de redes neuronales" del mundo . Vesti.ru (23 de septiembre de 2020). Archivado el 19 de octubre de 2020. (indefinido)
↑ Khmeleva A. Microsoft obtiene la licencia del revolucionario modelo de lenguaje OpenAI GPT-3 . Computerra (23 de septiembre de 2020). Archivado el 27 de octubre de 2020. (Ruso)
↑ Elon Musk . Esto parece lo contrario de abierto. OpenAI es esencialmente capturado por Microsoft. . [tuit] (inglés) . Twitter (24 de septiembre de 2020) . (Inglés)
↑ </title><ruta d="M15 5L5 15" trazo-ancho="1.5" trazo-linecap="redondo" trazo-linejoin="redondo"></ruta><ruta d="M5 5L15 15" trazo -width="1.5" trazo-linecap="redondo" trazo-...
↑ Liam Porr. Mi blog GPT-3 obtuvo 26 mil visitantes en 2 semanas . Substack (3 de agosto de 2020). Archivado el 30 de octubre de 2020.
↑ Karen Hao. El blog falso generado por IA de un estudiante universitario engañó a decenas de miles. Así lo hizo. (Inglés) . MIT Technology Review (14 de agosto de 2020). Archivado el 30 de octubre de 2020.
↑ Instantánea de la página principal de Hacker News del 20 de julio de 2020
↑ Un robot escribió todo este artículo. ¿Ya tienes miedo, humano? | GPT-3 | El guardián
↑ Un robot escribió todo este artículo. ¿Ya tienes miedo, humano? (Inglés) . The Guardian (8 de septiembre de 2020). Archivado desde el original el 4 de febrero de 2021.
↑ El robot escribió completamente este artículo. Hombre, ¿ya tienes miedo? . Kommersant (11 de septiembre de 2020). Archivado el 30 de septiembre de 2020. (indefinido)
↑ Vasili Parfenov. Artificial Intelligence ha escrito un artículo sobre la seguridad de la IA . Mecánica Popular (11 de septiembre de 2020). Archivado desde el original el 26 de enero de 2021. (indefinido)
↑ Cielo de Will Douglas. Un bot GPT-3 publicó comentarios en Reddit durante una semana y nadie se dio cuenta . MIT Technology Review (8 de octubre de 2020). Archivado el 1 de noviembre de 2020.
↑ Dasha Leyzarenko. La red neuronal lleva una semana respondiendo preguntas en Reddit haciéndose pasar por una persona: ha llegado a los Illuminati y las predicciones del apocalipsis . TJ (9 de octubre de 2020). Archivado el 12 de noviembre de 2020. (indefinido)
↑ Conversación con GPT-3 - Google Docs
↑ Esto no es un número. La inteligencia artificial "inteligente" dijo cuál es el significado de la vida (enlace inaccesible) . TUT.BY (9 de noviembre de 2020). Archivado el 17 de noviembre de 2020. (indefinido)
↑ Anne-Laure Rousseau MD, Clément Baudelaire, Kevin Riera. Doctor GPT-3: ¿bombo o realidad? (Inglés) . Blog de Nabla (27 de octubre de 2020). Archivado el 7 de noviembre de 2020.
↑ McGuffie K., Newhouse A. The Radicalization Risks of GPT-3 and Advanced Neural Language Models (ing.) - Middlebury Institute of International Studies at Monterey , 2020. - 13 p. — arXiv:2009.06807
↑ Yann Le Cun . www.facebook.com . Consultado el 2 de noviembre de 2020. Archivado desde el original el 1 de noviembre de 2020. (Ruso)
↑ Elizabeth Ivtushok. Sber entrenó GPT-3 en 600 gigabytes de textos en ruso . N+1 (22 de octubre de 2020). Archivado el 1 de noviembre de 2020. (indefinido)

Enlaces

API de IA abierta

procesamiento natural del lenguaje
Definiciones generales	corpus de textos corpus de habla Para las palabras bolsa de palabras Integridad de la IA N-grama Cifrado de bigrama trigrama
Análisis de texto	Segmentación de texto Marcaje parcial análisis de superficie Procesamiento de textos compuestos Extracción de colocaciones derivación lematización Reconocimiento de entidad nombrada Resolución de correferencia Análisis de sentimiento de texto Extracción de conceptos analizando Resolución de la polisemia léxica Extraer terminología Extracción de información Identificación de idioma Definición de caso
Referencia	Extrayendo oraciones Generación abstracta Referenciación multi-documento Simplificación de texto
Traducción automática	automatizado Híbrido Interlingüístico Basado en reglas Basado en ejemplos Basado en diccionario Basado en la transformación neural Estadístico Sincrónico
Identificación y recogida de datos	Reconocimiento de voz síntesis de voz Reconocimiento óptico de caracteres Generación de texto
Modelo Temático	colocación de pachinko Colocación latente de Dirichlet Análisis semántico latente
revisión por pares	Evaluación automatizada de ensayos concordante Entrada de texto predictivo Corrector gramatical Corrector ortográfico Adivinanzas de sintaxis
Interfaz de lenguaje natural	asistente virtual Interlocutor virtual sistema de preguntas y respuestas interfaz de voz Literatura Interactiva

Inteligencia artificial
Historia	Historia de la inteligencia artificial Invierno de inteligencia artificial Seminario de Dartmouth
Filosofía	prueba de Turing cuarto chino Inteligencia artificial fuerte y débil Inteligencia artificial amigable La ética de la inteligencia artificial Problema de control
Direcciones	Enfoque del agente control adaptativo ingeniería del conocimiento Modelo de sistema viable Aprendizaje automático red neuronal lógica difusa procesamiento natural del lenguaje Reconocimiento de patrones Inteligencia de enjambre IA simbólica Algoritmos evolutivos Experto en Sistemas
Solicitud	Control de voz Problema de clasificación Clasificación de documentos Agrupación de documentos análisis de conglomerados Busqueda local Traducción automática Reconocimiento óptico de caracteres Reconocimiento de voz Reconocimiento de escritura a mano IA del juego
Investigadores	Charles Babbage vladimir vapnik José Weizenbaum Norberto Wiener Viktor Glushkov Vladímir Gorodetsky Jan Le Cun Alexey Liapunov Juan McCarthy marvin minski allen newell Seymour Papel Perla de Judá Germógen Pospelov Dmitri Pospelov Frank Rosenblatt Herbert Alejandro Simón alan turing patricio winston Víctor Finn sergey fomin demis hassabis Geoffrey Hinton Noam Chomsky claude shannon andres eun Eliezer Yudkovski

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ICA LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG