Palabra2vec

Word2vec es un nombre genérico para una colección de modelos de redes neuronales artificiales diseñados para obtener representaciones vectoriales de palabras del lenguaje natural . Sirve para analizar la semántica de lenguajes naturales basada en semántica distributiva , aprendizaje automático y representación vectorial de palabras. El software llamado "word2vec" fue desarrollado por un grupo de investigadores de Google en 2013 [1] [2] . Las herramientas para crear modelos vectoriales semánticos existían antes [3] [4] , pero word2vec se convirtió en la primera implementación popular: principalmente debido a la facilidad de uso, el código fuente abierto y la velocidad.[5]

Descripción

El programa funciona de la siguiente manera: word2vec toma un corpus de texto grande como entrada y asigna cada palabra a un vector, dando las coordenadas de las palabras como salida. Primero genera un diccionario del corpus y luego calcula una representación vectorial de las palabras "aprendiendo" de los textos de entrada. La representación vectorial se basa en la proximidad contextual: las palabras que aparecen en el texto junto a las mismas palabras (y por lo tanto tienen un significado similar) tendrán vectores cercanos (por la distancia del coseno ). Las representaciones vectoriales resultantes de las palabras se pueden utilizar para el procesamiento del lenguaje natural y el aprendizaje automático.

Algoritmos de aprendizaje

Word2vec implementa dos algoritmos de aprendizaje principales: CBoW ( Continuous Bag of Words ) y Skip -gram. CBoW es una arquitectura que predice la palabra actual en función del contexto que la rodea. Una arquitectura como Skip-gram hace lo contrario: usa la palabra actual para predecir las palabras circundantes. Es posible construir un modelo word2vec utilizando estos dos algoritmos. El orden de las palabras del contexto no afecta el resultado en ninguno de estos algoritmos.

Resultados

Las representaciones vectoriales resultantes de las palabras permiten calcular la "distancia semántica" entre las palabras. Entonces, puedes encontrar palabras que tienen un significado similar. Suelen dar un ejemplo con el rey y la reina: el rey trata al hombre de la misma manera que la reina trata a la mujer. Word2vec hace predicciones basadas en la proximidad contextual de estas palabras. Dado que la herramienta word2vec se basa en entrenar una red neuronal simple , para lograr su rendimiento más eficiente, es necesario utilizar grandes corpus para entrenarla. Esto mejora la calidad de las predicciones.

Véase también

Notas

↑ Mikolov et al., 2013a .
↑ Mikolov et al., 2013b .
↑ Bengio et al., 2003 .
↑ Collobert y Weston, 2008 .
↑ word2vec._ _ _ Archivo de código de Google . Consultado el 24 de abril de 2020. Archivado desde el original el 3 de noviembre de 2020.

Literatura

Mikolov T. , Chen K. , Corrado G. , Dean J. Estimación eficiente de las representaciones de palabras en el espacio vectorial // En las actas del taller en ICLR. — 2013a.
Mikolov T. , Yih W.-T. , Zweig G. Regularidades lingüísticas en representaciones de palabras en espacios continuos // En Actas de NAACL HLT. — 2013b.
Bengio Y. , Ducharme R. , Vincent P. Un modelo de lenguaje probabilístico neural // En Journal of Machine Learning Research. — 2003.
Collobert R. , Weston J. Una arquitectura unificada para el procesamiento del lenguaje natural: Redes neuronales profundas con aprendizaje multitarea // En Actas de la 25.ª ICML. — 2008.

Enlaces

https://code.google.com/archive/p/word2vec/
RusVectōrēs : un ejemplo de aplicación al idioma ruso

Implementaciones en diferentes lenguajes de programación.