Word2vec es un nombre genérico para una colección de modelos de redes neuronales artificiales diseñados para obtener representaciones vectoriales de palabras del lenguaje natural . Sirve para analizar la semántica de lenguajes naturales basada en semántica distributiva , aprendizaje automático y representación vectorial de palabras. El software llamado "word2vec" fue desarrollado por un grupo de investigadores de Google en 2013 [1] [2] . Las herramientas para crear modelos vectoriales semánticos existían antes [3] [4] , pero word2vec se convirtió en la primera implementación popular: principalmente debido a la facilidad de uso, el código fuente abierto y la velocidad.[5]
El programa funciona de la siguiente manera: word2vec toma un corpus de texto grande como entrada y asigna cada palabra a un vector, dando las coordenadas de las palabras como salida. Primero genera un diccionario del corpus y luego calcula una representación vectorial de las palabras "aprendiendo" de los textos de entrada. La representación vectorial se basa en la proximidad contextual: las palabras que aparecen en el texto junto a las mismas palabras (y por lo tanto tienen un significado similar) tendrán vectores cercanos (por la distancia del coseno ). Las representaciones vectoriales resultantes de las palabras se pueden utilizar para el procesamiento del lenguaje natural y el aprendizaje automático.
Word2vec implementa dos algoritmos de aprendizaje principales: CBoW ( Continuous Bag of Words ) y Skip -gram. CBoW es una arquitectura que predice la palabra actual en función del contexto que la rodea. Una arquitectura como Skip-gram hace lo contrario: usa la palabra actual para predecir las palabras circundantes. Es posible construir un modelo word2vec utilizando estos dos algoritmos. El orden de las palabras del contexto no afecta el resultado en ninguno de estos algoritmos.
Las representaciones vectoriales resultantes de las palabras permiten calcular la "distancia semántica" entre las palabras. Entonces, puedes encontrar palabras que tienen un significado similar. Suelen dar un ejemplo con el rey y la reina: el rey trata al hombre de la misma manera que la reina trata a la mujer. Word2vec hace predicciones basadas en la proximidad contextual de estas palabras. Dado que la herramienta word2vec se basa en entrenar una red neuronal simple , para lograr su rendimiento más eficiente, es necesario utilizar grandes corpus para entrenarla. Esto mejora la calidad de las predicciones.