Resolución de la polisemia léxica

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 3 de abril de 2021; las comprobaciones requieren 12 ediciones .

La desambiguación de sentido de palabra ( WSD ) es un problema no resuelto del procesamiento del lenguaje natural , que consiste en la tarea de elegir el significado (o significado) de una palabra o frase ambigua dependiendo del contexto en el que se encuentre. Este problema surge en el análisis discursivo , al optimizar la relevancia de los resultados de los motores de búsqueda, al resolver referencias anafóricas , al estudiar la coherencia lingüística de un texto, al analizar inferencias .

La investigación científica sobre la resolución de la polisemia léxica ha estado en el campo de la lingüística aplicada y computacional durante mucho tiempo y tiene una larga historia. A lo largo de los años, el número de soluciones propuestas y su eficacia ha crecido constantemente hasta que la eficacia ha alcanzado un cierto nivel de precisión comparativamente eficaz para una cierta gama de palabras y tipos de polisemia . El problema aún no ha recibido una solución completa, ya que muchos problemas directamente relacionados con las características lingüísticas del habla humana se interponen en el camino de una solución exitosa.

Se ha explorado una gran cantidad de métodos, que van desde métodos basados en el conocimiento, reglas, fuentes lexicográficas, aprendizaje supervisado en un corpus de textos, hasta métodos de aprendizaje no supervisado que agrupan palabras según su significado. Entre estos, hasta la fecha, los métodos de aprendizaje supervisado han mostrado la mejor eficacia. Sin embargo, la comparación objetiva y la evaluación de métodos es un proceso complejo que depende de muchos factores. Para los sistemas de vocabulario generalizado (para inglés), la eficiencia supera regularmente la barra del 90 %, llegando a veces incluso al 96 %. Para sistemas de vocabulario más diferenciado, la eficiencia está en el rango de 59% -69%.

Sobre el proceso de desambiguación

En general, la ambigüedad (o ambigüedad) de una expresión lingüística u obra de habla (texto) se entiende como la presencia de varios significados diferentes al mismo tiempo [1] . Los científicos comparten varios tipos de dicha ambigüedad: léxica, sintáctica y del habla, pero el término "WSD" incluye la resolución de las léxicas (semánticas).

De lo que estamos hablando se puede entender del siguiente ejemplo con la palabra ambigua "clave":

llave como herramienta para abrir
clave como fuente de agua

así como 3 contextos:

La llave subió, la puerta se abrió
me emborraché de la llave
la vida abunda

Es obvio para una persona que en la primera oración la palabra " llave " se usa en el primer significado, en la segunda oración, respectivamente en el segundo significado y en el tercero, son posibles variantes. Desarrollar algoritmos que imiten esta habilidad humana a veces puede ser una tarea desalentadora.

El proceso de resolución requiere varias cosas: sistemas de conocimiento de vocabulario para definir múltiples significados de palabras y un corpus de textos para resolver ( pueden requerirse otras fuentes de conocimiento en algunos casos ).

Breve historia de la zona

Este problema se formuló por primera vez como un problema separado en la década de 1940, durante los primeros días de la traducción automática, lo que lo convierte en uno de los problemas más antiguos de la lingüística computacional. Warren Weaver , en su famoso "Memorándum de ' Traducción'" (1949) [2] , presentó el problema en un aspecto informático. Los investigadores de esa época eran muy conscientes de su importancia y complejidad, en particular, Joshua Bar-Hillel (uno de los pioneros) en 1960 expresó dudas de que la tarea de la traducción automática totalmente automática universal sería alguna vez factible debido a la necesidad de modelar todo el conocimiento humano sobre el mundo [3 ] .

En los años 70, el problema WSD pasó a formar parte de los sistemas de interpretación semántica desarrollados en el campo de la IA , sin embargo, en su mayoría consistían en reglas derivadas manualmente, y por lo tanto dependían completamente de la cantidad de conocimiento disponible, que en ese momento era extremadamente laborioso. extraer.

En la década de 1980, se dispuso de recursos tan voluminosos como el Oxford Advanced Learner's Dictionary of Current English y la escritura manual de reglas fue suplantada por la extracción automática de conocimiento de tales fuentes, pero los métodos aún no abandonaban la clase de los llamados "conocimientos". métodos basados".

Sin embargo, en los años 90, la “revolución estadística” cambió por completo los enfoques y métodos en lingüística computacional, y el problema de resolver la polisemia léxica se convirtió en un problema al que son aplicables todo tipo de métodos de aprendizaje supervisado [4] .

La década de 2000 mostró que los métodos de aprendizaje supervisado han alcanzado un cierto nivel de precisión y no pueden superarlo, por lo que la atención de los científicos se ha desplazado hacia el trabajo con sistemas más generalizados de conocimiento de vocabulario (sentidos de grano grueso), adaptación a áreas temáticas (adaptación de dominio) , aprendizaje supervisado parcial (sistemas semisupervisados) y aprendizaje no supervisado (sistemas basados en corpus no supervisados), métodos mixtos, así como procesamiento de bases de conocimiento y visualización de resultados en forma de gráficos (el retorno de los sistemas basados en conocimiento a través de sistemas basados en grafos). métodos). Sin embargo, hasta el día de hoy, los sistemas de aprendizaje supervisado se consideran los más efectivos.

Problemas y dificultades

Sin embargo, ¿por qué tal tarea causa tantas dificultades y los resultados de sus soluciones demuestran una eficiencia relativamente baja? En el proceso de trabajar en el problema de resolver la polisemia léxica, se descubrieron una gran cantidad de dificultades, la mayoría de las veces debido a las propiedades de la psicología y el habla humanas.

Compilación de diccionarios

Primero, todos los diccionarios son diferentes y no equivalentes entre sí. La mayoría de las veces, la tarea de distinguir los significados de una palabra entre sí no causa dificultades, sin embargo, en algunos casos, los diferentes significados de una palabra pueden estar muy cerca entre sí semánticamente (por ejemplo, si cada uno de ellos es una metáfora o metonimia entre sí), y en tales situaciones, la división en significados en diferentes diccionarios y tesauros puede variar significativamente. La solución a esta dificultad puede ser el uso universal de la misma fuente de datos: un diccionario universal. Globalmente, los resultados de los estudios que utilizan un sistema de división semántica más generalizado son más efectivos [5] [6] , por lo que algunos investigadores simplemente ignoran el procesamiento de diccionarios y tesauros con una división semántica más detallada en su trabajo.

Definición de parte del discurso

En segundo lugar, en algunos idiomas, el marcado de parte de la palabra puede estar muy relacionado con el problema de la desambiguación, con el resultado de que estos dos problemas pueden interferir entre sí. Los científicos no han llegado a un consenso sobre si vale la pena dividirlos en dos componentes autónomos, pero la ventaja está del lado de quienes creen que es necesario [7] .

Factor humano y consistencia de los resultados manuales

La tercera dificultad radica en el factor humano . Los sistemas de desambiguación siempre se han evaluado comparando los resultados con el trabajo humano. Y para las personas, esta tarea puede no ser tan simple como el etiquetado de POS : es varias veces más difícil marcar significados entre varios propuestos [8] . Si una persona puede recordar o adivinar fácilmente las partes del discurso que puede ser una palabra, entonces no es posible recordar todos los significados posibles de las palabras. Además, resultó que los resultados de diferentes personas no siempre coinciden [9] y, a menudo, no llegan a una decisión común sobre el significado en el que se usa una palabra dada en un contexto particular. A pesar de esto, los científicos toman el resultado de una persona como estándar, un punto de referencia para comparar con los resultados de una computadora. Cabe señalar que una persona maneja mucho mejor los sistemas generalizados de diccionarios que los detallados, y es por eso que la atención de los investigadores se ha desplazado hacia ellos [5] [6] .

Sentido común

Algunos investigadores sostienen [10] que a la hora de procesar textos también es importante el sentido común , lo que difícilmente es posible que una computadora pueda enseñar. Las siguientes dos oraciones son ejemplos:

Jill y Mary son hermanas. (son hermanas entre sí).
Jill y Mary son madres. - (cada uno independientemente una madre).

La primera oración implica que Jill y Mary son hermanas entre sí; en el segundo, que tanto Jill como Mary son madres, y no es un hecho que sean parientes. Por lo tanto, para un análisis más preciso de los significados, es necesario tener dicho conocimiento sobre el mundo y la sociedad. Además, este conocimiento a veces también es necesario cuando se resuelven ambigüedades sintácticas y cuando se analizan anáforas y catáforas .

Dependencia de tareas

En quinto lugar, un conjunto de métodos permanente independiente de la tarea (tarea independiente) no tiene sentido, dado que la ambigüedad de la palabra mouse (animal y dispositivo informático), por ejemplo, no afecta el resultado de inglés-ruso y ruso- Traducción al inglés en absoluto (ya que en ambos idiomas ambos significados están incorporados en la misma palabra), pero afecta fuertemente la recuperación de información. También se puede dar el ejemplo contrario: al traducir la palabra 'río' del inglés al francés, necesitamos saber el significado de la palabra ('fleuve' es un río que desemboca en el mar, y 'rivière' es un río que desemboca en otro río). Como resultado, diferentes problemas requieren diferentes algoritmos, por lo que si se desarrolla un buen algoritmo de desambiguación léxica, es imposible estar completamente seguro de que se ajustará a todos los problemas.

Diferenciación de los significados de las palabras

En sexto lugar, los científicos plantean la cuestión de la posibilidad de una representación discreta de los significados de una palabra. Incluso el término " significado de una palabra " en sí mismo es bastante general y controvertido. La mayoría de la gente está de acuerdo cuando se trabaja con sistemas de conocimiento generalizados con un alto nivel de homografía de palabras, pero a medida que el nivel disminuye y los diccionarios se vuelven más detallados, existe una gran cantidad de discrepancias. Por ejemplo, en la conferencia Senseval-2, que utilizó sistemas detallados, los anotadores humanos llegaron a un acuerdo solo el 85 % de las veces [11] .

Los significados de las palabras son muy flexibles, bastante cambiantes y extremadamente contextuales y, a veces, incluso dependientes del contexto, por lo que no siempre se dividen estrictamente en varios subsignificados [12] . Los lexicógrafos a menudo encuentran subsignificados demasiado amplios y semánticamente superpuestos en los textos, y los significados estándar de las palabras a menudo deben corregirse, expandirse y reducirse de las maneras más extrañas e inesperadas. Por ejemplo, en esta situación “los niños corren hacia sus madres”, la palabra “niños” se usa simultáneamente en dos sentidos: ambos son hijos de sus padres y solo niños. La tarea de un lexicógrafo es analizar una gran cantidad de textos y materiales y describir toda la gama posible de significados de una palabra. Sin embargo, aún se desconoce si este enfoque es aplicable en el campo de la computación y la lingüística computacional, debido a que las decisiones de los lexicógrafos se toman a favor de la completitud de los significados descritos, y no de la aplicabilidad de la información obtenida en el procesamiento de textos.

Recientemente, se ha propuesto un problema llamado sustitución léxica como solución al problema de diferenciar los significados de las palabras [13] . Su significado consiste en proporcionar una sustitución de la palabra por otra que conserve el significado de la antigua en este contexto.

Relevancia del problema, posibles aplicaciones

Es un hecho bien conocido que los resultados del proceso dependen no solo de la innovación y la eficiencia de los métodos, sino también de los diversos escenarios/propiedades de la tarea y los requisitos del proceso de resolución (por ejemplo, la diferenciación de los significados de la palabra, las características de la evaluación de resultados, la cobertura de desambiguación, etc.). Además, es importante que una gran cantidad de campos de PNL puedan beneficiarse de los resultados de WSD.

Recuperación de información

En los sistemas de recuperación de información, si, al buscar una consulta, se excluyen de la consideración aquellos documentos en los que cualquiera de las palabras de la consulta se usa con un significado diferente al que le interesa actualmente al usuario, entonces la relevancia de los resultados de la consulta puede ser aumentó.

Los primeros trabajos que exploraron la posibilidad de utilizar WSD en el campo de la recuperación de información no mostraron un aumento en la precisión de la búsqueda. Sin embargo, en 1994 Sanderson encontró [14] que las mejoras solo pueden detectarse si la eficiencia de desambiguación supera el 90%, cuya validez general se debate. Y en 1995, Schutze y Pedersen demostraron [15] , que demostraron que con la eficiencia anterior, se puede obtener una mejora de búsqueda del 4%. Sin embargo, Stokey demostró que el uso de WSD puede dar resultados, aunque pequeños, un promedio de 1,73 %, incluso con una menor eficiencia de WSD (62,1 %) [16] .

Traducción automática

En los sistemas de traducción automática , la falta de mecanismos confiables para reconocer el significado de una palabra reduce significativamente la calidad de la traducción, ya que la palabra no siempre se traduce sin ambigüedades a otro idioma. Y determinar automáticamente la traducción correcta según el contexto es una tarea muy difícil. La desambiguación léxica ha sido concebida durante mucho tiempo como un desafío importante para lograr una traducción automática casi perfecta; estos pensamientos se basan en la idea de que WSD no puede evitar mejorar los sistemas de traducción al elegir los candidatos de valor correctos para la traducción. Esta área no se ha explorado tanto como se necesita, debido a las tradicionales bases de datos de vocabulario predefinido menos eficientes ( inventario de sentido ing. ) que se han vuelto tradicionales desde hace mucho tiempo .

Extracción de información

En áreas específicas, los problemas de resolución de conceptos propios de las mismas son de sumo interés: por ejemplo, en el campo médico, definir los nombres de fármacos en el texto puede ser útil, mientras que en bioinformática es necesario resolver ambigüedades en la denominación de genes y proteínas - este proceso ha sido llamado Extracción de Información . Incluye tareas tales como el reconocimiento de entidades nombradas ( eng. named-entity recognition ) (NER), expansión de siglas (por ejemplo, Federación Rusa - Federación Rusa) y otras; todo esto puede considerarse como una polisemia de tareas de resolución, aunque esto es una dirección nueva y aún no explorada.

Análisis de contenido

El análisis de contenido y la identificación de las partes principales del texto en términos de ideas, temas y similares pueden beneficiarse enormemente de WSD. Por ejemplo, la clasificación de textos (blogs), la asignación de etiquetas a artículos o entradas de blogs , o la determinación de enlaces relevantes (quizás semánticamente) entre ellos, o el análisis (semántico) de redes sociales , que se ha vuelto cada vez más activo en los últimos tiempos. Esta zona es la más nueva, desconocida de todas las anteriores.

Otras áreas

El procesamiento de textos es una de las aplicaciones de WSD, ya que este último puede ayudar en el proceso de corregir la ortografía de las palabras [17] , corregir letras mayúsculas y minúsculas, corregir/agregar signos diacríticos basados en la semántica del contexto.
Los estudios de lexicografía y WSD se enriquecen mutuamente:
1. WSD puede ayudar a separar palabras en significados usando conocimiento empírico y proporcionar indicadores de los contextos de ciertos significados; además, WSD puede ayudar a crear redes semánticas a partir de diccionarios electrónicos [18]
2. por otro lado, los lexicógrafos pueden proporcionar divisiones de palabras en significados más ricas y lógicamente/empíricamente correctas, inventarios de sentidos y corpus anotados de textos (por ejemplo, "Proyecto HECTOR" y "Motor de bocetos").
Web semántica : porque la Web semántica necesita fundamentalmente una desambiguación léxica específica de dominio y sin restricciones para manejar la semántica de los documentos web, para interactuar entre cosas como sistemas, ontologías y usuarios. WSD se utiliza y se investiga en áreas como el aprendizaje de ontologías ,creación de taxonomías de dominios [19] [20] [21] yenriquecimiento de redes semánticas .

Principales tipos de métodos

Como siempre, en el procesamiento del lenguaje natural, existen dos enfoques: profundo y superficial.

Los enfoques pertenecientes a la primera categoría implican el acceso al llamado conocimiento del mundo (conocimiento del mundo o base de conocimiento de sentido común). Por ejemplo, saber que "cualquier cosa material inanimada puede ser verde en el sentido de color, pero no puede ser verde en el sentido de inexperiencia" permite determinar en qué sentido se usa la palabra "verde" en un contexto dado. Tales enfoques no son tan efectivos en la práctica, ya que tal clase de conocimiento sobre el mundo, aunque es posible almacenarlo en un formato compatible con computadoras, cubre áreas muy pequeñas [22] de nuestras vidas y no es del todo aplicable a todos . estudios. Debo decir que este enfoque tampoco siempre funciona, por ejemplo, en la oración "El director era tan verde", usando el conocimiento, es imposible determinar, en este caso el director es verde porque se volvió verde o porque es inexperto: a menudo esto solo se puede determinar en función del contexto, pero de la lógica y el significado de todo el texto.

Además, en la lingüística computacional, existe una antigua tradición de aplicar estos métodos en términos de conocimiento del programa y, a menudo, es bastante difícil determinar si este conocimiento es lingüístico o conocimiento sobre el mundo ( English Commonsense Knowledge Base ). El primer intento fue realizado por Margaret Masterman y sus colegas en la Unidad de Investigación de Idiomas de Cambridge en Inglaterra en la década de 1950: usaron los datos del tesauro de Roger y palabras clave numeradas como indicadores de temas y analizaron las repeticiones en el texto usando el algoritmo de intersección de conjuntos. Este experimento no tuvo mucho éxito [23] , pero tuvo una fuerte influencia en el trabajo posterior, especialmente en el trabajo de Yarovksky en la década de 1990 sobre la optimización del método de tesauro utilizando una máquina de aprendizaje supervisado.

Los enfoques de superficie no intentan comprender el texto, solo se basan en el análisis de palabras cercanas, por ejemplo: si las palabras "mar" o "pesca" están presentes junto a la palabra "bajo", lo más probable es que en este caso haya es un significado en el sentido biológico. Estas reglas se pueden extraer automáticamente utilizando un corpus de textos con significados de palabras etiquetados. Este enfoque, aunque no cubre al anterior en términos de potencia, lo supera fácilmente en la práctica. Sin embargo, siempre hay trampas, como en la oración "Los perros ladran al árbol", que contiene las palabras "árbol" y "perros" junto a la palabra "ladrar".

Hay cuatro métodos principales para la desambiguación:

Métodos basados en el conocimiento (métodos basados en el diccionario y en el conocimiento): estos métodos se basan principalmente en diccionarios, tesauros, bases de datos lexicográficas y no en corpus de texto.
métodos supervisados : estos métodos utilizan corpus de texto etiquetado para entrenar al clasificador .
Métodos parcialmente supervisados ( métodos semisupervisados o mínimamente supervisados): estos métodos utilizan conocimientos secundarios, como definiciones de términos en definiciones de palabras o un corpus bilingüe alineado .
Métodos no supervisados: la mayoría de estos métodos no utilizan ningún dato externo y utilizan solo corpus sin anotar; además, se les conoce con el término agrupamiento y "discriminación de sentido de palabra".

Métodos basados en el conocimiento

El método Lesk [24] es un método productivo basado en el uso del conocimiento del vocabulario. Se basa en la hipótesis de que las palabras que están una al lado de la otra en el texto están relacionadas entre sí y esta conexión se puede observar en las definiciones de las palabras y sus significados. Dos (o más) palabras pueden estar cerca si ambas tienen el par de valores con mayor superposición de palabras en sus definiciones en el diccionario. Por ejemplo, la frase "cono de pino", en las definiciones de ambos en uno de los significados, hay palabras como "siempre verde" y "árbol". Además, como alternativa al método anterior, puedes utilizar la relación global entre estas palabras calculando la proximidad semántica de cada par de valores en WordNet .

Como alternativa a los métodos anteriores, puede utilizar la similitud semántica general ( en inglés , semantic similarity ) de los significados de las palabras, basada en WordNet 'e. Los métodos basados en gráficos basados en la difusión de la activación también se han utilizado con cierto éxito: algunos de ellos han mostrado una precisión comparable [25] a los métodos de aprendizaje supervisado y, a veces, mejor que [5] [26] en ciertas áreas . Además, recientemente se demostró [27] que incluso los métodos más simples basados en medidas de conectividad de gráficos (como el grado/valencia de todo el gráfico) pueden mostrar resultados altos en presencia de una rica base léxica.

El uso de los llamados modelos de gobernanza (“preferencias selectivas” o “restricciones selectivas”) también puede ser muy útil. Por ejemplo, utilizando el conocimiento de que la palabra "róbalo" en el significado de pescado a menudo aparece con la palabra "cocinar" o "comer", podemos resolver la ambigüedad en una oración como "Estoy cocinando róbalo". Sin embargo, crear tal conocimiento sobre el mundo es extremadamente laborioso y casi imposible.

Métodos de enseñanza supervisada

Todos los métodos de aprendizaje supervisado se basan en la suposición de que el contexto de la palabra que estamos considerando proporciona información suficiente para calcular el significado en el que se aplica en este caso (y, por lo tanto, el conocimiento obtenido de diccionarios y tesauros se corta como superfluo). Todos los modelos de aprendizaje supervisado se han aplicado al problema WSD , incluidas las técnicas relacionadas, como la selección de variables , la optimización de parámetros y el aprendizaje por conjuntos . Las máquinas de vectores de soporte y el aprendizaje basado en instancias han demostrado ser algunos de los métodos más eficientes disponibles en la actualidad, quizás porque pueden manejar las propiedades de múltiples parámetros de palabras y contextos. Sin embargo, los métodos anteriores tienen como cuello de botella el requisito de tener una gran cantidad de textos marcados manualmente para la capacitación, lo que, como ya se mencionó, es laborioso y costoso. Nuevamente, surge el problema de poseer tales cascos etiquetados.

Métodos supervisados parciales

El método bootstrapping [28] es un método común para el aprendizaje iterativo y la evaluación de un clasificador para aumentar su eficiencia. El algoritmo comienza con una pequeña cantidad de datos iniciales para cada palabra: ya sea una pequeña cantidad de ejemplos de contextos ingresados manualmente o un par de reglas inconfundibles para determinar el significado de una palabra (por ejemplo, la palabra "jugar" en el contexto de la palabra "bajo" casi siempre significa que la palabra tiene un sentido musical). Estos datos se utilizan para entrenar al clasificador utilizando cualquiera de los métodos de aprendizaje supervisado anteriores. Luego, el clasificador se aplica a un conjunto de textos que ya no están etiquetados para extraer una gran muestra de entrenamiento, que incluye solo contextos "confiables". El proceso se repite iterativamente: cada clasificador siguiente se entrena en el conjunto de contextos más grande correspondiente, y se repite hasta que se cubre todo el corpus o hasta que se alcanza el número máximo de iteraciones.

Otro método utiliza grandes volúmenes de texto sin marcar para obtener información sobre la concurrencia de palabras, lo que puede complementar en gran medida nuestros datos. Además, un corpus bilingüe bien alineado se puede utilizar para resolver la ambigüedad entre idiomas, ya que una palabra polisemántica en un idioma siempre se traduce a otro idioma dependiendo del significado en el que se use. Este método, en cierto sentido, también puede considerarse un método de aprendizaje parcial.

Todas las técnicas anteriores pueden permitir que los métodos de aprendizaje supervisado se adapten a otras áreas.

Métodos de aprendizaje no supervisados

Este tipo de métodos es una de las tareas más difíciles de WSD. La suposición principal de este método es la declaración: "significados similares ocurren en contextos similares" y, por lo tanto, pueden extraerse del texto mediante agrupamiento, utilizando alguna medida de similitud de contextos [29] . Luego, se pueden asignar nuevos contextos a uno de los clústeres más cercanos. El rendimiento del método es ciertamente inferior al de otros métodos, sin embargo, la comparación es algo problemática debido a la necesidad de proyectar los clústeres resultantes sobre los valores disponibles en el diccionario. Si no se requiere proyección, se pueden realizar estimaciones de agrupamiento (incluidas la entropía y la pureza). Los científicos tienen grandes esperanzas de que los métodos de aprendizaje no supervisados puedan ayudar a superar las deficiencias de la adquisición de conocimiento , ya que no requieren tareas demasiado laboriosas de marcado sintáctico y semántico de todo el corpus.

Otros métodos

También existen otros métodos basados en principios completamente diferentes a los anteriores:

Determinación del dominio del sentido de las palabras [30] [31] [32] [33] .
Desambiguación impulsada por el dominio [34] [35]
WSD usando evidencia multilingüe

Problemas locales y resultados

El cuello de botella en la adquisición del conocimiento esel mayor obstáculo para resolver el problema de la ambigüedad . Los métodos de aprendizaje no supervisados se basan en un conocimiento que apenas está presente en los diccionarios electrónicos y otros sistemas de conocimiento lingüístico electrónico. Los métodos de aprendizaje supervisado, por otro lado, se basan en la existencia de un corpus anotado manualmente, cuya existencia es técnicamente factible solo para un pequeño conjunto de palabras con fines de prueba, como se hizo para Senseval.

Por ello, una de las tendencias más alentadoras es la utilización de Internet como corpus para la obtención de información léxica de forma automática [36] . WSD se ha entendido tradicionalmente como una forma de mejorar los resultados en áreas como la recuperación de información (RI). En este caso, sin embargo, lo contrario también es cierto: los motores de búsqueda tienen capacidades lo suficientemente simples y rápidas para extraer con éxito Internet para su uso en WSD. Por tanto, el problema de la obtención del conocimiento provocó el surgimiento de ciertos métodos para obtenerlo:

Fuentes externas de conocimiento

El conocimiento es una de las claves para la resolución de la desambiguación: proporciona los datos en los que se basa el propio proceso de resolución. Estos datos pueden ser tanto corpus de texto como diccionarios, tesurus, glosarios, ontologías: [37] [38] [39]

Fuentes estructuradas

diccionario de sinónimos
Diccionarios electrónicos ( ing. diccionarios legibles por máquina, MRD )
ontologías

Fuentes no estructuradas

Corpus de texto : anotado con los significados de las palabras ( ing. corpus anotados en sentido ) y no anotado ( ing. corpora sin procesar )
Conocimiento sobre la ocurrencia conjunta de palabras ( ing. recursos de colocación )
Otros recursos como listas de palabras , listas de palabras irrelevantes , etiquetas de dominio [ 40 ]

Evaluación y comparación de métodos, conferencia Senseval

Probar y comparar métodos no es una tarea trivial debido a las diferencias en los diferentes conjuntos de pruebas, inventarios de sentidos y fuentes de datos utilizadas. Antes de que se crearan eventos especiales para comparar sistemas, se comparaban manualmente, por sí solos, a menudo pequeños conjuntos de datos. De hecho, para probar su algoritmo, los desarrolladores deben dedicar tiempo a marcar manualmente todos los usos de las palabras. Y es imposible comparar los mismos métodos incluso en los mismos textos si utilizan diferentes sistemas de interpretación de palabras.

Se han organizado conferencias internacionales que comparan los sistemas WSD para "combinar" y comparar métodos. Senseval (ahora rebautizado como Semeval ) es una conferencia internacional que compara los sistemas de desambiguación léxica, que se lleva a cabo cada 3 años desde 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) y su sucesor lógico de SemEval. , que se dedicó íntegramente a la tarea de WSD y se celebró una vez, en 2007. Sus tareas incluyen la organización de seminarios y talleres, la preparación y el marcado de corpus manualmente para la prueba del sistema, así como la comparación de algoritmos de varios tipos ("todas las palabras" y "muestra léxica" WSD, palgoritmos anotados y no anotados) y el estudio de subtareas tales como el etiquetado de roles semánticos , brillo WSD , sustitución léxica , etc. Como parte de las actividades anteriores, también se realizaron comparaciones de sistemas WSD en el marco no solo del idioma inglés. Sin embargo, ni un solo idioma del grupo eslavo estuvo presente en los eventos.

Elección de modelos de evaluación

El sistema de significados de las palabras . Durante las primeras conferencias, como sistemas de significados de palabras (diccionarios, bases de datos léxicas), ya sea poco conocidos antes inaccesibles (por ejemplo, el proyecto HECTOR) o versiones pequeñas, pequeñas e incompletas de un sistema completo real que se requerían en la competencia fueron usado. . Por lo general, ambos eran insuficientemente detallados y diferenciados (eng. de grano grueso), sin embargo, se eligieron para evitar el uso de los ejemplos más populares y detallados (eng. fine-grain) (por ejemplo, WordNet ), ya que esto haría que el experimento fuera “impuro”, ya que estas bases de conocimiento ya han sido repetidamente “encendidas” en varios estudios y evaluaciones. Se notó que los resultados eran completamente diferentes para los más detallados, por lo que se decidió probar los algoritmos en ambos inventarios de sentido.

Un conjunto de palabras a comprobar . Además, la comparación de los métodos de desambiguación se divide en dos tipos según el número de palabras a verificar: resolución de polisemia léxica de un determinado conjunto de palabras (la mayoría de las veces, varias docenas) y resolución de polisemia léxica de todas las palabras del texto. Su diferencia radica en la cantidad de análisis y procesamiento de datos: la tarea "all-words" ("all-words-text") implica el procesamiento de todas las palabras presentes en el texto por ambigüedad (absolutamente todas las palabras en el corpus deben ser resueltas ), la tarea “muestra léxica” (“conjunto limitado”) es permitir solo palabras objetivo definidas de antemano y ubicadas en nuestro corpus. Se supone que el primer tipo es una estimación más realista, pero mucho más laboriosa en términos de verificación de los resultados. Debido a las dificultades de probar el segundo, en las primeras conferencias solo se realizaron pruebas conjunto de prueba, pero ambos se incluyeron más tarde en la prueba.

En el caso de la tarea de “conjunto limitado de palabras”, los organizadores tenían que elegir las mismas palabras clave con las que se probarían los sistemas. Una crítica a las actividades que tuvieron lugar antes de Senseval fue que estas muestras del conjunto fueron elegidas al antojo de los experimentadores. En Senseval'e intentaron evitar esto eligiendo palabras arbitrarias, divididas en grupos según las partes del discurso, la frecuencia y el grado de ambigüedad. Además, hubo mucha controversia con respecto a la inclusión del problema de determinar la parte del discurso en el programa WSD, por lo que los organizadores decidieron incluir partes del discurso claramente marcadas y un cierto número de partes indefinidas en la muestra de palabras.

cuerpo _ Es necesario aclarar qué es texto marcado y qué es texto sin marcar. Un corpus no asignado es esencialmente una masa de textos ordinarios que contienen el número requerido de menciones de palabras que necesitan ser “resueltas”. Marcado es la misma colección de textos, pero con la diferencia de que todas las palabras mencionadas contienen información atribuida (por ejemplo, como una etiqueta u otra metainformación) sobre el significado de las palabras utilizadas en estos contextos.

Tanto los textos marcados (sistemas de aprendizaje supervisado) como los textos no marcados (sistemas de aprendizaje no supervisado) pueden servir como material de entrenamiento para nuestros sistemas de resolución de la polisemia léxica. Este proceso es así: varios lingüistas-lexicógrafos revisan el texto completo y, de acuerdo con el diccionario de significados, asignan metainformación sobre el significado de las palabras utilizadas en estos contextos a todas las palabras de una muestra dada de palabras evaluadas para polisemia. Luego, para cada palabra, se hace una especie de quórum a partir de las decisiones tomadas por los lexicógrafos y se decide el significado en el que se usa aquí, luego de lo cual las etiquetas recibidas se agregan a la versión final del texto; es decir, todos los usos de las palabras que hemos elegido se complementan con la metainformación necesaria.

Entonces, el cuerpo se divide en tres partes. La primera, la llamada distribución de ejecución en seco (eng. "ejecución preliminar") permite a los equipos ajustar y adaptar sus programas al tipo y estructura de la información suministrada a la entrada; contiene la información mínima requerida.

La segunda parte se denomina distribución de entrenamiento , que contiene entradas de diccionario y un corpus con metainformación sobre los significados de las palabras objetivo, que le permite entrenar programas de la competencia para elegir correctamente los significados correctos de las palabras; se entrega a todos los equipos inmediatamente después de la carrera preliminar. El número de contextos necesarios para las palabras puede variar bastante (desde unos pocos hasta más de 1000) y depende del número de contextos disponibles. Luego viene la etapa de entrenamiento.

La última parte, denominada distribución de evaluación , sin metainformación sobre los significados de las palabras objetivo, disponible después de completar los programas de capacitación, le permite calcular la precisión de los algoritmos. Cada contexto ha sido anotado manualmente por al menos tres personas, pero esta metainformación no se ha incluido en los datos difundidos ya que es la que se está verificando. Todos los programas, al pasar por esta muestra, necesitaban calcular para cada contexto el significado más probable de la palabra utilizada (o una lista de valores con sus correspondientes probabilidades); luego de enviar los datos a los organizadores, estos reciben automáticamente los resultados comparándolos con los suyos (ya que la muestra de evaluación, al igual que la de capacitación, contiene un marcado uso de palabras).

Grupos y líneas base . Cabe señalar que todos los algoritmos funcionan de manera diferente y utilizan diferentes fuentes de información, por lo que todos se dividieron en grupos según el método de procesamiento de texto: métodos de aprendizaje supervisado y métodos de aprendizaje no supervisado. Para la comparación con algoritmos ya conocidos (llamados puntos de partida - líneas base ), también se publicaron sus resultados, por ejemplo, todas las posibles variaciones del algoritmo Lesk .

Además, dado que la tarea WSD requiere un diccionario de valores y un corpus , los organizadores tuvieron que elegir algunos de los existentes para el proyecto. WordNet y SemCor son los ejemplos más populares de los componentes necesarios anteriores, sin embargo, su uso haría impuro el experimento, ya que estas bases de conocimiento ya han sido repetidamente “destacadas” en varios estudios y evaluaciones, por lo tanto, versiones incompletas que antes no estaban disponibles o Los autofabricados por los organizadores generalmente se seleccionan para probar ambas cosas (por ejemplo, en Senseval-1, ambos fueron proporcionados por el proyecto HECTOR [41] ).

Precisión de los algoritmos . Al evaluar casi cualquier algoritmo de clasificación para cualquier objeto, se utilizan las dos medidas de evaluación más comunes: precisión y recuperación ( ing. Precisión y recuperación ):

precisión (precisión, es decir, el porcentaje correctamente asignado a una clase entre todos los objetos asignados a ella)
recordar (completitud, es decir, el porcentaje de asignados correctamente entre los que deberían asignarse a esta clase).

Sin embargo, si el sistema anota cada palabra o el resultado se calcula para todas las clases a la vez, la precisión y la recuperación tienen el mismo valor: se denomina precisión de los cálculos precisión de los cálculos ( ing. Precisión ). Este modelo se ha extendido para su uso cuando los algoritmos producen una lista de valores con sus respectivas probabilidades.

Resultados y características

Los talleres de Senseval son el mejor ejemplo para aprender los mejores resultados de los sistemas WSD y futuras direcciones de investigación en el campo. Hay ciertas conclusiones que se pueden sacar analizando y resumiendo las conferencias posteriores:

Entre los sistemas de aprendizaje supervisado, los enfoques que usan aprendizaje basado en memoria o SVM mostraron la mejor eficiencia, sin embargo, los organizadores de la conferencia enfatizan que los mejores resultados los logran aquellos sistemas que usan combinaciones de varios enfoques, y especialmente aquellos basados en aprender de etiquetas. cuerpo [42] .
Con el fin de estudiar en qué medida se pueden utilizar los sistemas de desambiguación en aplicaciones de recuperación de información, en el marco de la conferencia SemEval-2007 , una de las tareas fue el uso de algoritmos de desambiguación en el marco de la tarea de recuperación de información. La esencia de la tarea es la siguiente: todos los participantes deben buscar en el mismo motor de búsqueda, pero antes de buscar, es necesario expandir consultas o textos con sinónimos correspondientes a los valores seleccionados.
La celebración de este tipo de congresos conlleva la publicación periódica de datos de gran valor para los científicos: por ejemplo, corpus de textos marcados para su comparación Los algoritmos de desambiguación de la conferencia utilizan corpus de WordNet marcados semánticamente. El marcado semántico del corpus suele utilizarse de dos formas principales: como base para entrenar un programa de desambiguación y su verificación, y como información sobre el valor más frecuente, que se selecciona en los casos en que el algoritmo principal no pudo seleccionar un valor. Según estimaciones, alrededor del 60% de las palabras de los textos de prueba se utilizan en el significado más frecuente obtenido del corpus SemCor marcado semánticamente.
Cabe señalar que el uso de diferentes sistemas para dividir palabras en significados: fino (más diferenciado) y grueso (menos diferenciado) mostró resultados muy diferentes, por lo que ahora dentro de cada conferencia se comparan los sistemas en relación con el primero. grupo (por ejemplo, WordNet), por lo que el segundo (por ejemplo, Wordsmyth). Sin embargo, todavía se pone más énfasis en los detalles de grano fino. porque los resultados obtenidos allí son mucho más bajos.

Para comprender el estado general del campo y el nivel alcanzado por los mejores sistemas de desambiguación, es necesario analizar y estudiar detenidamente los mejores resultados y sus características:

los resultados obtenidos con sistemas de valores menos diferenciados que WordNet fueron significativamente superiores: 88,7% para la muestra léxica y 82-83% para la tarea de "todas las palabras". Esta es una buena noticia para todo el campo, porque muestra que el problema de la representación del sentido de la palabra está fuertemente relacionado con el problema de obtener una precisión en la región del 80% al 90%, dejando la diferenciación de las palabras en significados bastante expresivos y significativos. ;
los resultados de los sistemas de tareas de "muestra léxica" indican que han alcanzado la barra superior (la llamada "meseta"), cuando se utilizan sistemas diferenciados como WordNet: los investigadores pueden ver que los sistemas no pueden superar a través de él con tales condiciones iniciales;
resultados de la tarea "de grano fino" "todas las palabras" resueltas entre 65% y 70% con WordNet, mientras que puntuaciones más altas en el corpus de ficción entre 78% y 81% usando significados de palabras de grano grueso;
superar la línea de base MFC (sentido más frecuente) es un verdadero desafío para los sistemas de "todas las palabras del texto" y solo unos pocos fue capaz de hacerlo; Naturalmente, este hecho no se aplica a los sistemas de "muestra léxica";
Es importante tener en cuenta que, a veces, los términos inequívocos también caen en la cuenta de unidades polisemánticas resueltas "favorablemente": según algunas estimaciones [43] , alrededor del 3-10% de las palabras marcadas pueden ser inequívocas en WordNet, y si calcula el precisión de la resolución de desambiguación para el mejor sistema, sin contar las palabras de un solo valor, el valor de la precisión de la resolución de desambiguación del mejor sistema puede disminuir en varios porcentajes.

Notas

↑ Anna A. Zaliznyak. FENÓMENO DE LA POLISEMINACIÓN Y FORMAS DE SU DESCRIPCIÓN. Cuestiones de lingüística. - M., 2004. - Nº 2. - S. 20-45
↑ W. Weaver. 1949. Traducción archivada el 24 de julio de 2011 en Wayback Machine . En Traducción automática de idiomas: catorce ensayos, ed. por Locke, WN y Booth, AD Cambridge, MA: MIT Press.
↑ Y. Bar-Hillel, Language and information (Reading, Mass.: Addison-Wesley, 1964), págs. 174-179.
↑ Mark Johnson, How the Statistical Revolution Changes (Computational) Linguistics, ( http://www.aclweb.org/anthology/W/W09/W09-0103.pdf Archivado el 14 de abril de 2015 en Wayback Machine )
↑ 1 2 3 R. Navigli, K. Litkowski, O. Hargraves. 2007. SemEval-2007 Tarea 07: Tarea de todas las palabras en inglés de grano grueso Archivado el 18 de marzo de 2012 en Wayback Machine . proc. de Semeval-2007 Workshop (SEMEVAL), en la 45ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2007), Praga, República Checa, pp. 30-35.
↑ 1 2 S. Pradhan, E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 Tarea 17: muestra léxica en inglés, SRL y todas las palabras . Archivado el 18 de marzo de 2012 en Wayback Machine . proc. de Semeval-2007 Workshop (SEMEVAL), en la 45ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2007), Praga, República Checa, pp. 87-92.
↑ Lynette Hirschmann, La evolución de la evaluación (1998) - Computer Speech and Knowledge
↑ C. Fellbaum 1997. Análisis de una tarea de etiquetado manual. En Proc. de ANLP-97 Taller de Etiquetado de Texto con Semántica Léxica: ¿Por qué, Qué y Cómo? Washington DC, Estados Unidos.
↑ B. Snyder y M. Palmer. 2004. The English all-words task Archivado el 29 de junio de 2011 en Wayback Machine . En Proc. del 3er Taller Internacional de Evaluación de Sistemas para el Análisis Semántico de Texto (Senseval-3), Barcelona, España, pp. 41-43.
↑ Douglas Lenat. Computadoras versus sentido común . Fecha de acceso: 10 de diciembre de 2008. Archivado desde el original el 27 de julio de 2013. (indefinido) (GoogleTachTalks en youtube)
↑ P. Edmonds. 2000. Diseño de una tarea para SENSEVAL-2 Archivado el 28 de septiembre de 2011 en Wayback Machine . tecnología Nota. Universidad de Brighton, Brighton. Reino Unido
↑ A. Kilgarriff. 1997. No creo en los sentidos de las palabras . Archivado el 24 de julio de 2011 en Wayback Machine . computar humano. 31(2), págs. 91-113.
↑ D. McCarthy, R. Navigli. 2009. The English Lexical Substitution Task Archivado el 9 de julio de 2009 en Wayback Machine , Language Resources and Evaluation, 43(2), Springer, págs. 139-159.
↑ SANDERSON, M. 1994. Desambiguación del sentido de las palabras y recuperación de información. En Actas del Grupo de Interés Especial sobre Recuperación de Información (SIGIR, Dublín, Irlanda). 142-151.
↑ SCHUTZE, H. AND PEDERSEN, J. 1995. Recuperación de información basada en los sentidos de las palabras. En Actas de SDAIR'95 (Las Vegas, NV). 161-175.
↑ STOKOE, C., OAKES, MJ Y TAIT, JI 2003. Revisión de la desambiguación del sentido de las palabras en la recuperación de información. En Actas de la 26ª Conferencia Anual Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información (Toronto, Ontario, Canadá). 159-166.
↑ YAROWSKY, D. 1994. Listas de decisión para la resolución de ambigüedades léxicas: Aplicación a la restauración del acento en español y francés. En Actas de la 32ª Reunión Anual de la Asociación de Lingüística Computacional (Las Cruces, NM). 88-95.
↑ RICHARDSON, SD, DOLAN, WB Y VANDERWENDE, L. 1998. Mindnet: adquisición y estructuración de información semántica del texto. En Actas de la 17ª Conferencia Internacional sobre Lingüística Computacional (COLING, Montreal, PQ, Canadá). 1098-1102.
↑ NAVIGLI, R., VELARDI, P., AND GANGEMI, A. 2003. Aprendizaje de ontologías y su aplicación a la traducción terminológica automatizada. Intel IEEE. sist. 18:1, 22-31.
↑ NAVIGLI, R. AND VELARDI, P. 2004. Aprendizaje de ontologías de dominio a partir de almacenes de documentos y sitios web dedicados. computar Abadejo. 30, 2, 151-179.
↑ CIMIANO, P. 2006. Aprendizaje de ontologías y población a partir de texto: algoritmos, evaluación y aplicaciones. Springer, Nueva York, NY.
↑ Lenat, Douglas; Guha, R.V. (1989), Creación de grandes sistemas basados en el conocimiento, Addison-Wesley
↑ Y. Wilks, B. Slator, L. Guthrie. 1996. Palabras eléctricas: diccionarios, computadoras y significados. Cambridge, MA: MIT Press.
↑ Michael Lesk, Desambiguación automática de sentidos usando diccionarios legibles por máquina: cómo distinguir un cono de pino de un cono de helado, ACM Special Interest Group for Design of Communication Actas de la 5.ª conferencia internacional anual sobre documentación de sistemas, p. 24-26, 1986. ISBN 0-89791-224-1
↑ R. Navigli, P. Velardi. 2005. Interconexiones semánticas estructurales: un enfoque basado en el conocimiento para la desambiguación del sentido de las palabras . Archivado el 9 de julio de 2009 en Wayback Machine . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27(7), págs. 1063-1074.
↑ E. Agirre, O. López de Lacalle, A. Soroa. 2009. WSD basado en el conocimiento en dominios específicos: rendimiento mejor que el WSD supervisado genérico . Archivado el 24 de julio de 2011 en Wayback Machine . En Proc. del IJCAI, págs. 1501-1506.
↑ R. Navigli, M. Lapata. Un estudio experimental de la conectividad gráfica para la desambiguación no supervisada del sentido de las palabras . Archivado el 14 de diciembre de 2010 en Wayback Machine . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, págs. 678-692.
↑ D. Yarowsky. 1995. Desambiguación de sentido de palabra no supervisada que rivaliza con métodos supervisados . Archivado el 7 de junio de 2010 en Wayback Machine . En Proc. de la 33ª Reunión Anual de la Asociación de Lingüística Computacional, pp. 189-196.
↑ H. Schütze. 1998. Discriminación automática del sentido de las palabras . Archivado el 18 de marzo de 2012 en Wayback Machine . Lingüística Computacional, 24(1), pp. 97-123.
↑ MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2004. Encontrar sentidos predominantes en texto sin etiquetar. En Actas de la 42ª Reunión Anual de la Asociación de Lingüística Computacional (Barcelona, España). 280-287.
↑ MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2007. Adquisición no supervisada de los sentidos predominantes de las palabras. computar Abadejo. 33, 4, 553-590.
↑ MOHAMMAD, S. AND HIRST, G. 2006. Determinación del dominio del sentido de las palabras usando un diccionario de sinónimos. En Actas de la 11ª Conferencia sobre el capítulo europeo de la Asociación de Lingüística Computacional (EACL, Trento, Italia). 121-128.
↑ LAPATA, M. Y KELLER, F. 2007. Un enfoque de recuperación de información para clasificar los sentidos. En Actas de la Conferencia de Tecnología del Lenguaje Humano del Capítulo Norteamericano de la Asociación de Lingüística Computacional (HLT-NAACL, Rochester, NY). 348-355.
↑ GLIOZZO, A., MAGNINI, B. Y STRAPPARAVA, C. 2004. Estimación de relevancia de dominio no supervisada para la desambiguación del sentido de la palabra. En Actas de la Conferencia de 2004 sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural (EMNLP, Barcelona, España). 380-387.
↑ BUITELAAR, P., MAGNINI, B., STRAPPARAVA, C., AND VOSSEN, P. 2006. Dominio específico WSD. En Desambiguación del sentido de las palabras: algoritmos y aplicaciones, E. Agirre y P. Edmonds, Eds. Springer, Nueva York, NY, 275-298.
↑ KILGARRIFF, A. Y GREFENSTETTE, G. 2003. Introducción al número especial sobre la Web como corpus. computar Abadejo. 29, 3, 333-347.
↑ E IDE, N. Y VERONIS, J. 1998. Desambiguación del sentido de la palabra: El estado del arte. computar Abadejo. 24:1, 1-40.
↑ LITKOWSKI, KC 2005. Léxicos y diccionarios computacionales. En Encyclopedia of Language and Linguistics (2ª ed.), KR Brown, Ed. Elsevier Publishers, Oxford, Reino Unido, 753-761.
↑ AGIRRE, E. Y STEVENSON, M. 2006. Fuentes de conocimiento para WSD. En Desambiguación del sentido de las palabras: algoritmos y aplicaciones, E. Agirre y P. Edmonds, Eds. Springer, Nueva York, NY, 217-251.
↑ MAGNINI, B. Y CAVAGLIA, G. 2000. Integración de códigos de campo de materias en WordNet. En Actas de la 2ª Conferencia sobre Evaluación y Recursos Lingüísticos (LREC, Atenas, Grecia). 1413-1418.
↑ 1. Adam Kilgarriff y Joseph Rosenzweig, English Senseval: Report and Results mayo-junio de 2000, Universidad de Brighton
↑ Rada Mihalcea, Timothy Chklovski, Adam Kilgarriff. La tarea de muestra léxica en inglés de Senseval-3, 2004. p. 2
↑ Loukachevitch N., Chuiko D. Desambiguación del sentido de las palabras basada en el diccionario de sinónimos, 2007

Lectura sugerida

Edición especial de lingüística computacional sobre desambiguación del sentido de las palabras (1998)
Ejercicios de evaluación para la desambiguación del sentido de las palabras Archivado el 2 de septiembre de 2005 en Wayback Machine Los puntos de referencia estándar de facto para los sistemas WSD.
Roberto Navigli. Desambiguación del sentido de las palabras: una encuesta , ACM Computing Surveys, 41(2), 2009, págs. 1-69. Un estado actualizado del arte del campo.
Desambiguación del sentido de las palabras tal como se define en Scholarpedia
Desambiguación del sentido de las palabras: el estado del arte (PDF) Una descripción general completa Por el Prof. Nancy Ide y Jean Veronis (1998).
Tutorial de desambiguación del sentido de las palabras , por Rada Mihalcea y Ted Pedersen (2005).
Desambiguación del sentido de las palabras: algoritmos y aplicaciones , editado por Eneko Agirre y Philip Edmonds (2006), Springer. Cubre todo el campo con capítulos aportados por investigadores destacados. www.wsdbook.org sitio del libro
Bar-Hillel, Yehoshua. 1964. Idioma e Información. Nueva York: Addison-Wesley.
Edmonds, Philip y Adam Kilgarriff. 2002. Introducción al número especial sobre la evaluación de los sistemas de desambiguación de sentido de las palabras. Revista de Ingeniería del Lenguaje Natural, 8(4):279-291.
Edmonds, Felipe. 2005. Desambiguación léxica. La Enciclopedia Elsevier de Lengua y Lingüística, 2ª Ed., ed. por Keith Brown, 607-23. Oxford: Elsevier.
Ide, Nancy y Jean Veronis. 1998. Desambiguación del sentido de las palabras: El estado del arte. Lingüística Computacional, 24(1):1-40.
Jurafsky, Daniel y James H. Martin. 2000. Procesamiento del habla y el lenguaje. Nueva Jersey, Estados Unidos: Prentice Hall.
Litkowski, KC 2005. Léxicos y diccionarios computacionales. En Encyclopaedia of Language and Linguistics (2ª ed.), KR Brown, Ed. Elsevier Publishers, Oxford, Reino Unido, 753-761.
Manning, Christopher D. y Hinrich Schütze. 1999. Fundamentos del procesamiento estadístico del lenguaje natural. Cambridge, MA: MIT Press. http://nlp.stanford.edu/fsnlp/
Mihalcea, Rada. 2007. Desambiguación del sentido de las palabras. Enciclopedia de aprendizaje automático. Springer-Verlag.
Resnik, Philip y David Yarowsky. 2000. Sistemas distintivos y sentidos distintivos: Nuevos métodos de evaluación para la desambiguación del sentido de las palabras, Natural Language Engineering, 5(2):113-133. http://www.cs.jhu.edu/~yarovsky/pubs/nle00.ps
Yarowsky, David. 2001. Desambiguación del sentido de las palabras. Manual de procesamiento del lenguaje natural, ed. por Dale et al., 629-654. Nueva York: Marcel Dekker.
Kwong, O. Nuevas perspectivas sobre estrategias computacionales y cognitivas para la desambiguación del sentido de las palabras. — Springer, 2012. — 118 págs. — ISBN 9781461413202 .

procesamiento natural del lenguaje
Definiciones generales	corpus de textos corpus de habla Para las palabras bolsa de palabras Integridad de la IA N-grama Cifrado de bigrama trigrama
Análisis de texto	Segmentación de texto Marcado parcial análisis de superficie Procesamiento de textos compuestos Extracción de colocaciones derivación lematización Reconocimiento de entidad nombrada Resolución de correferencia Análisis de sentimiento de texto Extracción de conceptos analizando Resolución de la polisemia léxica Extraer terminología Extracción de información Identificación de idioma Definición de caso
Referencia	Extrayendo oraciones Generación abstracta Referenciación multi-documento Simplificación de texto
Traducción automática	automatizado Híbrido Interlingüístico Basado en reglas Basado en ejemplos Basado en diccionario Basado en la transformación neural Estadístico Sincrónico
Identificación y recogida de datos	Reconocimiento de voz síntesis de voz Reconocimiento óptico de caracteres Generación de texto
Modelo Temático	colocación de pachinko Colocación latente de Dirichlet Análisis semántico latente
revisión por pares	Evaluación automatizada de ensayos concordante Entrada de texto predictivo Corrector gramatical Corrector ortográfico Adivinanzas de sintaxis
Interfaz de lenguaje natural	asistente virtual Interlocutor virtual sistema de preguntas y respuestas interfaz de voz Literatura Interactiva