La desambiguación de sentido de palabra ( WSD ) es un problema no resuelto del procesamiento del lenguaje natural , que consiste en la tarea de elegir el significado (o significado) de una palabra o frase ambigua dependiendo del contexto en el que se encuentre. Este problema surge en el análisis discursivo , al optimizar la relevancia de los resultados de los motores de búsqueda, al resolver referencias anafóricas , al estudiar la coherencia lingüística de un texto, al analizar inferencias .
La investigación científica sobre la resolución de la polisemia léxica ha estado en el campo de la lingüística aplicada y computacional durante mucho tiempo y tiene una larga historia. A lo largo de los años, el número de soluciones propuestas y su eficacia ha crecido constantemente hasta que la eficacia ha alcanzado un cierto nivel de precisión comparativamente eficaz para una cierta gama de palabras y tipos de polisemia . El problema aún no ha recibido una solución completa, ya que muchos problemas directamente relacionados con las características lingüísticas del habla humana se interponen en el camino de una solución exitosa.
Se ha explorado una gran cantidad de métodos, que van desde métodos basados en el conocimiento, reglas, fuentes lexicográficas, aprendizaje supervisado en un corpus de textos, hasta métodos de aprendizaje no supervisado que agrupan palabras según su significado. Entre estos, hasta la fecha, los métodos de aprendizaje supervisado han mostrado la mejor eficacia. Sin embargo, la comparación objetiva y la evaluación de métodos es un proceso complejo que depende de muchos factores. Para los sistemas de vocabulario generalizado (para inglés), la eficiencia supera regularmente la barra del 90 %, llegando a veces incluso al 96 %. Para sistemas de vocabulario más diferenciado, la eficiencia está en el rango de 59% -69%.
En general, la ambigüedad (o ambigüedad) de una expresión lingüística u obra de habla (texto) se entiende como la presencia de varios significados diferentes al mismo tiempo [1] . Los científicos comparten varios tipos de dicha ambigüedad: léxica, sintáctica y del habla, pero el término "WSD" incluye la resolución de las léxicas (semánticas).
De lo que estamos hablando se puede entender del siguiente ejemplo con la palabra ambigua "clave":
así como 3 contextos:
Es obvio para una persona que en la primera oración la palabra " llave " se usa en el primer significado, en la segunda oración, respectivamente en el segundo significado y en el tercero, son posibles variantes. Desarrollar algoritmos que imiten esta habilidad humana a veces puede ser una tarea desalentadora.
El proceso de resolución requiere varias cosas: sistemas de conocimiento de vocabulario para definir múltiples significados de palabras y un corpus de textos para resolver ( pueden requerirse otras fuentes de conocimiento en algunos casos ).
Este problema se formuló por primera vez como un problema separado en la década de 1940, durante los primeros días de la traducción automática, lo que lo convierte en uno de los problemas más antiguos de la lingüística computacional. Warren Weaver , en su famoso "Memorándum de ' Traducción'" (1949) [2] , presentó el problema en un aspecto informático. Los investigadores de esa época eran muy conscientes de su importancia y complejidad, en particular, Joshua Bar-Hillel (uno de los pioneros) en 1960 expresó dudas de que la tarea de la traducción automática totalmente automática universal sería alguna vez factible debido a la necesidad de modelar todo el conocimiento humano sobre el mundo [3 ] .
En los años 70, el problema WSD pasó a formar parte de los sistemas de interpretación semántica desarrollados en el campo de la IA , sin embargo, en su mayoría consistían en reglas derivadas manualmente, y por lo tanto dependían completamente de la cantidad de conocimiento disponible, que en ese momento era extremadamente laborioso. extraer.
En la década de 1980, se dispuso de recursos tan voluminosos como el Oxford Advanced Learner's Dictionary of Current English y la escritura manual de reglas fue suplantada por la extracción automática de conocimiento de tales fuentes, pero los métodos aún no abandonaban la clase de los llamados "conocimientos". métodos basados".
Sin embargo, en los años 90, la “revolución estadística” cambió por completo los enfoques y métodos en lingüística computacional, y el problema de resolver la polisemia léxica se convirtió en un problema al que son aplicables todo tipo de métodos de aprendizaje supervisado [4] .
La década de 2000 mostró que los métodos de aprendizaje supervisado han alcanzado un cierto nivel de precisión y no pueden superarlo, por lo que la atención de los científicos se ha desplazado hacia el trabajo con sistemas más generalizados de conocimiento de vocabulario (sentidos de grano grueso), adaptación a áreas temáticas (adaptación de dominio) , aprendizaje supervisado parcial (sistemas semisupervisados) y aprendizaje no supervisado (sistemas basados en corpus no supervisados), métodos mixtos, así como procesamiento de bases de conocimiento y visualización de resultados en forma de gráficos (el retorno de los sistemas basados en conocimiento a través de sistemas basados en grafos). métodos). Sin embargo, hasta el día de hoy, los sistemas de aprendizaje supervisado se consideran los más efectivos.
Sin embargo, ¿por qué tal tarea causa tantas dificultades y los resultados de sus soluciones demuestran una eficiencia relativamente baja? En el proceso de trabajar en el problema de resolver la polisemia léxica, se descubrieron una gran cantidad de dificultades, la mayoría de las veces debido a las propiedades de la psicología y el habla humanas.
Primero, todos los diccionarios son diferentes y no equivalentes entre sí. La mayoría de las veces, la tarea de distinguir los significados de una palabra entre sí no causa dificultades, sin embargo, en algunos casos, los diferentes significados de una palabra pueden estar muy cerca entre sí semánticamente (por ejemplo, si cada uno de ellos es una metáfora o metonimia entre sí), y en tales situaciones, la división en significados en diferentes diccionarios y tesauros puede variar significativamente. La solución a esta dificultad puede ser el uso universal de la misma fuente de datos: un diccionario universal. Globalmente, los resultados de los estudios que utilizan un sistema de división semántica más generalizado son más efectivos [5] [6] , por lo que algunos investigadores simplemente ignoran el procesamiento de diccionarios y tesauros con una división semántica más detallada en su trabajo.
En segundo lugar, en algunos idiomas, el marcado de parte de la palabra puede estar muy relacionado con el problema de la desambiguación, con el resultado de que estos dos problemas pueden interferir entre sí. Los científicos no han llegado a un consenso sobre si vale la pena dividirlos en dos componentes autónomos, pero la ventaja está del lado de quienes creen que es necesario [7] .
La tercera dificultad radica en el factor humano . Los sistemas de desambiguación siempre se han evaluado comparando los resultados con el trabajo humano. Y para las personas, esta tarea puede no ser tan simple como el etiquetado de POS : es varias veces más difícil marcar significados entre varios propuestos [8] . Si una persona puede recordar o adivinar fácilmente las partes del discurso que puede ser una palabra, entonces no es posible recordar todos los significados posibles de las palabras. Además, resultó que los resultados de diferentes personas no siempre coinciden [9] y, a menudo, no llegan a una decisión común sobre el significado en el que se usa una palabra dada en un contexto particular. A pesar de esto, los científicos toman el resultado de una persona como estándar, un punto de referencia para comparar con los resultados de una computadora. Cabe señalar que una persona maneja mucho mejor los sistemas generalizados de diccionarios que los detallados, y es por eso que la atención de los investigadores se ha desplazado hacia ellos [5] [6] .
Algunos investigadores sostienen [10] que a la hora de procesar textos también es importante el sentido común , lo que difícilmente es posible que una computadora pueda enseñar. Las siguientes dos oraciones son ejemplos:
La primera oración implica que Jill y Mary son hermanas entre sí; en el segundo, que tanto Jill como Mary son madres, y no es un hecho que sean parientes. Por lo tanto, para un análisis más preciso de los significados, es necesario tener dicho conocimiento sobre el mundo y la sociedad. Además, este conocimiento a veces también es necesario cuando se resuelven ambigüedades sintácticas y cuando se analizan anáforas y catáforas .
En quinto lugar, un conjunto de métodos permanente independiente de la tarea (tarea independiente) no tiene sentido, dado que la ambigüedad de la palabra mouse (animal y dispositivo informático), por ejemplo, no afecta el resultado de inglés-ruso y ruso- Traducción al inglés en absoluto (ya que en ambos idiomas ambos significados están incorporados en la misma palabra), pero afecta fuertemente la recuperación de información. También se puede dar el ejemplo contrario: al traducir la palabra 'río' del inglés al francés, necesitamos saber el significado de la palabra ('fleuve' es un río que desemboca en el mar, y 'rivière' es un río que desemboca en otro río). Como resultado, diferentes problemas requieren diferentes algoritmos, por lo que si se desarrolla un buen algoritmo de desambiguación léxica, es imposible estar completamente seguro de que se ajustará a todos los problemas.
En sexto lugar, los científicos plantean la cuestión de la posibilidad de una representación discreta de los significados de una palabra. Incluso el término " significado de una palabra " en sí mismo es bastante general y controvertido. La mayoría de la gente está de acuerdo cuando se trabaja con sistemas de conocimiento generalizados con un alto nivel de homografía de palabras, pero a medida que el nivel disminuye y los diccionarios se vuelven más detallados, existe una gran cantidad de discrepancias. Por ejemplo, en la conferencia Senseval-2, que utilizó sistemas detallados, los anotadores humanos llegaron a un acuerdo solo el 85 % de las veces [11] .
Los significados de las palabras son muy flexibles, bastante cambiantes y extremadamente contextuales y, a veces, incluso dependientes del contexto, por lo que no siempre se dividen estrictamente en varios subsignificados [12] . Los lexicógrafos a menudo encuentran subsignificados demasiado amplios y semánticamente superpuestos en los textos, y los significados estándar de las palabras a menudo deben corregirse, expandirse y reducirse de las maneras más extrañas e inesperadas. Por ejemplo, en esta situación “los niños corren hacia sus madres”, la palabra “niños” se usa simultáneamente en dos sentidos: ambos son hijos de sus padres y solo niños. La tarea de un lexicógrafo es analizar una gran cantidad de textos y materiales y describir toda la gama posible de significados de una palabra. Sin embargo, aún se desconoce si este enfoque es aplicable en el campo de la computación y la lingüística computacional, debido a que las decisiones de los lexicógrafos se toman a favor de la completitud de los significados descritos, y no de la aplicabilidad de la información obtenida en el procesamiento de textos.
Recientemente, se ha propuesto un problema llamado sustitución léxica como solución al problema de diferenciar los significados de las palabras [13] . Su significado consiste en proporcionar una sustitución de la palabra por otra que conserve el significado de la antigua en este contexto.
Es un hecho bien conocido que los resultados del proceso dependen no solo de la innovación y la eficiencia de los métodos, sino también de los diversos escenarios/propiedades de la tarea y los requisitos del proceso de resolución (por ejemplo, la diferenciación de los significados de la palabra, las características de la evaluación de resultados, la cobertura de desambiguación, etc.). Además, es importante que una gran cantidad de campos de PNL puedan beneficiarse de los resultados de WSD.
En los sistemas de recuperación de información, si, al buscar una consulta, se excluyen de la consideración aquellos documentos en los que cualquiera de las palabras de la consulta se usa con un significado diferente al que le interesa actualmente al usuario, entonces la relevancia de los resultados de la consulta puede ser aumentó.
Los primeros trabajos que exploraron la posibilidad de utilizar WSD en el campo de la recuperación de información no mostraron un aumento en la precisión de la búsqueda. Sin embargo, en 1994 Sanderson encontró [14] que las mejoras solo pueden detectarse si la eficiencia de desambiguación supera el 90%, cuya validez general se debate. Y en 1995, Schutze y Pedersen demostraron [15] , que demostraron que con la eficiencia anterior, se puede obtener una mejora de búsqueda del 4%. Sin embargo, Stokey demostró que el uso de WSD puede dar resultados, aunque pequeños, un promedio de 1,73 %, incluso con una menor eficiencia de WSD (62,1 %) [16] .
En los sistemas de traducción automática , la falta de mecanismos confiables para reconocer el significado de una palabra reduce significativamente la calidad de la traducción, ya que la palabra no siempre se traduce sin ambigüedades a otro idioma. Y determinar automáticamente la traducción correcta según el contexto es una tarea muy difícil. La desambiguación léxica ha sido concebida durante mucho tiempo como un desafío importante para lograr una traducción automática casi perfecta; estos pensamientos se basan en la idea de que WSD no puede evitar mejorar los sistemas de traducción al elegir los candidatos de valor correctos para la traducción. Esta área no se ha explorado tanto como se necesita, debido a las tradicionales bases de datos de vocabulario predefinido menos eficientes ( inventario de sentido ing. ) que se han vuelto tradicionales desde hace mucho tiempo .
En áreas específicas, los problemas de resolución de conceptos propios de las mismas son de sumo interés: por ejemplo, en el campo médico, definir los nombres de fármacos en el texto puede ser útil, mientras que en bioinformática es necesario resolver ambigüedades en la denominación de genes y proteínas - este proceso ha sido llamado Extracción de Información . Incluye tareas tales como el reconocimiento de entidades nombradas ( eng. named-entity recognition ) (NER), expansión de siglas (por ejemplo, Federación Rusa - Federación Rusa) y otras; todo esto puede considerarse como una polisemia de tareas de resolución, aunque esto es una dirección nueva y aún no explorada.
El análisis de contenido y la identificación de las partes principales del texto en términos de ideas, temas y similares pueden beneficiarse enormemente de WSD. Por ejemplo, la clasificación de textos (blogs), la asignación de etiquetas a artículos o entradas de blogs , o la determinación de enlaces relevantes (quizás semánticamente) entre ellos, o el análisis (semántico) de redes sociales , que se ha vuelto cada vez más activo en los últimos tiempos. Esta zona es la más nueva, desconocida de todas las anteriores.
Como siempre, en el procesamiento del lenguaje natural, existen dos enfoques: profundo y superficial.
Los enfoques pertenecientes a la primera categoría implican el acceso al llamado conocimiento del mundo (conocimiento del mundo o base de conocimiento de sentido común). Por ejemplo, saber que "cualquier cosa material inanimada puede ser verde en el sentido de color, pero no puede ser verde en el sentido de inexperiencia" permite determinar en qué sentido se usa la palabra "verde" en un contexto dado. Tales enfoques no son tan efectivos en la práctica, ya que tal clase de conocimiento sobre el mundo, aunque es posible almacenarlo en un formato compatible con computadoras, cubre áreas muy pequeñas [22] de nuestras vidas y no es del todo aplicable a todos . estudios. Debo decir que este enfoque tampoco siempre funciona, por ejemplo, en la oración "El director era tan verde", usando el conocimiento, es imposible determinar, en este caso el director es verde porque se volvió verde o porque es inexperto: a menudo esto solo se puede determinar en función del contexto, pero de la lógica y el significado de todo el texto.
Además, en la lingüística computacional, existe una antigua tradición de aplicar estos métodos en términos de conocimiento del programa y, a menudo, es bastante difícil determinar si este conocimiento es lingüístico o conocimiento sobre el mundo ( English Commonsense Knowledge Base ). El primer intento fue realizado por Margaret Masterman y sus colegas en la Unidad de Investigación de Idiomas de Cambridge en Inglaterra en la década de 1950: usaron los datos del tesauro de Roger y palabras clave numeradas como indicadores de temas y analizaron las repeticiones en el texto usando el algoritmo de intersección de conjuntos. Este experimento no tuvo mucho éxito [23] , pero tuvo una fuerte influencia en el trabajo posterior, especialmente en el trabajo de Yarovksky en la década de 1990 sobre la optimización del método de tesauro utilizando una máquina de aprendizaje supervisado.
Los enfoques de superficie no intentan comprender el texto, solo se basan en el análisis de palabras cercanas, por ejemplo: si las palabras "mar" o "pesca" están presentes junto a la palabra "bajo", lo más probable es que en este caso haya es un significado en el sentido biológico. Estas reglas se pueden extraer automáticamente utilizando un corpus de textos con significados de palabras etiquetados. Este enfoque, aunque no cubre al anterior en términos de potencia, lo supera fácilmente en la práctica. Sin embargo, siempre hay trampas, como en la oración "Los perros ladran al árbol", que contiene las palabras "árbol" y "perros" junto a la palabra "ladrar".
Hay cuatro métodos principales para la desambiguación:
El método Lesk [24] es un método productivo basado en el uso del conocimiento del vocabulario. Se basa en la hipótesis de que las palabras que están una al lado de la otra en el texto están relacionadas entre sí y esta conexión se puede observar en las definiciones de las palabras y sus significados. Dos (o más) palabras pueden estar cerca si ambas tienen el par de valores con mayor superposición de palabras en sus definiciones en el diccionario. Por ejemplo, la frase "cono de pino", en las definiciones de ambos en uno de los significados, hay palabras como "siempre verde" y "árbol". Además, como alternativa al método anterior, puedes utilizar la relación global entre estas palabras calculando la proximidad semántica de cada par de valores en WordNet .
Como alternativa a los métodos anteriores, puede utilizar la similitud semántica general ( en inglés , semantic similarity ) de los significados de las palabras, basada en WordNet 'e. Los métodos basados en gráficos basados en la difusión de la activación también se han utilizado con cierto éxito: algunos de ellos han mostrado una precisión comparable [25] a los métodos de aprendizaje supervisado y, a veces, mejor que [5] [26] en ciertas áreas . Además, recientemente se demostró [27] que incluso los métodos más simples basados en medidas de conectividad de gráficos (como el grado/valencia de todo el gráfico) pueden mostrar resultados altos en presencia de una rica base léxica.
El uso de los llamados modelos de gobernanza (“preferencias selectivas” o “restricciones selectivas”) también puede ser muy útil. Por ejemplo, utilizando el conocimiento de que la palabra "róbalo" en el significado de pescado a menudo aparece con la palabra "cocinar" o "comer", podemos resolver la ambigüedad en una oración como "Estoy cocinando róbalo". Sin embargo, crear tal conocimiento sobre el mundo es extremadamente laborioso y casi imposible.
Todos los métodos de aprendizaje supervisado se basan en la suposición de que el contexto de la palabra que estamos considerando proporciona información suficiente para calcular el significado en el que se aplica en este caso (y, por lo tanto, el conocimiento obtenido de diccionarios y tesauros se corta como superfluo). Todos los modelos de aprendizaje supervisado se han aplicado al problema WSD , incluidas las técnicas relacionadas, como la selección de variables , la optimización de parámetros y el aprendizaje por conjuntos . Las máquinas de vectores de soporte y el aprendizaje basado en instancias han demostrado ser algunos de los métodos más eficientes disponibles en la actualidad, quizás porque pueden manejar las propiedades de múltiples parámetros de palabras y contextos. Sin embargo, los métodos anteriores tienen como cuello de botella el requisito de tener una gran cantidad de textos marcados manualmente para la capacitación, lo que, como ya se mencionó, es laborioso y costoso. Nuevamente, surge el problema de poseer tales cascos etiquetados.
El método bootstrapping [28] es un método común para el aprendizaje iterativo y la evaluación de un clasificador para aumentar su eficiencia. El algoritmo comienza con una pequeña cantidad de datos iniciales para cada palabra: ya sea una pequeña cantidad de ejemplos de contextos ingresados manualmente o un par de reglas inconfundibles para determinar el significado de una palabra (por ejemplo, la palabra "jugar" en el contexto de la palabra "bajo" casi siempre significa que la palabra tiene un sentido musical). Estos datos se utilizan para entrenar al clasificador utilizando cualquiera de los métodos de aprendizaje supervisado anteriores. Luego, el clasificador se aplica a un conjunto de textos que ya no están etiquetados para extraer una gran muestra de entrenamiento, que incluye solo contextos "confiables". El proceso se repite iterativamente: cada clasificador siguiente se entrena en el conjunto de contextos más grande correspondiente, y se repite hasta que se cubre todo el corpus o hasta que se alcanza el número máximo de iteraciones.
Otro método utiliza grandes volúmenes de texto sin marcar para obtener información sobre la concurrencia de palabras, lo que puede complementar en gran medida nuestros datos. Además, un corpus bilingüe bien alineado se puede utilizar para resolver la ambigüedad entre idiomas, ya que una palabra polisemántica en un idioma siempre se traduce a otro idioma dependiendo del significado en el que se use. Este método, en cierto sentido, también puede considerarse un método de aprendizaje parcial.
Todas las técnicas anteriores pueden permitir que los métodos de aprendizaje supervisado se adapten a otras áreas.
Este tipo de métodos es una de las tareas más difíciles de WSD. La suposición principal de este método es la declaración: "significados similares ocurren en contextos similares" y, por lo tanto, pueden extraerse del texto mediante agrupamiento, utilizando alguna medida de similitud de contextos [29] . Luego, se pueden asignar nuevos contextos a uno de los clústeres más cercanos. El rendimiento del método es ciertamente inferior al de otros métodos, sin embargo, la comparación es algo problemática debido a la necesidad de proyectar los clústeres resultantes sobre los valores disponibles en el diccionario. Si no se requiere proyección, se pueden realizar estimaciones de agrupamiento (incluidas la entropía y la pureza). Los científicos tienen grandes esperanzas de que los métodos de aprendizaje no supervisados puedan ayudar a superar las deficiencias de la adquisición de conocimiento , ya que no requieren tareas demasiado laboriosas de marcado sintáctico y semántico de todo el corpus.
También existen otros métodos basados en principios completamente diferentes a los anteriores:
El cuello de botella en la adquisición del conocimiento esel mayor obstáculo para resolver el problema de la ambigüedad . Los métodos de aprendizaje no supervisados se basan en un conocimiento que apenas está presente en los diccionarios electrónicos y otros sistemas de conocimiento lingüístico electrónico. Los métodos de aprendizaje supervisado, por otro lado, se basan en la existencia de un corpus anotado manualmente, cuya existencia es técnicamente factible solo para un pequeño conjunto de palabras con fines de prueba, como se hizo para Senseval.
Por ello, una de las tendencias más alentadoras es la utilización de Internet como corpus para la obtención de información léxica de forma automática [36] . WSD se ha entendido tradicionalmente como una forma de mejorar los resultados en áreas como la recuperación de información (RI). En este caso, sin embargo, lo contrario también es cierto: los motores de búsqueda tienen capacidades lo suficientemente simples y rápidas para extraer con éxito Internet para su uso en WSD. Por tanto, el problema de la obtención del conocimiento provocó el surgimiento de ciertos métodos para obtenerlo:
El conocimiento es una de las claves para la resolución de la desambiguación: proporciona los datos en los que se basa el propio proceso de resolución. Estos datos pueden ser tanto corpus de texto como diccionarios, tesurus, glosarios, ontologías: [37] [38] [39]
Probar y comparar métodos no es una tarea trivial debido a las diferencias en los diferentes conjuntos de pruebas, inventarios de sentidos y fuentes de datos utilizadas. Antes de que se crearan eventos especiales para comparar sistemas, se comparaban manualmente, por sí solos, a menudo pequeños conjuntos de datos. De hecho, para probar su algoritmo, los desarrolladores deben dedicar tiempo a marcar manualmente todos los usos de las palabras. Y es imposible comparar los mismos métodos incluso en los mismos textos si utilizan diferentes sistemas de interpretación de palabras.
Se han organizado conferencias internacionales que comparan los sistemas WSD para "combinar" y comparar métodos. Senseval (ahora rebautizado como Semeval ) es una conferencia internacional que compara los sistemas de desambiguación léxica, que se lleva a cabo cada 3 años desde 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) y su sucesor lógico de SemEval. , que se dedicó íntegramente a la tarea de WSD y se celebró una vez, en 2007. Sus tareas incluyen la organización de seminarios y talleres, la preparación y el marcado de corpus manualmente para la prueba del sistema, así como la comparación de algoritmos de varios tipos ("todas las palabras" y "muestra léxica" WSD, palgoritmos anotados y no anotados) y el estudio de subtareas tales como el etiquetado de roles semánticos , brillo WSD , sustitución léxica , etc. Como parte de las actividades anteriores, también se realizaron comparaciones de sistemas WSD en el marco no solo del idioma inglés. Sin embargo, ni un solo idioma del grupo eslavo estuvo presente en los eventos.
El sistema de significados de las palabras . Durante las primeras conferencias, como sistemas de significados de palabras (diccionarios, bases de datos léxicas), ya sea poco conocidos antes inaccesibles (por ejemplo, el proyecto HECTOR) o versiones pequeñas, pequeñas e incompletas de un sistema completo real que se requerían en la competencia fueron usado. . Por lo general, ambos eran insuficientemente detallados y diferenciados (eng. de grano grueso), sin embargo, se eligieron para evitar el uso de los ejemplos más populares y detallados (eng. fine-grain) (por ejemplo, WordNet ), ya que esto haría que el experimento fuera “impuro”, ya que estas bases de conocimiento ya han sido repetidamente “encendidas” en varios estudios y evaluaciones. Se notó que los resultados eran completamente diferentes para los más detallados, por lo que se decidió probar los algoritmos en ambos inventarios de sentido.
Un conjunto de palabras a comprobar . Además, la comparación de los métodos de desambiguación se divide en dos tipos según el número de palabras a verificar: resolución de polisemia léxica de un determinado conjunto de palabras (la mayoría de las veces, varias docenas) y resolución de polisemia léxica de todas las palabras del texto. Su diferencia radica en la cantidad de análisis y procesamiento de datos: la tarea "all-words" ("all-words-text") implica el procesamiento de todas las palabras presentes en el texto por ambigüedad (absolutamente todas las palabras en el corpus deben ser resueltas ), la tarea “muestra léxica” (“conjunto limitado”) es permitir solo palabras objetivo definidas de antemano y ubicadas en nuestro corpus. Se supone que el primer tipo es una estimación más realista, pero mucho más laboriosa en términos de verificación de los resultados. Debido a las dificultades de probar el segundo, en las primeras conferencias solo se realizaron pruebas conjunto de prueba, pero ambos se incluyeron más tarde en la prueba.
En el caso de la tarea de “conjunto limitado de palabras”, los organizadores tenían que elegir las mismas palabras clave con las que se probarían los sistemas. Una crítica a las actividades que tuvieron lugar antes de Senseval fue que estas muestras del conjunto fueron elegidas al antojo de los experimentadores. En Senseval'e intentaron evitar esto eligiendo palabras arbitrarias, divididas en grupos según las partes del discurso, la frecuencia y el grado de ambigüedad. Además, hubo mucha controversia con respecto a la inclusión del problema de determinar la parte del discurso en el programa WSD, por lo que los organizadores decidieron incluir partes del discurso claramente marcadas y un cierto número de partes indefinidas en la muestra de palabras.
cuerpo _ Es necesario aclarar qué es texto marcado y qué es texto sin marcar. Un corpus no asignado es esencialmente una masa de textos ordinarios que contienen el número requerido de menciones de palabras que necesitan ser “resueltas”. Marcado es la misma colección de textos, pero con la diferencia de que todas las palabras mencionadas contienen información atribuida (por ejemplo, como una etiqueta u otra metainformación) sobre el significado de las palabras utilizadas en estos contextos.
Tanto los textos marcados (sistemas de aprendizaje supervisado) como los textos no marcados (sistemas de aprendizaje no supervisado) pueden servir como material de entrenamiento para nuestros sistemas de resolución de la polisemia léxica. Este proceso es así: varios lingüistas-lexicógrafos revisan el texto completo y, de acuerdo con el diccionario de significados, asignan metainformación sobre el significado de las palabras utilizadas en estos contextos a todas las palabras de una muestra dada de palabras evaluadas para polisemia. Luego, para cada palabra, se hace una especie de quórum a partir de las decisiones tomadas por los lexicógrafos y se decide el significado en el que se usa aquí, luego de lo cual las etiquetas recibidas se agregan a la versión final del texto; es decir, todos los usos de las palabras que hemos elegido se complementan con la metainformación necesaria.
Entonces, el cuerpo se divide en tres partes. La primera, la llamada distribución de ejecución en seco (eng. "ejecución preliminar") permite a los equipos ajustar y adaptar sus programas al tipo y estructura de la información suministrada a la entrada; contiene la información mínima requerida.
La segunda parte se denomina distribución de entrenamiento , que contiene entradas de diccionario y un corpus con metainformación sobre los significados de las palabras objetivo, que le permite entrenar programas de la competencia para elegir correctamente los significados correctos de las palabras; se entrega a todos los equipos inmediatamente después de la carrera preliminar. El número de contextos necesarios para las palabras puede variar bastante (desde unos pocos hasta más de 1000) y depende del número de contextos disponibles. Luego viene la etapa de entrenamiento.
La última parte, denominada distribución de evaluación , sin metainformación sobre los significados de las palabras objetivo, disponible después de completar los programas de capacitación, le permite calcular la precisión de los algoritmos. Cada contexto ha sido anotado manualmente por al menos tres personas, pero esta metainformación no se ha incluido en los datos difundidos ya que es la que se está verificando. Todos los programas, al pasar por esta muestra, necesitaban calcular para cada contexto el significado más probable de la palabra utilizada (o una lista de valores con sus correspondientes probabilidades); luego de enviar los datos a los organizadores, estos reciben automáticamente los resultados comparándolos con los suyos (ya que la muestra de evaluación, al igual que la de capacitación, contiene un marcado uso de palabras).
Grupos y líneas base . Cabe señalar que todos los algoritmos funcionan de manera diferente y utilizan diferentes fuentes de información, por lo que todos se dividieron en grupos según el método de procesamiento de texto: métodos de aprendizaje supervisado y métodos de aprendizaje no supervisado. Para la comparación con algoritmos ya conocidos (llamados puntos de partida - líneas base ), también se publicaron sus resultados, por ejemplo, todas las posibles variaciones del algoritmo Lesk .
Además, dado que la tarea WSD requiere un diccionario de valores y un corpus , los organizadores tuvieron que elegir algunos de los existentes para el proyecto. WordNet y SemCor son los ejemplos más populares de los componentes necesarios anteriores, sin embargo, su uso haría impuro el experimento, ya que estas bases de conocimiento ya han sido repetidamente “destacadas” en varios estudios y evaluaciones, por lo tanto, versiones incompletas que antes no estaban disponibles o Los autofabricados por los organizadores generalmente se seleccionan para probar ambas cosas (por ejemplo, en Senseval-1, ambos fueron proporcionados por el proyecto HECTOR [41] ).
Precisión de los algoritmos . Al evaluar casi cualquier algoritmo de clasificación para cualquier objeto, se utilizan las dos medidas de evaluación más comunes: precisión y recuperación ( ing. Precisión y recuperación ):
Sin embargo, si el sistema anota cada palabra o el resultado se calcula para todas las clases a la vez, la precisión y la recuperación tienen el mismo valor: se denomina precisión de los cálculos precisión de los cálculos ( ing. Precisión ). Este modelo se ha extendido para su uso cuando los algoritmos producen una lista de valores con sus respectivas probabilidades.
Los talleres de Senseval son el mejor ejemplo para aprender los mejores resultados de los sistemas WSD y futuras direcciones de investigación en el campo. Hay ciertas conclusiones que se pueden sacar analizando y resumiendo las conferencias posteriores:
Para comprender el estado general del campo y el nivel alcanzado por los mejores sistemas de desambiguación, es necesario analizar y estudiar detenidamente los mejores resultados y sus características: