Método de andamio

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 3 de octubre de 2017; la verificación requiere 1 edición .

El algoritmo de Lesk es un algoritmo clásico de desambiguación léxica basado en el conocimiento propuesto por Michael Lesk en 1986 .

Descripción

Michael Lesk intentó resolver de forma independiente el problema de hacer coincidir una palabra y su significado en inglés utilizando diccionarios legibles por máquina . La idea del método era buscar el significado de una palabra en la lista de definiciones del diccionario, teniendo en cuenta el contexto donde se usa esa palabra . El principal criterio para elegir el significado fue la siguiente regla: el significado inherente a esta definición tenía que coincidir parcialmente con el significado de los significados de las palabras vecinas en el contexto [1] .

Cómo funciona el algoritmo

Separación del contexto de la palabra en cuestión: no más de 10 palabras en la posición más cercana .
Busque todas las definiciones en el diccionario (cualquier otra fuente de conocimiento similar) para la palabra en cuestión .
Busque palabras del contexto en cada definición encontrada. Si alguna palabra del contexto está presente en la definición, entonces esta definición recibe una puntuación (el porcentaje de corrección de la definición para este contexto aumenta ).
Como valor más probable se elige aquel para el cual dicha intersección resultó ser mayor.

Un ejemplo de cómo funciona el algoritmo

Como ejemplo, considere la tarea: determinar el significado de la palabra " gato " en el texto " Se han criado nuevas razas de gatos en China ". Digamos que el diccionario da dos definiciones para la palabra " gato ":

" gato " 1 - un animal doméstico de la raza gato;
" Cat " 2 es un equipo de escalada.

El algoritmo mostrará que con la definición (1) este texto tiene una palabra común : " producir ", pero con la definición (2) ninguna. Por lo tanto, el algoritmo de Lesk elegirá el valor " cat " 1 .

Método Notas del autor

Lesk consideró cadenas de letras del alfabeto inglés como palabras [1] .
Al elegir 4, 6 y 8 palabras para el contexto , los resultados del algoritmo no difieren mucho [1] .
El autor en su obra utilizó los Oxford English Dictionaries como fuente de conocimiento [1] .

Beneficios del algoritmo

Independencia del algoritmo de la sintaxis . Esto permite que el algoritmo se utilice como complemento de los métodos basados en el análisis sintáctico [1] .
Independencia del algoritmo del significado léxico de la palabra . Según el contexto , el algoritmo puede hacer coincidir la palabra con sus significados figurativos [1] .

Desventajas del algoritmo

El algoritmo de Lesk no usa definiciones ya encontradas para encontrar los significados de nuevas palabras . El algoritmo mira cada palabra por separado, busca un significado para ella, al encontrar el significado correcto de una palabra , el algoritmo hace lo mismo con la siguiente palabra [1] .

Modificaciones del algoritmo

Hay una gran cantidad de trabajos que sugieren el uso de una modificación del algoritmo Lesk. Estos estudios se basan en la idea de utilizar diferentes vocabularios (tesauros, diccionarios de sinónimos, etc.) o modelos (morfológicos, sintácticos, etc.) juntos. Todos estos trabajos están enfocados al procesamiento de diversos textos no diccionarios, y ninguno de ellos utiliza el diccionario explicativo como material de procesamiento. Además, casi siempre el proceso se limita a un pequeño número de experimentos y no se realiza el procesamiento de conjuntos de datos suficientemente grandes.

Mejorando el método

Como posibles formas de mejorar el algoritmo Lesk original, usamos información adicional sobre la similitud de las palabras y tomamos en cuenta la importancia de las coincidencias para diferentes palabras.

Como primer ejemplo del método Lesk modificado, podemos citar una variante del algoritmo, donde se utiliza como información adicional un diccionario de sinónimos, un modelo morfológico de formación de palabras, y también intervienen interpretaciones de las palabras incluidas en la interpretación original. .

Un punto importante es que el algoritmo de desambiguación de significado de palabras se aplica a interpretaciones tomadas del diccionario, lo que simplifica mucho la tarea en comparación con la aplicación del algoritmo a textos ordinarios, por las siguientes razones:

todas las palabras de interpretación están obviamente conectadas con la palabra principal, ya que están incluidas en su definición;
por tanto, no hay problema en elegir el tamaño de la ventana de contexto en la que se van a considerar las palabras, sino que se utiliza la definición completa;
la desambiguación de partes del discurso (que suele ser el primer paso en dichos algoritmos) se simplifica porque las interpretaciones están estructuradas y, por lo tanto, las partes del discurso de las palabras en ciertos lugares son predecibles; además, ayuda la información sobre la clase gramatical del encabezado.

Como segundo ejemplo del método Lesk modificado, podemos dar una variante del algoritmo basada en dos hipótesis. La primera hipótesis es que las palabras que aparecen en una oración se pueden desambiguar asignándoles un significado que esté más cerca de las palabras vecinas. Esto se deriva de la noción intuitiva de que las palabras que aparecen juntas en la misma oración están necesariamente relacionadas de alguna manera, ya que al estar de acuerdo entre sí transmiten algún significado. La segunda hipótesis es que los significados relacionados pueden identificarse encontrando palabras en sus definiciones que ocurren en las interpretaciones de ambas palabras. Esta hipótesis también puede justificarse con la ayuda de una noción intuitiva, a saber, que las palabras que están relacionadas en significado pueden definirse con los mismos términos y también pueden referirse entre sí en sus definiciones.

Como ejemplo, considere dos significados de la palabra " caleidoscopio ":

un dispositivo óptico: un tubo con placas de espejo y lentes de colores que, cuando se giran, se doblan en varios patrones;
cambio rápido de varios fenómenos.

Y el texto "Los hermosos patrones de color del caleidoscopio fascinan tanto a adultos como a niños". Con la primera definición, este texto tiene dos palabras en común, y con la segunda, ninguna. Por lo tanto, el algoritmo de Lesk elegirá el primer valor.

Críticas al algoritmo y otros métodos similares

Desafortunadamente, el enfoque de Lesk es muy sensible a la redacción exacta de las definiciones, por lo que omitir una palabra específica puede cambiar drásticamente los resultados. Otra desventaja es que el algoritmo detecta superposiciones solo entre las interpretaciones de los significados que se consideran. Esta es una limitación importante, ya que las definiciones del diccionario tienden a ser bastante breves y no proporcionan suficiente vocabulario para mostrar la diferencia entre definiciones que tienen un significado similar.

Recientemente, ha aparecido una gran cantidad de trabajos que sugieren el uso de modificaciones del algoritmo Lesk. En estos trabajos se proponen ideas relacionadas con el uso adicional de varios diccionarios ( tesauros , diccionarios de sinónimos ) o modelos ( morfológicos , sintácticos , etc.), véase, por ejemplo [2] :

En cuanto al algoritmo de Lesk, hay muchos estudios y extensiones:

Kwong, 2001 [3] ;
Nastase y Szpakowicz, 2001 [4] ;
Wilks y Stevenson, 1998, 1999 [5] [6] ;
Mahesh y otros (Mahesh), 1997;
Cowie et al., (Cowie), 1992 [7] ;
Yarowsky , 1992 [8] ;
Pook y Catlett, 1988 [9] ;
Kilgarriff y Rosenzweig, 2000 [10] ;
Alexander Gelbukh, Grigory Sidorov, 2004 [11] .

Precisión del método

No se han llevado a cabo experimentos relativamente grandes para probar este método, excepto en el corpus del libro " Orgullo y prejuicio " y el periódico Associated Press . El resultado varió del 50% al 70%.

Notas

↑ 1 2 3 4 5 6 7 Lesk, Michael, 1986 .
↑ Cabe señalar que todas estas obras[ ¿Qué? ] , a excepción de (Nastase y Szpakowicz, 2001), se centran en el procesamiento de textos ordinarios, no de diccionarios , y ninguno de ellos utiliza el diccionario explicativo como material de procesamiento . Además, el asunto casi siempre se limita a experimentos más bien pequeños y no se realiza el procesamiento de conjuntos de datos suficientemente grandes.
↑ Kwong, 2001 .
↑ Nastase y Szpakowicz, 2001 .
↑ Wilks y Stevenson, 1998 .
↑ Wilks y Stevenson2, 1999 .
↑ Cowie y otros, 1992 .
↑ Yarowsky, 1992 .
↑ Pook y Catlett, 1988 .
↑ Rosenzweig y Kilgarriff, 2000 .
↑ Gelbukh y Sidorov, 2004 .

Literatura

Lesk, Michael. Desambiguación automática de sentidos mediante diccionarios legibles por máquina: Cómo diferenciar un cono de pino de un cono de helado // Actas de la 5ª Conferencia Internacional Anual sobre Documentación de Sistemas. - 1986. - S. 24-26 .
Agirre, E. y Edmonds, PG Desambiguación del sentido de las palabras: algoritmos y aplicaciones. - Springer, 2007. - ISBN 9781402048098 .

Gelbukh A.F., Sidorov G.O. Método de resolución automática de ambigüedad de significados de palabras en interpretaciones de diccionarios // Información científica y técnica (NTI), serie 2, Procesos y sistemas de información: revista. - M. : VINITI RAN, 2004. - Nº 3 . - S. 10-15 . — ISSN 0548-0027 .

Kwong OI formando un recurso léxico integrado para la desambiguación del sentido de las palabras . — 2001.

Nastase V. y Szpakowicz S. Unificación de relaciones semánticas a través de niveles sintácticos . - Ottawa, Canadá: Escuela de Ingeniería y Tecnología de la Información Universidad de Ottawa, 2001.

Wilks, Y., Stevenson M. Desambiguación del sentido de las palabras utilizando combinaciones optimizadas de fuentes de conocimiento (inglés) // Actas de ACL 36/Coling 17, Volumen 2. - 1998. - P. 1398-1402 .

Wilks, Y., Stevenson M. Combinación de fuentes débiles de conocimiento para la desambiguación de sentidos (inglés) // Actas de IJCAI-99. - 1999. - Pág. 884-889 .

Cowie J., Guthrie L., Guthrie G. Desambiguación léxica mediante recocido simulado // COLING '92 Actas de la 14ª conferencia sobre lingüística computacional - Volumen 1. - 1992. - P. 359-365 .

Yarowksy D. Desambiguación del sentido de las palabras utilizando modelos estadísticos de las categorías de Roget entrenadas en grandes corpus // Proceeding Coling'92 Actas de la 14ª conferencia sobre lingüística computacional, Volumen 2. - Nante, Francia, 1992. - P. 454 -460 .

Pook SL, Catlett J. Dar sentido a la búsqueda . — Sídney, 1988.

Kilgarriff A., Rosenzweig J. Marco y resultados para inglés SENSEVAL // Computadoras y humanidades: revista. - Editorial Académica Kluwer, 2000. - No. 34 . - P. 15-48 . — ISSN 1572-8412 .