El algoritmo de Lesk es un algoritmo clásico de desambiguación léxica basado en el conocimiento propuesto por Michael Lesk en 1986 .
Michael Lesk intentó resolver de forma independiente el problema de hacer coincidir una palabra y su significado en inglés utilizando diccionarios legibles por máquina . La idea del método era buscar el significado de una palabra en la lista de definiciones del diccionario, teniendo en cuenta el contexto donde se usa esa palabra . El principal criterio para elegir el significado fue la siguiente regla: el significado inherente a esta definición tenía que coincidir parcialmente con el significado de los significados de las palabras vecinas en el contexto [1] .
Como ejemplo, considere la tarea: determinar el significado de la palabra " gato " en el texto " Se han criado nuevas razas de gatos en China ". Digamos que el diccionario da dos definiciones para la palabra " gato ":
El algoritmo mostrará que con la definición (1) este texto tiene una palabra común : " producir ", pero con la definición (2) ninguna. Por lo tanto, el algoritmo de Lesk elegirá el valor " cat " 1 .
El algoritmo de Lesk no usa definiciones ya encontradas para encontrar los significados de nuevas palabras . El algoritmo mira cada palabra por separado, busca un significado para ella, al encontrar el significado correcto de una palabra , el algoritmo hace lo mismo con la siguiente palabra [1] .
Hay una gran cantidad de trabajos que sugieren el uso de una modificación del algoritmo Lesk. Estos estudios se basan en la idea de utilizar diferentes vocabularios (tesauros, diccionarios de sinónimos, etc.) o modelos (morfológicos, sintácticos, etc.) juntos. Todos estos trabajos están enfocados al procesamiento de diversos textos no diccionarios, y ninguno de ellos utiliza el diccionario explicativo como material de procesamiento. Además, casi siempre el proceso se limita a un pequeño número de experimentos y no se realiza el procesamiento de conjuntos de datos suficientemente grandes.
Como posibles formas de mejorar el algoritmo Lesk original, usamos información adicional sobre la similitud de las palabras y tomamos en cuenta la importancia de las coincidencias para diferentes palabras.
Como primer ejemplo del método Lesk modificado, podemos citar una variante del algoritmo, donde se utiliza como información adicional un diccionario de sinónimos, un modelo morfológico de formación de palabras, y también intervienen interpretaciones de las palabras incluidas en la interpretación original. .
Un punto importante es que el algoritmo de desambiguación de significado de palabras se aplica a interpretaciones tomadas del diccionario, lo que simplifica mucho la tarea en comparación con la aplicación del algoritmo a textos ordinarios, por las siguientes razones:
Como segundo ejemplo del método Lesk modificado, podemos dar una variante del algoritmo basada en dos hipótesis. La primera hipótesis es que las palabras que aparecen en una oración se pueden desambiguar asignándoles un significado que esté más cerca de las palabras vecinas. Esto se deriva de la noción intuitiva de que las palabras que aparecen juntas en la misma oración están necesariamente relacionadas de alguna manera, ya que al estar de acuerdo entre sí transmiten algún significado. La segunda hipótesis es que los significados relacionados pueden identificarse encontrando palabras en sus definiciones que ocurren en las interpretaciones de ambas palabras. Esta hipótesis también puede justificarse con la ayuda de una noción intuitiva, a saber, que las palabras que están relacionadas en significado pueden definirse con los mismos términos y también pueden referirse entre sí en sus definiciones.
Como ejemplo, considere dos significados de la palabra " caleidoscopio ":
Y el texto "Los hermosos patrones de color del caleidoscopio fascinan tanto a adultos como a niños". Con la primera definición, este texto tiene dos palabras en común, y con la segunda, ninguna. Por lo tanto, el algoritmo de Lesk elegirá el primer valor.
Desafortunadamente, el enfoque de Lesk es muy sensible a la redacción exacta de las definiciones, por lo que omitir una palabra específica puede cambiar drásticamente los resultados. Otra desventaja es que el algoritmo detecta superposiciones solo entre las interpretaciones de los significados que se consideran. Esta es una limitación importante, ya que las definiciones del diccionario tienden a ser bastante breves y no proporcionan suficiente vocabulario para mostrar la diferencia entre definiciones que tienen un significado similar.
Recientemente, ha aparecido una gran cantidad de trabajos que sugieren el uso de modificaciones del algoritmo Lesk. En estos trabajos se proponen ideas relacionadas con el uso adicional de varios diccionarios ( tesauros , diccionarios de sinónimos ) o modelos ( morfológicos , sintácticos , etc.), véase, por ejemplo [2] :
En cuanto al algoritmo de Lesk, hay muchos estudios y extensiones:
No se han llevado a cabo experimentos relativamente grandes para probar este método, excepto en el corpus del libro " Orgullo y prejuicio " y el periódico Associated Press . El resultado varió del 50% al 70%.