Método de andamio

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 3 de octubre de 2017; la verificación requiere 1 edición .

El algoritmo de Lesk  es un algoritmo clásico de desambiguación léxica basado en el conocimiento propuesto por Michael Lesk en 1986 .

Descripción

Michael Lesk intentó resolver de forma independiente el problema de hacer coincidir una palabra y su significado en inglés utilizando diccionarios legibles por máquina . La idea del método era buscar el significado de una palabra en la lista de definiciones del diccionario, teniendo en cuenta el contexto donde se usa esa palabra . El principal criterio para elegir el significado fue la siguiente regla: el significado inherente a esta definición tenía que coincidir parcialmente con el significado de los significados de las palabras vecinas en el contexto [1] .

Cómo funciona el algoritmo

  1. Separación del contexto de la palabra en cuestión: no más de 10 palabras  en la posición más cercana .
  2. Busque todas las definiciones en el diccionario (cualquier otra fuente de conocimiento similar) para la palabra en cuestión .
  3. Busque palabras del contexto en cada definición encontrada. Si alguna palabra del contexto está presente en la definición, entonces esta definición recibe una puntuación (el porcentaje de corrección de la definición para este contexto aumenta ).
  4. Como valor más probable se elige aquel para el cual dicha intersección resultó ser mayor.

Un ejemplo de cómo funciona el algoritmo

Como ejemplo, considere la tarea: determinar el significado de la palabra " gato " en el texto " Se han criado nuevas razas de gatos en China ". Digamos que el diccionario da dos definiciones para la palabra " gato ":

  1. " gato " 1  - un animal doméstico de la raza gato;
  2. " Cat " 2  es un equipo de escalada.

El algoritmo mostrará que con la definición (1) este texto tiene una palabra común  : " producir ", pero con la definición (2) ninguna. Por lo tanto, el algoritmo de Lesk elegirá el valor " cat " 1 .

Método Notas del autor

Beneficios del algoritmo

Desventajas del algoritmo

El algoritmo de Lesk no usa definiciones ya encontradas para encontrar los significados de nuevas palabras . El algoritmo mira cada palabra por separado, busca un significado para ella, al encontrar el significado correcto de una palabra , el algoritmo hace lo mismo con la siguiente palabra [1] .

Modificaciones del algoritmo

Hay una gran cantidad de trabajos que sugieren el uso de una modificación del algoritmo Lesk. Estos estudios se basan en la idea de utilizar diferentes vocabularios (tesauros, diccionarios de sinónimos, etc.) o modelos (morfológicos, sintácticos, etc.) juntos. Todos estos trabajos están enfocados al procesamiento de diversos textos no diccionarios, y ninguno de ellos utiliza el diccionario explicativo como material de procesamiento. Además, casi siempre el proceso se limita a un pequeño número de experimentos y no se realiza el procesamiento de conjuntos de datos suficientemente grandes.

Mejorando el método

Como posibles formas de mejorar el algoritmo Lesk original, usamos información adicional sobre la similitud de las palabras y tomamos en cuenta la importancia de las coincidencias para diferentes palabras.

Como primer ejemplo del método Lesk modificado, podemos citar una variante del algoritmo, donde se utiliza como información adicional un diccionario de sinónimos, un modelo morfológico de formación de palabras, y también intervienen interpretaciones de las palabras incluidas en la interpretación original. .

Un punto importante es que el algoritmo de desambiguación de significado de palabras se aplica a interpretaciones tomadas del diccionario, lo que simplifica mucho la tarea en comparación con la aplicación del algoritmo a textos ordinarios, por las siguientes razones:

Como segundo ejemplo del método Lesk modificado, podemos dar una variante del algoritmo basada en dos hipótesis. La primera hipótesis es que las palabras que aparecen en una oración se pueden desambiguar asignándoles un significado que esté más cerca de las palabras vecinas. Esto se deriva de la noción intuitiva de que las palabras que aparecen juntas en la misma oración están necesariamente relacionadas de alguna manera, ya que al estar de acuerdo entre sí transmiten algún significado. La segunda hipótesis es que los significados relacionados pueden identificarse encontrando palabras en sus definiciones que ocurren en las interpretaciones de ambas palabras. Esta hipótesis también puede justificarse con la ayuda de una noción intuitiva, a saber, que las palabras que están relacionadas en significado pueden definirse con los mismos términos y también pueden referirse entre sí en sus definiciones.

Como ejemplo, considere dos significados de la palabra " caleidoscopio ":

  1. un dispositivo óptico: un tubo con placas de espejo y lentes de colores que, cuando se giran, se doblan en varios patrones;
  2. cambio rápido de varios fenómenos.

Y el texto "Los hermosos patrones de color del caleidoscopio fascinan tanto a adultos como a niños". Con la primera definición, este texto tiene dos palabras en común, y con la segunda, ninguna. Por lo tanto, el algoritmo de Lesk elegirá el primer valor.

Críticas al algoritmo y otros métodos similares

Desafortunadamente, el enfoque de Lesk es muy sensible a la redacción exacta de las definiciones, por lo que omitir una palabra específica puede cambiar drásticamente los resultados. Otra desventaja es que el algoritmo detecta superposiciones solo entre las interpretaciones de los significados que se consideran. Esta es una limitación importante, ya que las definiciones del diccionario tienden a ser bastante breves y no proporcionan suficiente vocabulario para mostrar la diferencia entre definiciones que tienen un significado similar.

Recientemente, ha aparecido una gran cantidad de trabajos que sugieren el uso de modificaciones del algoritmo Lesk. En estos trabajos se proponen ideas relacionadas con el uso adicional de varios diccionarios ( tesauros , diccionarios de sinónimos ) o modelos ( morfológicos , sintácticos , etc.), véase, por ejemplo [2] :

En cuanto al algoritmo de Lesk, hay muchos estudios y extensiones:

Precisión del método

No se han llevado a cabo experimentos relativamente grandes para probar este método, excepto en el corpus del libro " Orgullo y prejuicio " y el periódico Associated Press . El resultado varió del 50% al 70%.

Notas

  1. 1 2 3 4 5 6 7 Lesk, Michael, 1986 .
  2. Cabe señalar que todas estas obras[ ¿Qué? ] , a excepción de (Nastase y Szpakowicz, 2001), se centran en el procesamiento de textos ordinarios, no de diccionarios , y ninguno de ellos utiliza el diccionario explicativo como material de procesamiento . Además, el asunto casi siempre se limita a experimentos más bien pequeños y no se realiza el procesamiento de conjuntos de datos suficientemente grandes.
  3. Kwong, 2001 .
  4. Nastase y Szpakowicz, 2001 .
  5. Wilks y Stevenson, 1998 .
  6. Wilks y Stevenson2, 1999 .
  7. Cowie y otros, 1992 .
  8. Yarowsky, 1992 .
  9. Pook y Catlett, 1988 .
  10. Rosenzweig y Kilgarriff, 2000 .
  11. Gelbukh y Sidorov, 2004 .

Literatura