Recepción automática del corpus marcado

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 9 de agosto de 2019; las comprobaciones requieren 4 ediciones .

Si los métodos de aprendizaje no supervisados ​​se basan en un corpus no anotado (no etiquetado) en el problema de desambiguación , entonces el aprendizaje supervisado depende fundamentalmente de un corpus de prueba etiquetado. El problema de obtener suficiente conocimiento es uno de los obstáculos más importantes en la implementación de algoritmos de aprendizaje altamente eficientes . Sin embargo, si el algoritmo no es implementado por eventos tan grandes en términos de recursos como Senseval, sino por uno más pequeño, entonces en tales casos no es posible obtener un corpus anotado de alta calidad debido a los enormes costos de mano de obra que se requieren. para realizar este proceso manualmente. Por lo tanto, los investigadores que necesitaban dichos corpus se enfrentaron a la tarea de obtener un corpus etiquetado automáticamente.

La salida es encontrar automáticamente tales contextos en los que la palabra polisemántica deseada con un 100% de probabilidad tome el valor que necesitamos. Y tales métodos han sido inventados; hay varias formas que son fundamentalmente diferentes entre sí.

Soluciones existentes

Una de las soluciones es un algoritmo desarrollado por Rada Michelsia [1] y basado en la obtención de contextos de motores de búsqueda (como Google o Yandex) utilizando el conocimiento disponible en el tesauro. Todo el proceso de obtención de un corpus consta de tres etapas: preprocesamiento, búsqueda y posprocesamiento.

  1. Preprocesamiento. Para cada palabra w y su valor #i, se toman sus sinónimos de un solo valor, así como las palabras obtenidas después de procesar la glosa (interpretación del diccionario, explicaciones gramaticales, ejemplos del uso de la palabra en varios contextos, etc.)
  2. Búsqueda. Luego, en la etapa de búsqueda, se forman consultas de búsqueda que ayudan a encontrar exactamente aquellos contextos en los que la palabra dada está presente en el significado que necesitamos.
  3. Postprocesamiento. Después de eso, los contextos recibidos se procesan, los malos se filtran, etc.

La eficiencia del método permite obtener una gran cantidad de contextos, de los cuales aproximadamente el 91% son correctos, lo que es un resultado bastante alto, suficiente para el aprendizaje automático. Además, este método tiene sucesores y predecesores (por ejemplo, el algoritmo de Leacock y Chodorow), pero no todos se han comparado con él en términos de eficiencia.

El segundo método, acuñado por Jarowski [2] y a menudo llamado bootstrapping, propone, a partir de un pequeño número de ejemplos definidos manualmente (los llamados ejemplos semilla), expandir clases de forma automática e iterativa, dividiendo los contextos restantes en el texto sin formato. en clases, obteniendo así una muestra de entrenamiento. Al mismo tiempo, cosas como “un sentido por colocación” y “un sentido por discurso” se toman como un axioma. Sin embargo, este método también es menos preciso que el método de Mihalcea, ya que en este caso no se obtienen contextos unívocos .

Además, existen 3 métodos más [3] que son prácticamente inaplicables al idioma ruso:

Resultado

Resultados

La obtención automática de ejemplos para el entrenamiento de clasificadores (aprendizaje supervisado) ha demostrado ser el mejor enfoque de minería de Internet para la resolución de desambiguación léxica . Estos son algunos resultados alentadores:

Problemas

Sin embargo, también existen ciertos problemas y dificultades directamente relacionados con la obtención de tal caso:

El futuro de la región

Además de las técnicas anteriores para obtener un corpus de la web, también se han realizado otros experimentos utilizando Internet:

Sin embargo, las posibilidades que abre y brinda Internet aún no han sido exploradas en su totalidad. Por ejemplo, se sabe poco sobre cómo utilizar la información léxica obtenida de los sistemas de desambiguación basados ​​en el conocimiento; y tampoco está claro cómo obtener corpus paralelos de Internet , aunque ya existen algoritmos eficientes para procesar dichos corpus. Por lo tanto, deberíamos esperar muchos más resultados interesantes en esta área en un futuro próximo.

Notas

  1. Rada Mihalcea, Dan moldavo. Un método automático para generar corpus etiquetados con sentido.
  2. ^ Yarowsky, D. "Desambiguación de sentido de palabra no supervisada que rivaliza con métodos supervisados". Actas de la 33ª Reunión Anual de la Asociación de Lingüística Computacional. Cambridge, MA, págs. 189-196, 1995.
  3. Desambiguación del sentido de las palabras: algoritmos y aplicaciones, editado por Eneko Agirre y Philip Edmonds (2006), Springer.
  4. Mihalcea, Rada. 2002. Bootstrapping grandes corpus etiquetados con sentido. Actas de la Conferencia de Evaluación y Recursos Lingüísticos (LREC), Las Palmas, España.
  5. 1 2 3 Santamaría, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Asociación automática de directorios web a sentidos de palabras. Lingüística Computacional, 29(3): 485-502.
  6. Agirre, Eneko y David Martínez. 2004. WSD no supervisado basado en ejemplos recuperados automáticamente: La importancia del sesgo. Actas de la Conferencia sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural (EMNLP), Barcelona, ​​España, 25-33.
  7. Mihalcea, Rada. 2002a. Desambiguación del sentido de las palabras con aprendizaje de patrones y selección automática de características. Ingeniería del Lenguaje Natural, 8(4): 348-358.
  8. 1 2 Agirre, Eneko y David Martínez. 2000. Exploración de la desambiguación automática del sentido de las palabras con listas de decisiones y la Web. Actas del taller COLING sobre anotación semántica y anotación inteligente, Luxemburgo, 11-19.
  9. 1 2 3 Agirre, Eneko y David Martínez. 2004. WSD no supervisado basado en ejemplos recuperados automáticamente: La importancia del sesgo. Actas de la Conferencia sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural (EMNLP), Barcelona, ​​España, 25-33.
  10. 1 2 Mihalcea, Rada. 2002b. Bootstrapping grandes corpus etiquetados con sentido. Actas de la Conferencia de Evaluación y Recursos Lingüísticos (LREC), Las Palmas, España.
  11. Mihalcea, Rada y Dan Moldovan. 1999. Un método automático para generar corpus etiquetados con sentido. Procedimientos de la Asociación Estadounidense de Inteligencia Artificial (AAAI), Orlando, EE. UU., 461-466.
  12. Chklovski, Tim y Rada Mihalcea. 2002. Construcción de un corpus de sentido etiquetado con Open Mind Word Expert. Actas del taller ACL SIGLEX sobre desambiguación del sentido de las palabras: éxitos recientes y direcciones futuras, Filadelfia, EE. UU., 116-122.
  13. Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Martínez. 2000. Enriquecimiento de ontologías muy grandes utilizando la WWW. Actas del Taller de Aprendizaje de Ontología, Conferencia Europea sobre Inteligencia Artificial (ECAI), Berlín, Alemania.
  14. Denis Turdakov, Pavel Velikhov. Métrica de relación semántica para conceptos de Wikipedia basada en el análisis de enlaces y su aplicación a la desambiguación del sentido de las palabras // SYRCoDIS.— 2008.
  15. Denis Turdakov. Eliminación de la polisemia léxica de los términos de Wikipedia basada en el modelo oculto de Markov // XI Conferencia científica de toda Rusia "Bibliotecas digitales: métodos y tecnologías avanzados, colecciones digitales" - 2009. head (ruso) Copia de archivo del 5 de julio de 2010 en Wayback Máquina