Recepción automática del corpus marcado
La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la
versión revisada el 9 de agosto de 2019; las comprobaciones requieren
4 ediciones .
Si los métodos de aprendizaje no supervisados se basan en un corpus no anotado (no etiquetado) en el problema de desambiguación , entonces el aprendizaje supervisado depende fundamentalmente de un corpus de prueba etiquetado. El problema de obtener suficiente conocimiento es uno de los obstáculos más importantes en la implementación de algoritmos de aprendizaje altamente eficientes . Sin embargo, si el algoritmo no es implementado por eventos tan grandes en términos de recursos como Senseval, sino por uno más pequeño, entonces en tales casos no es posible obtener un corpus anotado de alta calidad debido a los enormes costos de mano de obra que se requieren. para realizar este proceso manualmente. Por lo tanto, los investigadores que necesitaban dichos corpus se enfrentaron a la tarea de obtener un corpus etiquetado automáticamente.
La salida es encontrar automáticamente tales contextos en los que la palabra polisemántica deseada con un 100% de probabilidad tome el valor que necesitamos. Y tales métodos han sido inventados; hay varias formas que son fundamentalmente diferentes entre sí.
Soluciones existentes
Una de las soluciones es un algoritmo desarrollado por Rada Michelsia [1] y basado en la obtención de contextos de motores de búsqueda (como Google o Yandex) utilizando el conocimiento disponible en el tesauro. Todo el proceso de obtención de un corpus consta de tres etapas: preprocesamiento, búsqueda y posprocesamiento.
- Preprocesamiento. Para cada palabra w y su valor #i, se toman sus sinónimos de un solo valor, así como las palabras obtenidas después de procesar la glosa (interpretación del diccionario, explicaciones gramaticales, ejemplos del uso de la palabra en varios contextos, etc.)
- Búsqueda. Luego, en la etapa de búsqueda, se forman consultas de búsqueda que ayudan a encontrar exactamente aquellos contextos en los que la palabra dada está presente en el significado que necesitamos.
- Postprocesamiento. Después de eso, los contextos recibidos se procesan, los malos se filtran, etc.
La eficiencia del método permite obtener una gran cantidad de contextos, de los cuales aproximadamente el 91% son correctos, lo que es un resultado bastante alto, suficiente para el aprendizaje automático. Además, este método tiene sucesores y predecesores (por ejemplo, el algoritmo de Leacock y Chodorow), pero no todos se han comparado con él en términos de eficiencia.
El segundo método, acuñado por Jarowski [2] y a menudo llamado bootstrapping, propone, a partir de un pequeño número de ejemplos definidos manualmente (los llamados ejemplos semilla), expandir clases de forma automática e iterativa, dividiendo los contextos restantes en el texto sin formato. en clases, obteniendo así una muestra de entrenamiento. Al mismo tiempo, cosas como “un sentido por colocación” y “un sentido por discurso” se toman como un axioma. Sin embargo, este método también es menos preciso que el método de Mihalcea, ya que en este caso no se obtienen contextos unívocos .
Además, existen 3 métodos más [3] que son prácticamente inaplicables al idioma ruso:
- Directorios de páginas web (como Open Directory Project );
- textos bilingües alineados (sin embargo, a pesar del rápido crecimiento de dichos materiales, su número aún no es lo suficientemente grande para el idioma ruso);
- trabajo colaborativo estilo wiki (proyecto Open Mind Word Expert): el principio es que los casos fáciles de resolución de ambigüedades son resueltos por una máquina, los difíciles se muestran a voluntarios en Internet; este método, lamentablemente, no mostró resultados suficientemente altos debido a la falta de profesionalismo de los voluntarios (62,8% de acuerdo entre las personas en comparación con el 85,5% en Senseval).
Resultado
Resultados
La obtención automática de ejemplos para el entrenamiento de clasificadores (aprendizaje supervisado) ha demostrado ser el mejor enfoque de minería de Internet para la resolución de desambiguación léxica . Estos son algunos resultados alentadores:
- En algunos experimentos , la calidad de los datos de Internet fue casi igual a la calidad de un corpus hecho por humanos: una combinación de obtención con la ayuda de sinónimos inequívocos y arranque de ejemplos de SemCor [4] y ejemplos obtenidos de ODP [5] . En el primero, sin embargo, los ejemplos de SemCor son necesarios y existen solo para el idioma inglés, y las pruebas se realizaron con muy pocos sustantivos, y en el segundo, la cobertura del experimento es demasiado pequeña y no se sabe cuánto. la calidad del corpus resultante se deteriora cuando se incrementa.
- Además, se ha demostrado [6] que casi cualquier técnica de aprendizaje supervisado entrenada en corpus recuperados automáticamente de Internet supera a todas las técnicas de aprendizaje no supervisado involucradas en Senseval -2.
- Los ejemplos de Internet han sido de gran beneficio en términos de eficiencia para los mejores algoritmos de palabras en inglés en Senseval-2 [7] .
Problemas
Sin embargo, también existen ciertos problemas y dificultades directamente relacionados con la obtención de tal caso:
- La buena calidad de los ejemplos recibidos (es decir, la correcta pertenencia de los ejemplos a las clases de valor) no garantiza necesariamente la alta precisión del clasificador [8] .
- Los experimentos más objetivos sobre la evaluación de la calidad de los ejemplos obtenidos mostraron [9] que el entrenamiento en estos ejemplos aumenta significativamente el nivel de precisión de la resolución de ambigüedades, sin embargo, los resultados están lejos de ser ideales: no son peores que los obtenidos manualmente. , ni siquiera superan la calidad obtenida con la línea base de sentido más frecuente.
- Los resultados no siempre son repetibles: los mismos métodos o métodos similares pueden conducir a diferentes resultados en diferentes experimentos. A modo de comparación, se pueden comparar experimentos: Mihalcea (2002 [10] ) con Agirre y Martínez (2004 [9] ), o Agirre y Martínez (2000 [8] ) con Mihalcea y Moldovan (1999 [11] ). Los resultados obtenidos a través de Internet mostraron que los datos son muy sensibles incluso a pequeños cambios en el algoritmo de entrenamiento, incluso a la fecha de recepción del corpus (los resultados del motor de búsqueda cambian constantemente) y a problemas heurísticos imperceptibles (por ejemplo, diferencias en filtros para descartar algunos de los ejemplos recibidos).
- Los resultados están fuertemente influenciados por un fenómeno como "sesgo" (es decir, la proporción de la frecuencia de ejemplos de algunos significados de la palabra en comparación con otros [9] ). Por lo tanto, no está del todo claro si esto es solo un problema con la información de Internet, o si es un problema inherente al aprendizaje supervisado, o si es un problema en cómo se evalúan los métodos (de hecho, la cantidad relativamente pequeña de datos de Senseval es muy posiblemente no es tan representativo en comparación con todo Internet como corpus).
- En cualquier caso, los datos de Internet están sesgados porque las consultas a los motores de búsqueda limitan directamente el conjunto de contextos recibidos. Existen enfoques para mitigar este efecto, tales como: usar múltiples semillas o consultas para cada uno de los significados de la palabra [10] o asignar valores a las categorías apropiadas de los directorios de sitios web [5] ; sin embargo, este problema aún está lejos de resolverse por completo.
- Para cualquier corpus de contextos recibido, el problema con la licencia para su uso no siempre está claro (el componente legal no está claro).
El futuro de la región
Además de las técnicas anteriores para obtener un corpus de la web, también se han realizado otros experimentos utilizando Internet:
- Internet como red social se ha utilizado con éxito varias veces para la anotación colaborativa por parte de usuarios anónimos (proyecto OMWE, proyecto Open Mind Word Expert) [12] : ya se ha utilizado tres veces para tareas de Senseval-3 (para inglés, rumano y tarea multilingüe).
- Internet también se ha utilizado para enriquecer los valores de WordNet con información específica del dominio: las llamadas firmas de temas [13] y los directorios web [5] que se han utilizado con éxito para resolver la ambigüedad .
- También se han realizado investigaciones recientemente para explorar la posibilidad de usar Wikipedia para resolver las ambigüedades enumeradas en las páginas de significado de palabras ambiguas [14] [15] .
Sin embargo, las posibilidades que abre y brinda Internet aún no han sido exploradas en su totalidad. Por ejemplo, se sabe poco sobre cómo utilizar la información léxica obtenida de los sistemas de desambiguación basados en el conocimiento; y tampoco está claro cómo obtener corpus paralelos de Internet , aunque ya existen algoritmos eficientes para procesar dichos corpus. Por lo tanto, deberíamos esperar muchos más resultados interesantes en esta área en un futuro próximo.
Notas
- ↑ Rada Mihalcea, Dan moldavo. Un método automático para generar corpus etiquetados con sentido.
- ^ Yarowsky, D. "Desambiguación de sentido de palabra no supervisada que rivaliza con métodos supervisados". Actas de la 33ª Reunión Anual de la Asociación de Lingüística Computacional. Cambridge, MA, págs. 189-196, 1995.
- ↑ Desambiguación del sentido de las palabras: algoritmos y aplicaciones, editado por Eneko Agirre y Philip Edmonds (2006), Springer.
- ↑ Mihalcea, Rada. 2002. Bootstrapping grandes corpus etiquetados con sentido. Actas de la Conferencia de Evaluación y Recursos Lingüísticos (LREC), Las Palmas, España.
- ↑ 1 2 3 Santamaría, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Asociación automática de directorios web a sentidos de palabras. Lingüística Computacional, 29(3): 485-502.
- ↑ Agirre, Eneko y David Martínez. 2004. WSD no supervisado basado en ejemplos recuperados automáticamente: La importancia del sesgo. Actas de la Conferencia sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural (EMNLP), Barcelona, España, 25-33.
- ↑ Mihalcea, Rada. 2002a. Desambiguación del sentido de las palabras con aprendizaje de patrones y selección automática de características. Ingeniería del Lenguaje Natural, 8(4): 348-358.
- ↑ 1 2 Agirre, Eneko y David Martínez. 2000. Exploración de la desambiguación automática del sentido de las palabras con listas de decisiones y la Web. Actas del taller COLING sobre anotación semántica y anotación inteligente, Luxemburgo, 11-19.
- ↑ 1 2 3 Agirre, Eneko y David Martínez. 2004. WSD no supervisado basado en ejemplos recuperados automáticamente: La importancia del sesgo. Actas de la Conferencia sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural (EMNLP), Barcelona, España, 25-33.
- ↑ 1 2 Mihalcea, Rada. 2002b. Bootstrapping grandes corpus etiquetados con sentido. Actas de la Conferencia de Evaluación y Recursos Lingüísticos (LREC), Las Palmas, España.
- ↑ Mihalcea, Rada y Dan Moldovan. 1999. Un método automático para generar corpus etiquetados con sentido. Procedimientos de la Asociación Estadounidense de Inteligencia Artificial (AAAI), Orlando, EE. UU., 461-466.
- ↑ Chklovski, Tim y Rada Mihalcea. 2002. Construcción de un corpus de sentido etiquetado con Open Mind Word Expert. Actas del taller ACL SIGLEX sobre desambiguación del sentido de las palabras: éxitos recientes y direcciones futuras, Filadelfia, EE. UU., 116-122.
- ↑ Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Martínez. 2000. Enriquecimiento de ontologías muy grandes utilizando la WWW. Actas del Taller de Aprendizaje de Ontología, Conferencia Europea sobre Inteligencia Artificial (ECAI), Berlín, Alemania.
- ↑ Denis Turdakov, Pavel Velikhov. Métrica de relación semántica para conceptos de Wikipedia basada en el análisis de enlaces y su aplicación a la desambiguación del sentido de las palabras // SYRCoDIS.— 2008.
- ↑ Denis Turdakov. Eliminación de la polisemia léxica de los términos de Wikipedia basada en el modelo oculto de Markov // XI Conferencia científica de toda Rusia "Bibliotecas digitales: métodos y tecnologías avanzados, colecciones digitales" - 2009. head (ruso) Copia de archivo del 5 de julio de 2010 en Wayback Máquina