Vinculación de entidades nombradas

La vinculación de entidades nombradas (del inglés.  Named Entity Linking , NEL ) es una tarea que consiste en determinar la identidad de las entidades mencionadas en el texto. Considere, por ejemplo, la oración "Iré a Kirov este fin de semana". La esencia de vincular, en este caso, será correlacionar la palabra "Kirov" con la ciudad de Kirov, y no con una persona llamada Kirov, ni con ninguna otra cosa. NEL se diferencia del reconocimiento de entidad nombrada (NER) en que NER determina el tipo de entidad a la que se hace referencia (persona, ubicación geográfica, organización, etc.), pero no asocia la entidad con ninguna entidad en particular.

La vinculación de entidades nombradas requiere una base de conocimiento que contenga las entidades (o conceptos) con las que se pueden vincular las referencias. Una solución popular para vincular entidades en texto de código abierto son las bases de conocimiento basadas en Wikipedia [1] [2] , en las que cada página es una entidad con nombre. Los NEL que usan entidades de Wikipedia a veces se denominan wikificaciones .  La base de conocimiento también puede obtenerse automáticamente del texto de capacitación [3] o construirse manualmente [4] .

Las referencias a entidades nombradas pueden ser sustancialmente ambiguas, cualquier método de vinculación debe ser capaz de resolver esta ambigüedad. Se han intentado muchos enfoques para resolver este problema. Milne y Witten propusieron una solución fructífera a este problema y se basó en el aprendizaje supervisado utilizando el texto del enlace de wikipedia como datos de entrenamiento. [5] Kulkarni y otros utilizaron la propiedad común de documentos relacionados para referirse a entidades de tipos fuertemente relacionados. [6] La lista de sistemas de vinculación de entidades nombradas de última generación incluye AIDA, [7] AGDISTIS, [8] Babelfy [9] y TagMe. [diez]

La vinculación de entidades nombradas se utiliza para mejorar la calidad de los sistemas de recuperación de información [1] y para mejorar la calidad de las bibliotecas digitales. [11] [12] NEL es también la clave para construir la búsqueda semántica [13] . Por ejemplo, NEL se ha aplicado con éxito para validar el resultado de los métodos de reconocimiento de entidades nombradas utilizando el supuesto de que cada texto tiene un alcance y contexto específicos y, por lo tanto, las entidades mencionadas en este texto deben tener una relación semántica entre sí [14] . La medición de proximidad semántica se puede utilizar para filtrar errores en la identificación de entidades fuera de contexto, incluso cuando son posibles múltiples interpretaciones para una sola mención.

La NEL ( campañas de evaluación de vinculación de entidades ) está organizada por el Instituto Nacional de Estándares y Tecnología ( NIST ) de EE. UU. en el contexto de la tarea Población de base de conocimiento de la Conferencia de análisis de texto.

Notas

  1. 1 2 M. A. Khalid, V. Jijkoun y M. de Rijke (2008). El impacto de la normalización de entidades nombradas en la recuperación de información para responder preguntas  (enlace muerto) . proc. ECIR.
  2. Xianpei Han, Le Sun y Jun Zhao (2011). Vinculación de entidades colectivas en texto web: un método basado en gráficos Archivado el 5 de marzo de 2016 en Wayback Machine . proc. SIGIR.
  3. Aaron M. Cohen (2005). Normalización de entidad nombrada de gen/proteína no supervisada utilizando diccionarios extraídos automáticamente. proc. Taller ACL -ISMB sobre vinculación de literatura biológica, ontologías y bases de datos: minería de semántica biológica, pp. 17-24.
  4. Wikipedia
  5. David Milne e Ian H. Witten (2008). Aprendiendo a enlazar con Wikipedia. proc. CIKM.
  6. Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Anotación colectiva de entidades de Wikipedia en texto web . proc. 15ª Conferencia Internacional ACM SIGKDD. sobre Descubrimiento de Conocimiento y Minería de Datos (KDD). DOI : 10.1145/1557019.1557073 . ISBN  9781605584959 .
  7. Hoffart, J., Yosef, M.A., Bordino, I., Fürstenau, H., Pinkal, M., Spaniol, M., Taneva, B., Thater, S. y Weikum, G. (2011). Desambiguación robusta de entidades nombradas en texto Archivado el 29 de marzo de 2017 en Wayback Machine . En EMNLP
  8. Usbeck, R., Ngomo, AN, Röder, M., Gerber, D., Coelho, SA, Auer, S. y Both, A. (2014). AGDISTIS: desambiguación basada en gráficos de entidades nombradas utilizando datos vinculados. En ISWC Archivado el 17 de noviembre de 2015 en Wayback Machine .
  9. Moro, A., Raganato, A. y Navigli, R. (2014). La vinculación de entidades se encuentra con la desambiguación del sentido de las palabras: un enfoque unificado . Archivado el 13 de julio de 2017 en Wayback Machine .
  10. TAGME: ¡anotación sobre la marcha de fragmentos de texto cortos! . tagme.d4science.org . Consultado el 25 de septiembre de 2016. Archivado desde el original el 27 de septiembre de 2016.
  11. Hui Han, Hongyuan Zha, C. Lee Giles, "Desambiguación de nombres en citas de autores usando un método de agrupamiento espectral de vías K", Conferencia conjunta ACM/IEEE sobre bibliotecas digitales 2005 (JCDL 2005): 334–343, 2005
  12. ^ Deutsche Nationalbibliothek - Proyectos - Evaluación de un proceso NERD . Fecha de acceso: 25 de diciembre de 2016. Archivado desde el original el 5 de enero de 2018.
  13. STICS . Consultado el 25 de diciembre de 2016. Archivado desde el original el 1 de septiembre de 2021.
  14. Grego, Tiago; Couto, Francisco. Identificación de entidades químicas en documentos de patente  (inglés)  // PLOS One  : revista. - 2013. - doi : 10.1145/1557019.1557073 .