Modelado Temático

El modelado de temas  es una forma de construir un modelo de una colección de documentos de texto que determina a qué temas pertenece cada documento [1] .

El modelo de tema ( modelo de tema en inglés  ) de una colección de documentos de texto determina a qué temas pertenece cada documento y qué palabras (términos) forman cada tema [2] .

La transición del espacio de los términos al espacio de los temas encontrados ayuda a resolver la sinonimia y la polisemia de los términos, así como a resolver de manera más efectiva problemas como la búsqueda temática , la clasificación , el resumen y la anotación de colecciones de documentos y flujos de noticias.

El modelado de temas, como un tipo de modelo estadístico para encontrar temas ocultos que se encuentran en una colección de documentos, se ha abierto camino en áreas como el aprendizaje automático y el procesamiento del lenguaje natural . Los investigadores utilizan varios modelos de temas para analizar textos, archivos de texto de documentos, para analizar cambios en temas en conjuntos de documentos . Al comprender intuitivamente que el documento se refiere a un tema determinado, en documentos dedicados a un tema, puede encontrar algunas palabras con más frecuencia que otras. Por ejemplo: “perro” y “hueso” aparecerán con mayor frecuencia en documentos sobre perros, “gatos” y “leche” ocurrirán en documentos sobre gatitos, las preposiciones “y” y “en” ocurrirán en ambos temas. Por lo general, un documento trata varios temas en diferentes proporciones, por lo que se puede suponer que un documento en el que el 10% del tema son gatos y el 90% son perros tiene 9 veces más palabras sobre perros. El modelado de temas refleja esta intuición en una estructura matemática que permite, a partir del estudio de una colección de documentos y el estudio de las características de frecuencia de las palabras en cada documento, concluir que cada documento es un cierto equilibrio de temas.

Los más utilizados en las aplicaciones modernas son los enfoques basados ​​en redes bayesianas  : modelos probabilísticos en grafos dirigidos . Los modelos de tópicos probabilísticos son un área de investigación relativamente joven en la teoría del autoaprendizaje . Uno de los primeros propusieron el análisis semántico probabilístico latente (PLSA), basado en el principio de máxima verosimilitud , como alternativa a los métodos clásicos de agrupamiento , basados ​​en el cálculo de funciones de distancia. Siguiendo a PLSA, se propuso el método de asignación latente de Dirichlet y sus numerosas generalizaciones [3] .

Los modelos de temas probabilísticos realizan un agrupamiento "suave", lo que permite que un documento o término se relacione con varios temas a la vez con diferentes probabilidades. Los modelos de temas probabilísticos describen cada tema mediante una distribución discreta sobre un conjunto de términos, cada documento mediante una distribución discreta sobre un conjunto de temas. Se supone que una colección de documentos es una secuencia de términos elegidos al azar e independientemente de una mezcla de tales distribuciones, y la tarea es restaurar los componentes de la mezcla de la muestra [4] .

Aunque el modelado de temas se ha descrito y aplicado tradicionalmente en el procesamiento del lenguaje natural, también se ha abierto camino en otros campos, como la bioinformática .

Historia

La primera descripción del modelado de temas apareció en un artículo de 1998 de Ragawan, Papadimitriou, Tomaki y Vempola [5] . Thomas Hofmann en 1999 [6] propuso la indexación semántica latente probabilística (PLSI). Uno de los modelos tópicos más comunes es la colocación latente de Dirichlet (LDA), este modelo es una generalización de la indexación semántica probabilística y fue desarrollado por David Blei , Andrew Ng y Michael Jordan ( inglés Michael  I. Jordan ) [en 2002 . Otros modelos de temas tienden a ser extensiones de LDA, por ejemplo, la colocación de pachinko mejora LDA al introducir coeficientes de correlación adicionales para cada palabra que forma un tema.  

Estudios de casos

Templeton revisó el trabajo sobre el modelado de temas en las humanidades, agrupados en enfoques sincrónicos y diacrónicos [8] . Los enfoques sincrónicos resaltan temas en algún momento, por ejemplo, Jockers usó un modelo de tema para explorar lo que escribieron los bloggers en el Día de las Humanidades Digitales en 2010 [9] .

Enfoques diacrónicos, incluida la definición de Block y Newman de la dinámica temporal de los temas en la Pennsylvania Gazette de 1728-1800 [10] . Griffiths y Stavers utilizaron modelos de temas para las reseñas de las revistas PNAS , determinando el cambio en la popularidad de los temas entre 1991 y 2001 [11] . Blevin creó un modelo temático para el diario de Martha Ballads [12] . Mimno utilizó el modelado de temas para analizar 24 revistas clásicas y arqueológicas durante 150 años para determinar los cambios en la popularidad de los temas y cuánto habían cambiado las revistas durante ese tiempo [13] .

Algoritmos de modelado de temas

La "Introducción al modelado de temas" de David Blay considera el algoritmo más popular Asignación latente de Dirichlet [14] . En la práctica, los investigadores utilizan una de las heurísticas del método de máxima verosimilitud, los métodos de descomposición en valores singulares (SVD), el método de los momentos , un algoritmo basado en una matriz de factorización no negativa (NMF), modelos de tópicos probabilísticos, análisis semántico probabilístico latente , colocación latente de Dirichlet. En el trabajo de Vorontsov K.V., se consideran variaciones de los principales algoritmos de modelado de temas: modelo de tema robusto, modelos de clasificación de temas, modelos de temas dinámicos, modelos de temas jerárquicos, modelos de temas multilingües, modelos de texto como una secuencia de palabras, modelos de temas multimodales [2 ] .

Los modelos temáticos probabilísticos se basan en los siguientes supuestos [15] [16] [17] [18] :

Construir un modelo temático significa encontrar matrices y por colección . En modelos temáticos probabilísticos más complejos, algunas de estas suposiciones se reemplazan por otras más realistas.

Análisis semántico probabilístico latente

El análisis semántico probabilístico latente (PLSA) fue propuesto por Thomas Hofmann en 1999. El modelo probabilístico para la ocurrencia de un par documento-palabra se puede escribir de tres formas equivalentes:

dónde  está el conjunto de temas;

 — distribución de temas desconocida a priori en toda la colección;  es una distribución a priori sobre un conjunto de documentos, una estimación empírica , donde  es la longitud total de todos los documentos;  es una distribución a priori sobre el conjunto de palabras, estimación empírica , donde  es el número de ocurrencias de una palabra en todos los documentos;

Las distribuciones condicionales deseadas se expresan en términos de la fórmula de Bayes:

Para identificar los parámetros del modelo de tema a partir de una colección de documentos, se aplica el principio de máxima verosimilitud , lo que conduce al problema de maximizar el funcional [19]

bajo restricciones de normalización

donde  es el número de ocurrencias de la palabra en el documento . Para resolver este problema de optimización se suele utilizar el algoritmo EM .

Las principales desventajas de PLSA:

Colocación latente de Dirichlet

La asignación de Dirichlet latente (LDA) fue propuesta por David Bley en 2003.

Este método elimina las principales desventajas de PLSA.

El método LDA se basa en el mismo modelo probabilístico

con suposiciones adicionales:

El muestreo de Gibbs , la inferencia bayesiana variacional o el método de propagación de expectativas se utilizan para identificar los parámetros del modelo LDA a partir de una colección de documentos .(Expectativa de propagación).

Véase también

Notas

  1. Korshunov, 2012 .
  2. 1 2 Vorontsov, 2013 .
  3. Ali10, 2010 .
  4. Vorontsov 12, 2012 .
  5. Papadimitriou, 1998 .
  6. Hofmann, 1999 .
  7. Blay 2003, 2003 .
  8. Templeton, 2011 .
  9. Bromistas, 2010 .
  10. Bloque Newman, 2006 .
  11. Griffiths, 2004 .
  12. Blevin, 2010 .
  13. Mimno, 2012 .
  14. Blay2012, 2012 .
  15. Korshunov, 2012 , pág. 229.
  16. Vorontsov, 2013 , pág. 6.
  17. Vorontsov 13, 2013 , pág. 5.
  18. VorontsovML, 2013 , pág. 5.
  19. KV Vorontsov. Modelado temático probabilístico  (ruso)  ? . Fecha de acceso: 26 de octubre de 2013. Archivado desde el original el 24 de julio de 2014.

Literatura

Enlaces

Software y bibliotecas de software