Análisis semántico probabilístico latente

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 26 de junio de 2016; las comprobaciones requieren 7 ediciones .

El análisis semántico probabilístico latente (PLSA) , también conocido como indexación semántica probabilística latente ( PLSI , especialmente en el campo de la recuperación de información), es un método estadístico para analizar la correlación de dos tipos de datos . Este método es un desarrollo posterior del análisis semántico latente . VLSA se aplica en áreas tales como recuperación de información , procesamiento de lenguaje natural , aprendizaje automático y campos relacionados. Este método fue publicado por primera vez en 1999 por Thomas Hofmann [1] .

En comparación con el análisis semántico latente convencional , que se basa en el álgebra lineal y es una forma de reducir la dimensionalidad de una matriz (usualmente usando la descomposición en valores singulares de una matriz diagonal ), el análisis semántico latente probabilístico se basa en la descomposición mixta, que a su vez origina del modelo de clases ocultas. Este enfoque es más fundamental porque tiene una base sólida en el campo de las estadísticas.

Variantes de pLSA

Notas

  1. Thomas Hofmann, Probabilistic Latent Semantic Indexing Archivado el 14 de diciembre de 2010. , Actas de la Vigésima Segunda Conferencia Anual Internacional SIGIR sobre Investigación y Desarrollo en Recuperación de Información (SIGIR-99), 1999
  2. Alexei Vinokourov y Mark Girolami, Un marco probabilístico para la organización jerárquica y clasificación de colecciones de documentos , en Procesamiento y gestión de la información , 2002
  3. Eric Gaussier, Cyril Goutte, Kris Popat y Francine Chen, A Hierarchical Model for Clustering and Categorizing Documents Archivado el 13 de marzo de 2006 en Wayback Machine , en "Advances in Information Retrieval - Proceedings of the 24th BCS-IRSG European Coloquium on IR Research " (ECIR-02)", 2002

Véase también