Colocación latente de Dirichlet

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 15 de julio de 2019; las comprobaciones requieren 2 ediciones .

La asignación latente de Dirichlet ( LDA , del inglés  Latent Dirichlet alocation ) es un modelo generativo utilizado en el aprendizaje automático y la recuperación de información que permite explicar los resultados de las observaciones utilizando grupos implícitos , lo que hace posible identificar las razones de la similitud de algunas partes. de los datos Por ejemplo, si las observaciones son palabras recogidas en documentos, se argumenta que cada documento es una mezcla de un pequeño número de temas y que la aparición de cada palabra está asociada con uno de los temas del documento. LDA es una de las técnicas de modelado de temas y David Bley, Andrew Ng y Michael Jordan la introdujeron por primera vez como un modelo gráfico para el descubrimiento de temas en 2003 [1] .

En LDA, cada documento se puede ver como una colección de diferentes temas. Este enfoque es similar al análisis semántico probabilístico latente (pLSA), con la diferencia de que en LDA se asume que la distribución de temas tiene distribuciones de Dirichlet a priori . En la práctica, el resultado es un conjunto de temas más correcto.

Por ejemplo, un modelo puede tener temas clasificados como "relacionados con gatos" y "relacionados con perros", un tema que tiene probabilidades de generar diferentes palabras como "miau", "leche" o "gatito" que podrían clasificarse como " relacionado con perros". con gatos", y las palabras que no tienen un significado especial (por ejemplo, palabras de servicio ) tendrán aproximadamente la misma probabilidad en varios temas.

Notas

  1. Blei, David M.; Ng, Andrew Y.; Jordán, Miguel I Asignación latente de Dirichlet  //  Journal of Machine Learning Research  : journal / Lafferty, John. - 2003. - Enero ( vol. 3 , no. 4-5 ). - P. págs. 993-1022 . -doi : 10.1162/ jmlr.2003.3.4-5.993. Archivado desde el original el 1 de mayo de 2012.

Enlaces