Colocación de pachinko

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 12 de febrero de 2020; la verificación requiere 1 edición .

La asignación de Pachinko ( PAM ) es un  método de modelado de temas utilizado en el aprendizaje automático y el procesamiento del lenguaje natural que le permite detectar una estructura temática oculta en una colección de documentos [1] . El algoritmo difiere de los métodos anteriores (como LDA ) en que modela las correlaciones entre temas además de las de las palabras que especifican el tema. PAM es superior a LDA en términos de flexibilidad y poder expresivo [2] . Por primera vez, el método fue descrito, implementado y aplicado al procesamiento de textos en lenguaje natural, sin embargo, también puede ser utilizado en otras áreas, por ejemplo, para tareas de bioinformática . Obtuvo su nombre de las máquinas tragamonedas pachinko , populares en Japón , en las que se implementa un juego parecido al pinball en un tablero Galton .

Historia

La ubicación del pachinko fue descrita por primera vez por Li Wei y Andrew McCallum en 2005 [3] . En 2007, Lee, McCallum y David Mimno generalizaron la idea de la ubicación jerárquica del pachinko [4] . En el mismo año, McCallum y sus colegas propusieron introducir una distribución bayesiana no paramétrica en PAM basada en una modificación del proceso jerárquico de Dirichlet (HDP) [2] . El algoritmo se implementa en la biblioteca Java de código abierto Mallet .

Modelo

Para representar el modelo generador, se construye un dígrafo acíclico, en el que los vértices son palabras y temas, y las palabras solo pueden ser hojas. Entonces el modelo de "tres niveles" es LDA , y el modelo de "dos niveles" es la distribución multinomial de Dirichlet[ especificar ] .

Véase también

Notas

  1. Blei, David Modelado de temas (enlace no disponible) . Consultado el 4 de octubre de 2012. Archivado desde el original el 2 de octubre de 2012. 
  2. 12 Li , Wei; Blei, David; McCallum, Andrew. Asignación no paramétrica de Bayes Pachinko  (neopr.) . - 2007. Archivado el 3 de octubre de 2012.
  3. Li, Wei; McCallum, Andrew. Asignación de Pachinko: Modelos mixtos estructurados por DAG de correlaciones temáticas  //  Actas de la 23.ª Conferencia internacional sobre aprendizaje automático : diario. — 2006.
  4. Mimno, David; Li, Wei; McCallum, Andrew. Mezclas de temas jerárquicos con asignación de pachinko  //  Actas de la 24.ª Conferencia internacional sobre aprendizaje automático : diario. - 2007. Archivado el 20 de junio de 2013.
  5. Hofmann, Thomas. Indexación semántica latente probabilística  (neopr.)  // Actas de la Vigésima Segunda Conferencia Anual Internacional SIGIR sobre Investigación y Desarrollo en Recuperación de Información. - 1999. Archivado el 14 de diciembre de 2010.
  6. Blei, David M.; Ng, Andrew Y.; Jordán, Miguel I; Laferty, John. Asignación latente de Dirichlet  (inglés)  // Journal of Machine Learning Research  : journal. - 2003. - Enero ( vol. 3 ). - P. págs. 993-1022 . -doi : 10.1162/ jmlr.2003.3.4-5.993 . Archivado desde el original el 1 de mayo de 2012.