La asignación de Pachinko ( PAM ) es un método de modelado de temas utilizado en el aprendizaje automático y el procesamiento del lenguaje natural que le permite detectar una estructura temática oculta en una colección de documentos [1] . El algoritmo difiere de los métodos anteriores (como LDA ) en que modela las correlaciones entre temas además de las de las palabras que especifican el tema. PAM es superior a LDA en términos de flexibilidad y poder expresivo [2] . Por primera vez, el método fue descrito, implementado y aplicado al procesamiento de textos en lenguaje natural, sin embargo, también puede ser utilizado en otras áreas, por ejemplo, para tareas de bioinformática . Obtuvo su nombre de las máquinas tragamonedas pachinko , populares en Japón , en las que se implementa un juego parecido al pinball en un tablero Galton .
La ubicación del pachinko fue descrita por primera vez por Li Wei y Andrew McCallum en 2005 [3] . En 2007, Lee, McCallum y David Mimno generalizaron la idea de la ubicación jerárquica del pachinko [4] . En el mismo año, McCallum y sus colegas propusieron introducir una distribución bayesiana no paramétrica en PAM basada en una modificación del proceso jerárquico de Dirichlet (HDP) [2] . El algoritmo se implementa en la biblioteca Java de código abierto Mallet .
Para representar el modelo generador, se construye un dígrafo acíclico, en el que los vértices son palabras y temas, y las palabras solo pueden ser hojas. Entonces el modelo de "tres niveles" es LDA , y el modelo de "dos niveles" es la distribución multinomial de Dirichlet[ especificar ] .