Colocación de pachinko

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 12 de febrero de 2020; la verificación requiere 1 edición .

La asignación de Pachinko ( PAM ) es un método de modelado de temas utilizado en el aprendizaje automático y el procesamiento del lenguaje natural que le permite detectar una estructura temática oculta en una colección de documentos [1] . El algoritmo difiere de los métodos anteriores (como LDA ) en que modela las correlaciones entre temas además de las de las palabras que especifican el tema. PAM es superior a LDA en términos de flexibilidad y poder expresivo [2] . Por primera vez, el método fue descrito, implementado y aplicado al procesamiento de textos en lenguaje natural, sin embargo, también puede ser utilizado en otras áreas, por ejemplo, para tareas de bioinformática . Obtuvo su nombre de las máquinas tragamonedas pachinko , populares en Japón , en las que se implementa un juego parecido al pinball en un tablero Galton .

Historia

La ubicación del pachinko fue descrita por primera vez por Li Wei y Andrew McCallum en 2005 [3] . En 2007, Lee, McCallum y David Mimno generalizaron la idea de la ubicación jerárquica del pachinko [4] . En el mismo año, McCallum y sus colegas propusieron introducir una distribución bayesiana no paramétrica en PAM basada en una modificación del proceso jerárquico de Dirichlet (HDP) [2] . El algoritmo se implementa en la biblioteca Java de código abierto Mallet .

Modelo

Para representar el modelo generador, se construye un dígrafo acíclico, en el que los vértices son palabras y temas, y las palabras solo pueden ser hojas. Entonces el modelo de "tres niveles" es LDA , y el modelo de "dos niveles" es la distribución multinomial de Dirichlet[ especificar ] .

Véase también

La indexación semántica probabilística latente (PLSI) es un modelo de tema propuesto por Thomas Hoffman en 1999 [5] .
La ubicación latente de Dirichlet es una generalización de pLSI propuesta por David Bley, Andrew Ng y Michael Jordan en 2002 [6] .

Notas

↑ Blei, David Modelado de temas (enlace no disponible) . Consultado el 4 de octubre de 2012. Archivado desde el original el 2 de octubre de 2012. (indefinido)
↑ 12 Li , Wei; Blei, David; McCallum, Andrew. Asignación no paramétrica de Bayes Pachinko (neopr.) . - 2007. Archivado el 3 de octubre de 2012.
↑ Li, Wei; McCallum, Andrew. Asignación de Pachinko: Modelos mixtos estructurados por DAG de correlaciones temáticas // Actas de la 23.ª Conferencia internacional sobre aprendizaje automático : diario. — 2006.
↑ Mimno, David; Li, Wei; McCallum, Andrew. Mezclas de temas jerárquicos con asignación de pachinko // Actas de la 24.ª Conferencia internacional sobre aprendizaje automático : diario. - 2007. Archivado el 20 de junio de 2013.
↑ Hofmann, Thomas. Indexación semántica latente probabilística (neopr.) // Actas de la Vigésima Segunda Conferencia Anual Internacional SIGIR sobre Investigación y Desarrollo en Recuperación de Información. - 1999. Archivado el 14 de diciembre de 2010.
↑ Blei, David M.; Ng, Andrew Y.; Jordán, Miguel I; Laferty, John. Asignación latente de Dirichlet (inglés) // Journal of Machine Learning Research : journal. - 2003. - Enero ( vol. 3 ). - P. págs. 993-1022 . -doi : 10.1162/ jmlr.2003.3.4-5.993 . Archivado desde el original el 1 de mayo de 2012.

procesamiento natural del lenguaje
Definiciones generales	corpus de textos corpus de habla Para las palabras bolsa de palabras Integridad de la IA N-grama Cifrado de bigrama trigrama
Análisis de texto	Segmentación de texto Marcado parcial análisis de superficie Procesamiento de textos compuestos Extracción de colocaciones derivación lematización Reconocimiento de entidad nombrada Resolución de correferencia Análisis de sentimiento de texto Extracción de conceptos analizando Resolución de la polisemia léxica Extraer terminología Extracción de información Identificación de idioma Definición de caso
Referencia	Extrayendo oraciones Generación abstracta Referenciación multi-documento Simplificación de texto
Traducción automática	automatizado Híbrido Interlingüístico Basado en reglas Basado en ejemplos Basado en diccionario Basado en la transformación neural Estadístico Sincrónico
Identificación y recogida de datos	Reconocimiento de voz síntesis de voz Reconocimiento óptico de caracteres Generación de texto
Modelo Temático	colocación de pachinko Colocación latente de Dirichlet Análisis semántico latente
revisión por pares	Evaluación automatizada de ensayos concordante Entrada de texto predictivo Corrector gramatical Corrector ortográfico Adivinanzas de sintaxis
Interfaz de lenguaje natural	asistente virtual Interlocutor virtual sistema de preguntas y respuestas interfaz de voz Literatura Interactiva