Matriz de documentos a plazo

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 8 de junio de 2018; las comprobaciones requieren 6 ediciones .

La matriz término-documento es una matriz matemática que describe la frecuencia de términos que ocurren en una colección de documentos. En una matriz de término-documento, las filas corresponden a los documentos de la colección y las columnas corresponden a los términos. Existen varios esquemas para determinar el valor de cada elemento de la matriz. Uno de ellos es el esquema TF-IDF . Son útiles en el campo del procesamiento del lenguaje natural , especialmente en métodos de análisis semántico latente .

Concepto general

Al crear una base de datos de términos utilizados en un conjunto de documentos, la matriz de términos se forma como una matriz de incidencia, cuyas filas corresponden a los documentos y los elementos de las filas corresponden a la presencia de los términos correspondientes en estos documentos . Por ejemplo, si hay dos documentos breves:

D1 = "Me gustan los datos"
D2 = "No me gustan los datos",

entonces la matriz de términos correspondiente se verá así:

	a mi	me gusta	no me gusta	datos
D1	una	una	0	una
D2	una	0	una	una

que muestra qué términos están contenidos en ciertos documentos y cuántas veces aparecen. Este enfoque es similar al uso de la matriz de incidencia en el análisis de oraciones que forman un corpus de palabras [1] .

Notas

↑ Slyusar, V. I. Aplicación del producto final de matrices en problemas de procesamiento del lenguaje natural. . Tecnologías neuromusculares y el desarrollo de NMT&Z-2020: una colección de prácticas científicas de la XIX Conferencia Científica Internacional "Tecnologías de neuro-temperancia y el desarrollo de NMT&Z-2020". - Kramatorsk: Academia Estatal de Construcción de Máquinas de Donbas. -2020 . 156 - 162. (2020). Consultado el 12 de diciembre de 2020. Archivado desde el original el 25 de enero de 2021. (indefinido)

procesamiento natural del lenguaje
Definiciones generales	corpus de textos corpus de habla Para las palabras bolsa de palabras Integridad de la IA N-grama Cifrado de bigrama trigrama
Análisis de texto	Segmentación de texto Marcado parcial análisis de superficie Procesamiento de textos compuestos Extracción de colocaciones derivación lematización Reconocimiento de entidad nombrada Resolución de correferencia Análisis de sentimiento de texto Extracción de conceptos analizando Resolución de la polisemia léxica Extraer terminología Extracción de información Identificación de idioma Definición de caso
Referencia	Extrayendo oraciones Generación abstracta Referenciación multi-documento Simplificación de texto
Traducción automática	automatizado Híbrido Interlingüístico Basado en reglas Basado en ejemplos Basado en diccionario Basado en la transformación neural Estadístico Sincrónico
Identificación y recogida de datos	Reconocimiento de voz síntesis de voz Reconocimiento óptico de caracteres Generación de texto
Modelo Temático	colocación de pachinko Colocación latente de Dirichlet Análisis semántico latente
revisión por pares	Evaluación automatizada de ensayos concordante Entrada de texto predictivo Corrector gramatical Corrector ortográfico Adivinanzas de sintaxis
Interfaz de lenguaje natural	asistente virtual Interlocutor virtual sistema de preguntas y respuestas interfaz de voz Literatura Interactiva