Matriz de documentos a plazo

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 8 de junio de 2018; las comprobaciones requieren 6 ediciones .

La matriz término-documento es una matriz matemática que describe la frecuencia de términos que ocurren en una colección de documentos. En una matriz de término-documento, las filas corresponden a los documentos de la colección y las columnas corresponden a los términos. Existen varios esquemas para determinar el valor de cada elemento de la matriz. Uno de ellos es el esquema TF-IDF . Son útiles en el campo del procesamiento del lenguaje natural , especialmente en métodos de análisis semántico latente .

Concepto general

Al crear una base de datos de términos utilizados en un conjunto de documentos, la matriz de términos se forma como una matriz de incidencia, cuyas filas corresponden a los documentos y los elementos de las filas corresponden a la presencia de los términos correspondientes en estos documentos . Por ejemplo, si hay dos documentos breves:

entonces la matriz de términos correspondiente se verá así:

a mi me gusta no me gusta datos
D1 una una 0 una
D2 una 0 una una

que muestra qué términos están contenidos en ciertos documentos y cuántas veces aparecen. Este enfoque es similar al uso de la matriz de incidencia en el análisis de oraciones que forman un corpus de palabras [1] .

Notas

  1. Slyusar, V. I. Aplicación del producto final de matrices en problemas de procesamiento del lenguaje natural. . Tecnologías neuromusculares y el desarrollo de NMT&Z-2020: una colección de prácticas científicas de la XIX Conferencia Científica Internacional "Tecnologías de neuro-temperancia y el desarrollo de NMT&Z-2020". - Kramatorsk: Academia Estatal de Construcción de Máquinas de Donbas. -2020 . 156 - 162. (2020). Consultado el 12 de diciembre de 2020. Archivado desde el original el 25 de enero de 2021.