La matriz término-documento es una matriz matemática que describe la frecuencia de términos que ocurren en una colección de documentos. En una matriz de término-documento, las filas corresponden a los documentos de la colección y las columnas corresponden a los términos. Existen varios esquemas para determinar el valor de cada elemento de la matriz. Uno de ellos es el esquema TF-IDF . Son útiles en el campo del procesamiento del lenguaje natural , especialmente en métodos de análisis semántico latente .
Al crear una base de datos de términos utilizados en un conjunto de documentos, la matriz de términos se forma como una matriz de incidencia, cuyas filas corresponden a los documentos y los elementos de las filas corresponden a la presencia de los términos correspondientes en estos documentos . Por ejemplo, si hay dos documentos breves:
entonces la matriz de términos correspondiente se verá así:
a mi | me gusta | no me gusta | datos | |
---|---|---|---|---|
D1 | una | una | 0 | una |
D2 | una | 0 | una | una |
que muestra qué términos están contenidos en ciertos documentos y cuántas veces aparecen. Este enfoque es similar al uso de la matriz de incidencia en el análisis de oraciones que forman un corpus de palabras [1] .