TF-FDI

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 30 de enero de 2022; la verificación requiere 1 edición .

TF-IDF (del inglés  TF - término frecuencia, IDF - frecuencia de documento inverso ) es una medida estadística utilizada para evaluar la importancia de una palabra en el contexto de un documento que forma parte de una colección o corpus de documentos . El peso de una palabra es proporcional a la frecuencia de aparición de esta palabra en el documento e inversamente proporcional a la frecuencia de aparición de la palabra en todos los documentos de la colección.

La medida TF-IDF se usa a menudo en tareas de análisis de texto y recuperación de información , por ejemplo, como uno de los criterios para determinar la relevancia de un documento para una consulta de búsqueda, al calcular la medida de proximidad de los documentos durante la agrupación .

Estructura de la fórmula

TF ( frecuencia de término  - frecuencia de palabra) - la relación entre el número de ocurrencias de una determinada palabra y el número total de palabras en el documento. Así, se evalúa la importancia de una palabra dentro de un solo documento.

,

donde es el número de ocurrencias de la palabra en el documento, y el denominador es el número total de palabras en el documento.

IDF ( frecuencia de documento  inverso - frecuencia de documento inverso): la inversión de la frecuencia con la que aparece una determinada palabra en los documentos de la colección. La fundadora de este concepto es Karen Spark Jones [1] . La contabilidad de IDF reduce el peso de las palabras de uso común. Solo hay un valor IDF para cada palabra única dentro de una colección de documentos dada.

, [2]

dónde

La elección de la base del logaritmo en la fórmula no importa, ya que al cambiar la base cambia el peso de cada palabra por un factor constante, lo que no afecta la relación de peso.

Así, la medida TF-IDF es el producto de dos factores:

Se dará un peso alto en TF-IDF a palabras con alta frecuencia dentro de un documento en particular y baja frecuencia en otros documentos.

Aplicación numérica

Existen varias fórmulas basadas en el método TF-IDF. Difieren en coeficientes, normalizaciones, uso de escalas logarítmicas. En particular, el motor de búsqueda Yandex usó durante mucho tiempo la normalización para el término más frecuente en el documento. .

Una de las fórmulas más populares es la fórmula BM25 .

Ejemplo

Si un documento contiene 100 palabras y la palabra [3] "liebre" aparece 3 veces en él, entonces la frecuencia de palabra (TF) para la palabra "liebre" en el documento será 0,03 (3/100). Calculemos IDF como un logaritmo decimal de la relación entre el número de todos los documentos y el número de documentos que contienen la palabra "liebre". Por lo tanto, si la "liebre" está contenida en 1000 documentos de 10,000,000 documentos, entonces el IDF será igual a: log(10,000,000/1000) = 4. Para calcular el valor de peso de palabra final, TF debe multiplicarse por IDF. En este ejemplo, el peso TF-IDF para la palabra "hare" en el documento seleccionado sería: 0,03 × 4 = 0,12.

Aplicación en el modelo de espacio vectorial

La medida TF-IDF a menudo se usa para representar documentos en una colección como vectores numéricos que reflejan la importancia de usar cada palabra de algún conjunto de palabras (el número de palabras en el conjunto determina la dimensión del vector) en cada documento. Tal modelo se denomina modelo vectorial y permite comparar textos comparando los vectores que los representan en alguna métrica ( distancia euclidiana , medida del coseno , distancia de Manhattan, distancia de Chebyshev , etc.), es decir, realizando análisis de conglomerados .

Véase también

Notas

  1. Jones, 2004 .
  2. Algunas versiones de la fórmula no usan logaritmos.
  3. Por lo general, antes del análisis del documento, el analizador morfológico lleva las palabras a su forma normal.

Literatura

Enlaces