TF-FDI

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 30 de enero de 2022; la verificación requiere 1 edición .

TF-IDF (del inglés TF - término frecuencia, IDF - frecuencia de documento inverso ) es una medida estadística utilizada para evaluar la importancia de una palabra en el contexto de un documento que forma parte de una colección o corpus de documentos . El peso de una palabra es proporcional a la frecuencia de aparición de esta palabra en el documento e inversamente proporcional a la frecuencia de aparición de la palabra en todos los documentos de la colección.

La medida TF-IDF se usa a menudo en tareas de análisis de texto y recuperación de información , por ejemplo, como uno de los criterios para determinar la relevancia de un documento para una consulta de búsqueda, al calcular la medida de proximidad de los documentos durante la agrupación .

Estructura de la fórmula

TF ( frecuencia de término - frecuencia de palabra) - la relación entre el número de ocurrencias de una determinada palabra y el número total de palabras en el documento. Así, se evalúa la importancia de una palabra dentro de un solo documento. $t_{{yo}}$

{\displaystyle \mathrm {tf} (t,d)={\frac {n_{t)){\sum _{k}n_{k))))

donde es el número de ocurrencias de la palabra en el documento, y el denominador es el número total de palabras en el documento. $Nuevo Testamento$ $t$

IDF ( frecuencia de documento inverso - frecuencia de documento inverso): la inversión de la frecuencia con la que aparece una determinada palabra en los documentos de la colección. La fundadora de este concepto es Karen Spark Jones [1] . La contabilidad de IDF reduce el peso de las palabras de uso común. Solo hay un valor IDF para cada palabra única dentro de una colección de documentos dada.

\mathrm {idf} (t,D)=\log {\frac {|D|}{|\{\,d_{i}\in D\mid t\in d_{i}\,\} |}}

, [2]

dónde

|D| — número de documentos en la colección;
$|\{\,d_{i}\in D\mid t\in d_{i}\,\}|$ es el número de documentos de la colección en los que se produce (cuando ). $D$ $t$ ${\ estilo de visualización n_ {t} \ neq 0}$

La elección de la base del logaritmo en la fórmula no importa, ya que al cambiar la base cambia el peso de cada palabra por un factor constante, lo que no afecta la relación de peso.

Así, la medida TF-IDF es el producto de dos factores:

\operatorname {tf-idf}(t,d,D)=\operatorname {tf}(t,d)\times \operatorname {idf}(t,D)

Se dará un peso alto en TF-IDF a palabras con alta frecuencia dentro de un documento en particular y baja frecuencia en otros documentos.

Aplicación numérica

Existen varias fórmulas basadas en el método TF-IDF. Difieren en coeficientes, normalizaciones, uso de escalas logarítmicas. En particular, el motor de búsqueda Yandex usó durante mucho tiempo la normalización para el término más frecuente en el documento. .

Una de las fórmulas más populares es la fórmula BM25 .

Ejemplo

Si un documento contiene 100 palabras y la palabra [3] "liebre" aparece 3 veces en él, entonces la frecuencia de palabra (TF) para la palabra "liebre" en el documento será 0,03 (3/100). Calculemos IDF como un logaritmo decimal de la relación entre el número de todos los documentos y el número de documentos que contienen la palabra "liebre". Por lo tanto, si la "liebre" está contenida en 1000 documentos de 10,000,000 documentos, entonces el IDF será igual a: log(10,000,000/1000) = 4. Para calcular el valor de peso de palabra final, TF debe multiplicarse por IDF. En este ejemplo, el peso TF-IDF para la palabra "hare" en el documento seleccionado sería: 0,03 × 4 = 0,12.

Aplicación en el modelo de espacio vectorial

La medida TF-IDF a menudo se usa para representar documentos en una colección como vectores numéricos que reflejan la importancia de usar cada palabra de algún conjunto de palabras (el número de palabras en el conjunto determina la dimensión del vector) en cada documento. Tal modelo se denomina modelo vectorial y permite comparar textos comparando los vectores que los representan en alguna métrica ( distancia euclidiana , medida del coseno , distancia de Manhattan, distancia de Chebyshev , etc.), es decir, realizando análisis de conglomerados .

Véase también

Notas

↑ Jones, 2004 .
↑ Algunas versiones de la fórmula no usan logaritmos.
↑ Por lo general, antes del análisis del documento, el analizador morfológico lleva las palabras a su forma normal.

Literatura

Jones KS Una interpretación estadística de la especificidad del término y su aplicación en la recuperación (inglés) // Journal of Documentation: journal. - Universidad MCB: Prensa de la Universidad MCB, 2004. - Vol. 60 , núm. 5 . - pág. 493-502 . — ISSN 0022-0418 .
Saltón J.Sistemas dinámicos de recuperación de bibliotecas. M.: - Mir, 1979.
Salton, G. y McGill, MJ 1983 Introducción a la recuperación de información moderna . McGraw-Hill, ISBN 0-07-054484-0 .
Salton, G., Fox, EA y Wu, H. 1983 Recuperación de información booleana extendida. común ACM 26, 1022-1036.
Salton, G. y Buckley, C. 1988 Enfoques de ponderación de términos en la recuperación automática de texto. Procesamiento y gestión de la información 24(5): 513-523
Fedorovsky A.N., Kostin M.Yu. Mail.ru en ROMIP -2005 // en sáb. "Actas de ROMIP'2005" Actas del tercer seminario ruso sobre la evaluación de métodos de recuperación de información. ed. I. S. Nekrestyanova, pp. 106-124, San Petersburgo: Instituto de Investigación de Química, Universidad Estatal de San Petersburgo, 2005.