El coeficiente de diversidad léxica (CLR, English lexical diversity, LD ) es una característica cuantitativa del texto, que refleja el grado de riqueza del diccionario a la hora de construir un texto de una determinada extensión. El indicador se basa en la relación entre el número de unidades léxicas individuales ( lemas , tipos en inglés ) y el número de sus ocurrencias en el texto ( formas de texto , tokens en inglés ).
Calculado según la fórmula
,dónde
El texto léxicamente rico tiene un alto coeficiente de diversidad léxica, es decir, el número máximo de unidades únicas por unidad de volumen de texto, el texto léxicamente pobre tiende a repetir los mismos lexemas, por lo que su diversidad léxica se reduce. Se debe tener en cuenta la siguiente restricción al calcular el KLR: mientras que la cantidad de formularios de texto es potencialmente infinita y solo puede aumentar a medida que se expande la matriz de datos de texto analizados, la cantidad de tokens sigue siendo finita. Por lo tanto, es racional calcular el CLR solo para textos de un volumen limitado. En lingüística computacional, se han propuesto varias soluciones a este problema [1] .
Cercano a CLR está el coeficiente de densidad léxica del texto ( eng. densidad léxica ), que expresa la relación entre las partes independientes del discurso en el texto y el número total de palabras. Más densos léxicamente, por tanto, serán los textos que utilicen menos vocabulario auxiliar. Es posible calcular coeficientes de densidad léxica tanto para partes independientes del discurso en general como por separado para sustantivos, adjetivos, verbos, adverbios.
TTR ( English type/token ratio ) es la forma más sencilla y criticada de calcular el coeficiente de diversidad léxica, que no tiene en cuenta el efecto de la longitud del texto. TTR supuestamente se introdujo en el uso científico en 1957 en el trabajo de un especialista en linguodidáctica M. Templin [2] . Por ejemplo, el TTR en la expresión inglesa I have to buy some milk, because I have no milk (“Tengo que comprar leche porque no tengo leche”) es bajo y es de 0,73 (solo 8 lexemas por 11 usos de palabras). , 8/ 11), y, por ejemplo, en la frase me he quedado sin leche, así que necesito comprar algo ("Me quedé sin leche, necesito comprarla") TTR ya es mayor (TTR = 10/11 = 0,91) .
TTR se puede calcular interpretando el concepto de tipo de diferentes maneras : puede significar
1) un lexema en la totalidad de sus formas verbales ( lema ): por ejemplo, el lexema camisa para las formas camisa, camisa, camisa, camisas , etc. .,
2) una forma de palabra separada o un conjunto de formas de palabra homónimas o incluso homónimos en relación con las ocurrencias individuales de estas formas de palabra en el texto ("formas de texto"): por ejemplo, casas para formas de texto en casa, en casa .
La primera solución es lingüísticamente correcta, pero aumenta los requisitos para el grado de automatización del cálculo del coeficiente, ya que implica la capacidad del analizador morfológico para realizar el marcado por partes del discurso y la lematización. El segundo es vulnerable desde un punto de vista teórico, revela una dependencia de la morfología de un idioma en particular (lo que, por ejemplo, reduce su confiabilidad al comparar textos originales y traducidos), pero es fácilmente automatizable.
El método VocD ( diversidad de vocabulario ) fue propuesto por D. Malvern y sus colegas [3] y es una versión mejorada de TTR que suaviza los efectos de la longitud del texto. El método se basa en el método de selección aleatoria de fragmentos del texto con una longitud de 35 a 50 formularios de texto y el cálculo de TTR para ellos, seguido de un promedio de los gráficos resultantes.
El coeficiente de diversidad léxica resulta ser un importante parámetro medido en estudios de estilística, análisis del discurso, estudios de traducción (al comparar textos originales y traducidos), lingüística del habla infantil.