Diccionario de frecuencias

Un diccionario de frecuencias (o lista de frecuencias) es un conjunto de palabras en un idioma (o sublenguaje) determinado junto con información sobre su frecuencia . El diccionario se puede ordenar por frecuencia, alfabéticamente (luego para cada palabra se indicará su frecuencia), por grupos de palabras (por ejemplo, las primeras mil de las palabras más frecuentes, seguidas de las segundas, etc.), por tipicidad ( palabras que son frecuentes en la mayoría de los textos), etc. Las listas de frecuencia se utilizan para la enseñanza de idiomas, la creación de nuevos vocabularios, las aplicaciones de la lingüística computacional, la investigación de tipologías lingüísticas, etc.

Construyendo listas de frecuencias

Por lo general, los diccionarios de frecuencia se construyen sobre la base de corpus de texto : se toma un conjunto de textos que es representativo del idioma en su conjunto, para un área temática o un autor determinado (ver Diccionario de frecuencia de Griboyedov ) y formas de palabras, lemas y partes. de habla se extraen de él (estos últimos se extraen si el corpus tiene marcas morfológicas).

Los problemas en la creación de listas de frecuencia son:

Todos estos problemas se deben a que, desde un punto de vista estadístico, el idioma es un gran número de eventos raros ( Ley de Zipf ), como resultado de lo cual un pequeño número de palabras ocurren con mucha frecuencia, y la gran mayoría de Las palabras tienen una frecuencia muy baja. La frecuencia de la palabra y (la palabra más frecuente en el idioma ruso) es aproximadamente 10 veces mayor que la frecuencia de la palabra acerca de , que a su vez ocurre 100 veces más que palabras comunes como viajes, vejez o moda .

La metáfora del hobbit se puede usar para describir estallidos de frecuencia (Adam Kilgarriff usó originalmente la palabra inglesa relativamente rara buccino, un tipo de molusco marino , buccino inglés  ): si hay varios textos en el corpus sobre hobbits, entonces se usará esta palabra en casi todas las oraciones. Como resultado, su frecuencia en estos textos será comparable a la frecuencia de las palabras funcionales, pero en la lista de frecuencias de un gran corpus, que incluye tales textos, esta palabra tendrá un rango increíblemente alto. Tales ráfagas de frecuencia se pueden estimar usando el coeficiente de variación : la relación entre la desviación estándar y la frecuencia promedio .

Comparación de cascos

Los diccionarios de frecuencia brindan la posibilidad de comparar dos corpus para determinar las palabras más características de cada uno. A veces los diccionarios indican "frecuencia absoluta", es decir, el número de ocurrencias de una palabra en un corpus. Debido a que los tamaños de los corpus pueden ser diferentes, se suele indicar la frecuencia relativa (normalmente llamada simplemente "frecuencia"), es decir, la relación entre el número de apariciones de una palabra en un corpus y el número total de palabras. en un corpus. A veces se dan ambos valores. La frecuencia relativa a veces se indica como un porcentaje, en ppm o en partes por millón ( inglés  ipm, instancias por millón de palabras ). Por ejemplo, la palabra y tiene una frecuencia de 0,03 (3 %, o 30 ‰, o unas 30 000 palabras por millón, la palabra vejez  - 0,00003 (0,003 %, o 0,03 ‰, o unas 30 palabras por millón).

Para determinar el conjunto de palabras clave que distinguen un corpus de otro, puede utilizar diferentes medidas estadísticas: chi -cuadrado , prueba de razón de verosimilitud , etc.  

Véase también

Literatura

Enlaces