Diccionario de frecuencias

Un diccionario de frecuencias (o lista de frecuencias) es un conjunto de palabras en un idioma (o sublenguaje) determinado junto con información sobre su frecuencia . El diccionario se puede ordenar por frecuencia, alfabéticamente (luego para cada palabra se indicará su frecuencia), por grupos de palabras (por ejemplo, las primeras mil de las palabras más frecuentes, seguidas de las segundas, etc.), por tipicidad ( palabras que son frecuentes en la mayoría de los textos), etc. Las listas de frecuencia se utilizan para la enseñanza de idiomas, la creación de nuevos vocabularios, las aplicaciones de la lingüística computacional, la investigación de tipologías lingüísticas, etc.

Construyendo listas de frecuencias

Por lo general, los diccionarios de frecuencia se construyen sobre la base de corpus de texto : se toma un conjunto de textos que es representativo del idioma en su conjunto, para un área temática o un autor determinado (ver Diccionario de frecuencia de Griboyedov ) y formas de palabras, lemas y partes. de habla se extraen de él (estos últimos se extraen si el corpus tiene marcas morfológicas).

Los problemas en la creación de listas de frecuencia son:

reproducibilidad (si los resultados serán idénticos en otro caso similar),
ráfagas de la frecuencia de palabras individuales (la frecuencia de una palabra en un texto puede afectar su posición en la lista de frecuencia),
dificultades para determinar la posición de las palabras menos frecuentes, lo que hace imposible clasificarlas racionalmente; por ejemplo, la palabra basura está entre las 20 000 palabras más frecuentes, mientras que la palabra gruñido está fuera de la lista de las 40 000 principales.

Todos estos problemas se deben a que, desde un punto de vista estadístico, el idioma es un gran número de eventos raros ( Ley de Zipf ), como resultado de lo cual un pequeño número de palabras ocurren con mucha frecuencia, y la gran mayoría de Las palabras tienen una frecuencia muy baja. La frecuencia de la palabra y (la palabra más frecuente en el idioma ruso) es aproximadamente 10 veces mayor que la frecuencia de la palabra acerca de , que a su vez ocurre 100 veces más que palabras comunes como viajes, vejez o moda .

La metáfora del hobbit se puede usar para describir estallidos de frecuencia (Adam Kilgarriff usó originalmente la palabra inglesa relativamente rara buccino, un tipo de molusco marino , buccino inglés ): si hay varios textos en el corpus sobre hobbits, entonces se usará esta palabra en casi todas las oraciones. Como resultado, su frecuencia en estos textos será comparable a la frecuencia de las palabras funcionales, pero en la lista de frecuencias de un gran corpus, que incluye tales textos, esta palabra tendrá un rango increíblemente alto. Tales ráfagas de frecuencia se pueden estimar usando el coeficiente de variación : la relación entre la desviación estándar y la frecuencia promedio .

Comparación de cascos

Los diccionarios de frecuencia brindan la posibilidad de comparar dos corpus para determinar las palabras más características de cada uno. A veces los diccionarios indican "frecuencia absoluta", es decir, el número de ocurrencias de una palabra en un corpus. Debido a que los tamaños de los corpus pueden ser diferentes, se suele indicar la frecuencia relativa (normalmente llamada simplemente "frecuencia"), es decir, la relación entre el número de apariciones de una palabra en un corpus y el número total de palabras. en un corpus. A veces se dan ambos valores. La frecuencia relativa a veces se indica como un porcentaje, en ppm o en partes por millón ( inglés ipm, instancias por millón de palabras ). Por ejemplo, la palabra y tiene una frecuencia de 0,03 (3 %, o 30 ‰, o unas 30 000 palabras por millón, la palabra vejez - 0,00003 (0,003 %, o 0,03 ‰, o unas 30 palabras por millón).

Para determinar el conjunto de palabras clave que distinguen un corpus de otro, puede utilizar diferentes medidas estadísticas: chi -cuadrado , prueba de razón de verosimilitud , etc.

Véase también

Literatura

Adam Kilgarriff. Poner frecuencias en el diccionario // Revista internacional de lexicografía. - 1997. - Nº 10 (2) . - Pág. 135-155.
Lyashevskaya O. N., Sharov S. A. Diccionario de frecuencias del idioma ruso moderno (basado en los materiales del Corpus Nacional del Idioma Ruso) . - M. : Azbukovnik, 2009. - 1087 p. - ISBN 978-5-91172-024-7 .
Diccionario de frecuencias // Gran enciclopedia soviética : [en 30 volúmenes] / cap. edición A. M. Projorov . - 3ra ed. - M. : Enciclopedia soviética, 1969-1978.
Diccionario de frecuencias de la lengua rusa / Ed. L. N. Zasorina. - M . : idioma ruso, 1977.
Diccionario de frecuencias del lenguaje de M. Yu. Lermontov // Enciclopedia de Lermontov / Academia de Ciencias de la URSS. En-t rus. iluminado. (Pushkin. Casa); Ed. científica consejo de la editorial “Búhos. Encicl.”. - M . : Sov. Encicl., 1981. - S. 717-774.
Diccionario de frecuencias de Sharov S.A.
Steinfeldt E. A. Diccionario de frecuencias de la lengua literaria rusa moderna. - M. , 1963.

Enlaces

Diccionarios de frecuencia del "Antiguo y Nuevo Testamento" (Búsqueda de "Teólogo" en los textos del "Antiguo y Nuevo Testamento").

Tipos de diccionario
activo antónimos gramático dialectal ideográfico palabras extranjeras reverso ortografía ortológico paronimos rimas sinónimos derivacional cortes sensitivo frecuencia enciclopédico etimológico

Lexicografía
Tipos de directorio	Glosario Vocabulario Libro de frases Diccionario Tesauro
Tipos de diccionario	Diccionario activo Diccionario biográfico Diccionario Visual diccionario de gramática Diccionario de rimas del chino antiguo Diccionario ideográfico Diccionario lingüístico diccionario medico diccionario inverso diccionario ortográfico diccionario de pronunciacion Diccionario de traducción Diccionarios para estudiantes avanzados Diccionarios para estudiantes Diccionario de anagramas Diccionario de ilustración diccionario de abreviaturas diccionario de rimas Diccionario temático especializado Diccionario especializado tipológicamente Diccionario Libro de frases diccionario de frecuencias Diccionario electrónico Diccionario legible por máquina diccionario enciclopédico Diccionario etimológico
Otro	Vocabulario de definiciones Lista de lexicógrafos famosos Dal Zaliznyak Melchuk Müller Ozhegov Slonimsky Sreznevski Ushakov Chubinashvili Shvedova
Portal de Lingüística