Los trigramas son un caso especial de n-gramas , donde n es igual a 3. A menudo se utilizan en el procesamiento de lenguaje natural para realizar análisis estadísticos de textos y en criptografía para controlar y explotar cifrados y códigos.
El contexto es muy importante, la variación en los rangos y porcentajes de análisis se infiere fácilmente a partir de diferentes tamaños de muestra, diferentes autores; o diferentes tipos de documentos: poesía, ciencia ficción, documentación tecnológica; y niveles de escritura: cuentos para niños contra adultos, órdenes militares y recetas. [1] [2]
Un análisis de frecuencia criptoanalítico típico muestra que los 16 trigramas de nivel de carácter más comunes en inglés son:
Ubicación [2] | trigrama | Frecuencia [3] (Varias fuentes) |
---|---|---|
una | la | 1,81% |
2 | y | 0,73% |
3 | eso | 0,33% |
cuatro | ent | 0,42% |
5 | En g | 0,72% |
6 | ion | 0,42% |
7 | tío | 0,31% |
ocho | por | 0,34% |
9 | nde | |
diez | posee | |
once | una vez | |
12 | EDT | |
13 | esto es | |
catorce | a menudo | 0,22% |
quince | algo | 0,21% |
dieciséis | hombres |
Debido a que los mensajes telegráficos encriptados a menudo omiten la puntuación y los espacios, el análisis de frecuencia criptográfica de dichos mensajes incluye trigramas que cruzan los límites de las palabras. Esto hace que trigramas como "edt" aparezcan con frecuencia, aunque es posible que nunca aparezcan en ninguna de las palabras de estos mensajes. [cuatro]
La oración " El rápido zorro rojo salta sobre el perezoso perro marrón " tiene los siguientes trigramas a nivel de palabra:
rojo rápido rápido zorro rojo salto de zorro rojo salto de zorro saltar sobre el sobre el perezoso el marrón perezoso perro marrón perezosoY el trigrama a nivel de palabra "the quick red" tiene los siguientes trigramas a nivel de carácter (donde el guión bajo "_" representa espacio):
la él_ e_q _qu qui uico asco ck_ k_r _re rojo