Trigrama (análisis de texto)

Los trigramas son un caso especial de n-gramas , donde n es igual a 3. A menudo se utilizan en el procesamiento de lenguaje natural para realizar análisis estadísticos de textos y en criptografía para controlar y explotar cifrados y códigos.

Frecuencia

El contexto es muy importante, la variación en los rangos y porcentajes de análisis se infiere fácilmente a partir de diferentes tamaños de muestra, diferentes autores; o diferentes tipos de documentos: poesía, ciencia ficción, documentación tecnológica; y niveles de escritura: cuentos para niños contra adultos, órdenes militares y recetas. [1] [2]

Un análisis de frecuencia criptoanalítico típico muestra que los 16 trigramas de nivel de carácter más comunes en inglés son:

Ubicación [2] trigrama Frecuencia [3]
(Varias fuentes)
una la 1,81%
2 y 0,73%
3 eso 0,33%
cuatro ent 0,42%
5 En g 0,72%
6 ion 0,42%
7 tío 0,31%
ocho por 0,34%
9 nde
diez posee
once una vez
12 EDT
13 esto es
catorce a menudo 0,22%
quince algo 0,21%
dieciséis hombres

Debido a que los mensajes telegráficos encriptados a menudo omiten la puntuación y los espacios, el análisis de frecuencia criptográfica de dichos mensajes incluye trigramas que cruzan los límites de las palabras. Esto hace que trigramas como "edt" aparezcan con frecuencia, aunque es posible que nunca aparezcan en ninguna de las palabras de estos mensajes. [cuatro]

Ejemplos

La oración " El rápido zorro rojo salta sobre el perezoso perro marrón " tiene los siguientes trigramas a nivel de palabra:

rojo rápido rápido zorro rojo salto de zorro rojo salto de zorro saltar sobre el sobre el perezoso el marrón perezoso perro marrón perezoso

Y el trigrama a nivel de palabra "the quick red" tiene los siguientes trigramas a nivel de carácter (donde el guión bajo "_" representa espacio):

la él_ e_q _qu qui uico asco ck_ k_r _re rojo

Notas

  1. Linton, Tom Frecuencias relativas de letras en inglés general Texto sin formato . Colegio Central (2001). Archivado desde el original el 22 de enero de 2007.
  2. 12 Lewand , Robert. [ [1]  en " Google Books " Matemáticas Criptológicas]. - La Asociación Matemática de América , 2000. - P. 37. - ISBN 978-0-88385-719-9 .
  3. Frecuencias de letras en inglés . Criptografía práctica . Consultado el 31 de mayo de 2022. Archivado desde el original el 12 de mayo de 2022.
  4. SEO de búsqueda por voz . combustible en línea . Consultado el 31 de mayo de 2022. Archivado desde el original el 25 de septiembre de 2021.