Conjunto de caracteres

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 15 de mayo de 2017; las comprobaciones requieren 17 ediciones .

Conjunto de caracteres ( conjunto de caracteres en inglés  ) - una tabla que especifica la codificación de un conjunto finito de caracteres alfabéticos (generalmente elementos de texto: letras, números, signos de puntuación). Tal tabla empareja cada carácter con una secuencia de uno o más caracteres de otro alfabeto (puntos y rayas en código Morse , banderas de señales en la Armada , ceros y unos ( bits ) en la computadora).

Juego de caracteres de computadora

Los caracteres en una computadora generalmente se codifican en uno o más bytes (grupos de ocho bits).

Aunque el término "conjunto de caracteres" ( eng.  conjunto de caracteres, juego de caracteres ), legitimado por el estándar de Internet RFC 2278 , es ahora quizás el término más autorizado, el término "codificación" que lo precedió ( ing.  codificación ) todavía se usa como sinónimo, en particular, en los lenguajes de programación Java [1] , Perl [2] y XSLT [3] , así como en HTML [4] .

A menudo, en lugar del término "juego de caracteres", el término " página de códigos " se usa incorrectamente, lo que en realidad significa un caso especial de un juego de caracteres con una codificación de un solo byte.

Actualmente se utilizan tres tipos de codificaciones: codificaciones de 16 bits compatibles con ASCII , compatibles con EBCDIC y Unicode , predominando abrumadoramente las primeras. La representación UTF-8 de Unicode es compatible con ASCII. Las codificaciones basadas en EBCDIC (como DCOI ) solo se usan en algunos mainframes . Inicialmente, cada sistema operativo usaba un conjunto de caracteres. Ahora, los conjuntos de caracteres utilizados están estandarizados [5] , dependen del tipo de sistema operativo solo por tradición y se configuran de acuerdo con la configuración regional .

Wikipedia y otros proyectos de la Fundación Wikimedia utilizan UTF-8 Unicode.

Las plataformas informáticas modernas de 8 bits se caracterizan por pequeñas cantidades de RAM y ROM; las codificaciones multibyte en tales productos no han recibido una distribución significativa. La razón de esto no es solo el mayor volumen ocupado por los datos de texto presentados en una codificación de varios bytes, sino también la falta de memoria "extra" para almacenar una representación gráfica de caracteres adicionales, así como la dificultad de procesar tales cadenas. Las siguientes codificaciones estándar de un solo byte se usan comúnmente en la actualidad:

Reconocimiento automático de codificación

Muchos editores de texto y navegadores modernos tienen una función de reconocimiento de codificación automática, pero no siempre da el resultado correcto. A veces sucede que el texto escrito, por ejemplo, en la línea de comando o en algunos programas, se decodifica incorrectamente y, en lugar de palabras normales, se obtiene un conjunto de caracteres incomprensibles. Una gran cantidad de decodificadores de texto que funcionan en línea pueden ayudarlo a lidiar con la lectura de dicho texto.

Para las codificaciones de un solo byte, se debe tener en cuenta el hecho de que la frecuencia de uso de diferentes letras varía mucho (por ejemplo, en ruso se usa a menudo "o", pero rara vez se usa "ъ"). Por lo tanto, al conocer el idioma del texto, puede elegir fácilmente una codificación en la que la frecuencia de los bytes coincida mejor con la frecuencia de las letras en un idioma determinado. [6]

Un punto de vista alternativo considera que dichos algoritmos heurísticos para determinar la codificación del texto son dañinos, ya que las tecnologías de la información modernas tienen los medios para hacer coincidir sin ambigüedades el texto con su página de códigos (ver, por ejemplo, MIME ). El uso generalizado de analizadores heurísticos fomenta el uso de programas de baja calidad para crear datos de texto que violan los estándares.

Codificaciones comunes

Véase también

Enlaces

Notas

  1. Lista de las principales "codificaciones" en el manual de Java SE 6 . Fecha de acceso: 27 de septiembre de 2008. Archivado desde el original el 16 de diciembre de 2008.
  2. Discusión sobre "codificación" en la documentación del lenguaje Perl . Consultado el 27 de septiembre de 2008. Archivado desde el original el 6 de octubre de 2008.
  3. Discusión sobre "codificación" en la documentación XSLT . Consultado el 5 de octubre de 2008. Archivado desde el original el 13 de agosto de 2017.
  4. Discusión de la relación entre los términos "codificación" y "conjunto de caracteres" en la documentación HTML . Consultado el 11 de octubre de 2008. Archivado desde el original el 26 de octubre de 2008.
  5. Especificaciones del juego de caracteres en el sitio web de la IANA . Consultado el 27 de septiembre de 2008. Archivado desde el original el 16 de julio de 2004.
  6. Decodificador universal - Convertidor cirílico . Fecha de acceso: 4 de diciembre de 2014. Archivado desde el original el 28 de diciembre de 2014.