Conjunto de caracteres ( conjunto de caracteres en inglés ) - una tabla que especifica la codificación de un conjunto finito de caracteres alfabéticos (generalmente elementos de texto: letras, números, signos de puntuación). Tal tabla empareja cada carácter con una secuencia de uno o más caracteres de otro alfabeto (puntos y rayas en código Morse , banderas de señales en la Armada , ceros y unos ( bits ) en la computadora).
Los caracteres en una computadora generalmente se codifican en uno o más bytes (grupos de ocho bits).
Aunque el término "conjunto de caracteres" ( eng. conjunto de caracteres, juego de caracteres ), legitimado por el estándar de Internet RFC 2278 , es ahora quizás el término más autorizado, el término "codificación" que lo precedió ( ing. codificación ) todavía se usa como sinónimo, en particular, en los lenguajes de programación Java [1] , Perl [2] y XSLT [3] , así como en HTML [4] .
A menudo, en lugar del término "juego de caracteres", el término " página de códigos " se usa incorrectamente, lo que en realidad significa un caso especial de un juego de caracteres con una codificación de un solo byte.
Actualmente se utilizan tres tipos de codificaciones: codificaciones de 16 bits compatibles con ASCII , compatibles con EBCDIC y Unicode , predominando abrumadoramente las primeras. La representación UTF-8 de Unicode es compatible con ASCII. Las codificaciones basadas en EBCDIC (como DCOI ) solo se usan en algunos mainframes . Inicialmente, cada sistema operativo usaba un conjunto de caracteres. Ahora, los conjuntos de caracteres utilizados están estandarizados [5] , dependen del tipo de sistema operativo solo por tradición y se configuran de acuerdo con la configuración regional .
Wikipedia y otros proyectos de la Fundación Wikimedia utilizan UTF-8 Unicode.
Las plataformas informáticas modernas de 8 bits se caracterizan por pequeñas cantidades de RAM y ROM; las codificaciones multibyte en tales productos no han recibido una distribución significativa. La razón de esto no es solo el mayor volumen ocupado por los datos de texto presentados en una codificación de varios bytes, sino también la falta de memoria "extra" para almacenar una representación gráfica de caracteres adicionales, así como la dificultad de procesar tales cadenas. Las siguientes codificaciones estándar de un solo byte se usan comúnmente en la actualidad:
Muchos editores de texto y navegadores modernos tienen una función de reconocimiento de codificación automática, pero no siempre da el resultado correcto. A veces sucede que el texto escrito, por ejemplo, en la línea de comando o en algunos programas, se decodifica incorrectamente y, en lugar de palabras normales, se obtiene un conjunto de caracteres incomprensibles. Una gran cantidad de decodificadores de texto que funcionan en línea pueden ayudarlo a lidiar con la lectura de dicho texto.
Para las codificaciones de un solo byte, se debe tener en cuenta el hecho de que la frecuencia de uso de diferentes letras varía mucho (por ejemplo, en ruso se usa a menudo "o", pero rara vez se usa "ъ"). Por lo tanto, al conocer el idioma del texto, puede elegir fácilmente una codificación en la que la frecuencia de los bytes coincida mejor con la frecuencia de las letras en un idioma determinado. [6]
Un punto de vista alternativo considera que dichos algoritmos heurísticos para determinar la codificación del texto son dañinos, ya que las tecnologías de la información modernas tienen los medios para hacer coincidir sin ambigüedades el texto con su página de códigos (ver, por ejemplo, MIME ). El uso generalizado de analizadores heurísticos fomenta el uso de programas de baja calidad para crear datos de texto que violan los estándares.
Codificaciones de caracteres | |
---|---|
Codificaciones históricas | compensación adicional semáforo (Makarov) morse Bodo MTK-2 borrador 6 bits SCP RADIX-50 EBCDIC KOI-7 ISO 646 |
representación moderna de 8 bits | simbolos ASCII no ASCII páginas de códigos de 8 bits cirílico KOI-8 Codificación básica maccirílico ISO 8859 1 (lat.) 2 3 cuatro 5 (kir.) 6 7 ocho 9 diez once 12 13 catorce 15 (€) dieciséis ventanas 1250 1251 (Kir.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM y DOS 437 850 852 855 866 "alternativa" MICRÓFONO |
Multibyte | tradicional DBCS GB2312 HTML unicode UTF-32 UTF-16 UTF-8 lista de personajes cirílico |
interfaz de usuario Diseño del teclado lugar traducción de línea fuente transcripción Fuentes personalizadas utilidades iconov registro |
Fundición tipográfica y diseño tipográfico | |||||||||
---|---|---|---|---|---|---|---|---|---|
Conceptos | |||||||||
Estructura de la fuente |
| ||||||||
Características de la fuente |
| ||||||||
Clasificación de las fuentes del alfabeto |
| ||||||||
estilos de fuente | |||||||||
Unidades | |||||||||
tipografía de computadora | |||||||||
ver también editorial Imprenta Tipografía Equipo Diseño Impresión |