Conjunto de caracteres

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 15 de mayo de 2017; las comprobaciones requieren 17 ediciones .

Conjunto de caracteres ( conjunto de caracteres en inglés ) - una tabla que especifica la codificación de un conjunto finito de caracteres alfabéticos (generalmente elementos de texto: letras, números, signos de puntuación). Tal tabla empareja cada carácter con una secuencia de uno o más caracteres de otro alfabeto (puntos y rayas en código Morse , banderas de señales en la Armada , ceros y unos ( bits ) en la computadora).

Juego de caracteres de computadora

Los caracteres en una computadora generalmente se codifican en uno o más bytes (grupos de ocho bits).

Aunque el término "conjunto de caracteres" ( eng. conjunto de caracteres, juego de caracteres ), legitimado por el estándar de Internet RFC 2278 , es ahora quizás el término más autorizado, el término "codificación" que lo precedió ( ing. codificación ) todavía se usa como sinónimo, en particular, en los lenguajes de programación Java [1] , Perl [2] y XSLT [3] , así como en HTML [4] .

A menudo, en lugar del término "juego de caracteres", el término " página de códigos " se usa incorrectamente, lo que en realidad significa un caso especial de un juego de caracteres con una codificación de un solo byte.

Actualmente se utilizan tres tipos de codificaciones: codificaciones de 16 bits compatibles con ASCII , compatibles con EBCDIC y Unicode , predominando abrumadoramente las primeras. La representación UTF-8 de Unicode es compatible con ASCII. Las codificaciones basadas en EBCDIC (como DCOI ) solo se usan en algunos mainframes . Inicialmente, cada sistema operativo usaba un conjunto de caracteres. Ahora, los conjuntos de caracteres utilizados están estandarizados [5] , dependen del tipo de sistema operativo solo por tradición y se configuran de acuerdo con la configuración regional .

Wikipedia y otros proyectos de la Fundación Wikimedia utilizan UTF-8 Unicode.

Las plataformas informáticas modernas de 8 bits se caracterizan por pequeñas cantidades de RAM y ROM; las codificaciones multibyte en tales productos no han recibido una distribución significativa. La razón de esto no es solo el mayor volumen ocupado por los datos de texto presentados en una codificación de varios bytes, sino también la falta de memoria "extra" para almacenar una representación gráfica de caracteres adicionales, así como la dificultad de procesar tales cadenas. Las siguientes codificaciones estándar de un solo byte se usan comúnmente en la actualidad:

En programas en inglés - CP437 ;
En los programas en ruso, se utilizan las siguientes opciones:
- CP866 : más utilizado por ingenieros más experimentados que comenzaron a trabajar en DOS; le permite dibujar "marcos" pseudográficos, pero requiere almacenar el código fuente del software en esta página de códigos en particular, lo que puede ser difícil para los principiantes;
- CP1251 : se usa si es necesario tener caracteres rusos en una matriz continua para facilitar el procesamiento, y si Windows está disponible, dicho texto se puede transcodificar sin usar software de terceros. Pero, no le permite dibujar "marcos".

Reconocimiento automático de codificación

Muchos editores de texto y navegadores modernos tienen una función de reconocimiento de codificación automática, pero no siempre da el resultado correcto. A veces sucede que el texto escrito, por ejemplo, en la línea de comando o en algunos programas, se decodifica incorrectamente y, en lugar de palabras normales, se obtiene un conjunto de caracteres incomprensibles. Una gran cantidad de decodificadores de texto que funcionan en línea pueden ayudarlo a lidiar con la lectura de dicho texto.

Para las codificaciones de un solo byte, se debe tener en cuenta el hecho de que la frecuencia de uso de diferentes letras varía mucho (por ejemplo, en ruso se usa a menudo "o", pero rara vez se usa "ъ"). Por lo tanto, al conocer el idioma del texto, puede elegir fácilmente una codificación en la que la frecuencia de los bytes coincida mejor con la frecuencia de las letras en un idioma determinado. [6]

Un punto de vista alternativo considera que dichos algoritmos heurísticos para determinar la codificación del texto son dañinos, ya que las tecnologías de la información modernas tienen los medios para hacer coincidir sin ambigüedades el texto con su página de códigos (ver, por ejemplo, MIME ). El uso generalizado de analizadores heurísticos fomenta el uso de programas de baja calidad para crear datos de texto que violan los estándares.

Codificaciones comunes

ISO 646
- ASCII
BCDIC
EBCDIC
Norma ISO 8859 :
- ISO 8859-1 , ISO 8859-2 , ISO 8859-3 , ISO 8859-4 , ISO 8859-5 , ISO 8859-6 , ISO 8859-7 , ISO 8859-8 , ISO 8859-9 , ISO 8859-10 , ISO 8859-11 , ISO 8859-13 , ISO 8859-14 , ISO 8859-15
- CP437 , CP737 , CP850 , CP852 , CP855 , CP857 , CP858 , CP860 , CP861 , CP863 , CP865 , CP866 , CP869
Codificaciones de Microsoft Windows :
- Windows-1250 para idiomas centroeuropeos que utilizan caracteres latinos (polaco, checo, eslovaco, húngaro, esloveno, croata, rumano y albanés)
- Windows-1251 para alfabetos cirílicos
- Windows-1252 para idiomas occidentales
- Windows-1253 para griego
- Windows-1254 para turco
- Windows-1255 para hebreo
- Windows-1256 para árabe
- Windows-1257 para idiomas bálticos
- Windows-1258 para vietnamita
MacRoman , MacCyrillic
KOI8 (KOI8-R, KOI8-U…), KOI-7
codificación búlgara
ISC II
VISCII
Big5 (variante más famosa de Microsoft CP950 )
- HKSCS
Guobiao
- GB2312
- GBK (Microsoft CP936 )
- GB18030
Shift JIS para japonés (Microsoft CP932 )
EUC-KR para coreano (Microsoft CP949 )
ISO-2022 y EUC para escritura china
Las codificaciones UTF- 8 , UTF-16 y UTF-32 del conjunto de caracteres Unicode

Véase también

Enlaces

Códigos de caracteres Unicode en unicode.org

Notas

↑ Lista de las principales "codificaciones" en el manual de Java SE 6 . Fecha de acceso: 27 de septiembre de 2008. Archivado desde el original el 16 de diciembre de 2008. (indefinido)
↑ Discusión sobre "codificación" en la documentación del lenguaje Perl . Consultado el 27 de septiembre de 2008. Archivado desde el original el 6 de octubre de 2008. (indefinido)
↑ Discusión sobre "codificación" en la documentación XSLT . Consultado el 5 de octubre de 2008. Archivado desde el original el 13 de agosto de 2017. (indefinido)
↑ Discusión de la relación entre los términos "codificación" y "conjunto de caracteres" en la documentación HTML . Consultado el 11 de octubre de 2008. Archivado desde el original el 26 de octubre de 2008. (indefinido)
↑ Especificaciones del juego de caracteres en el sitio web de la IANA . Consultado el 27 de septiembre de 2008. Archivado desde el original el 16 de julio de 2004. (indefinido)
↑ Decodificador universal - Convertidor cirílico . Fecha de acceso: 4 de diciembre de 2014. Archivado desde el original el 28 de diciembre de 2014. (indefinido)

Codificaciones de caracteres
alfabeto texto expediente datos conjunto de caracteres conversión
Codificaciones históricas	compensación adicional semáforo (Makarov) morse Bodo MTK-2 borrador 6 bits SCP RADIX-50 EBCDIC DKOI KOI-7 ISO 646
representación moderna de 8 bits	simbolos ASCII gerentes impreso no ASCII pseudográficos páginas de códigos de 8 bits cirílico KOI-8 Codificación básica maccirílico ISO 8859 1 (lat.) 2 3 cuatro 5 (kir.) 6 7 ocho 9 diez once 12 13 catorce 15 (€) dieciséis ventanas 1250 1251 (Kir.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM y DOS 437 850 852 855 866 "alternativa" MICRÓFONO
Multibyte	tradicional DBCS GB2312 HTML unicode UTF-32 UTF-16 UTF-8 lista de personajes cirílico
interfaz de usuario Diseño del teclado lugar traducción de línea fuente transcripción Fuentes personalizadas utilidades iconov registro

Fundición tipográfica y diseño tipográfico

Conceptos

Estructura de la fuente

Base
Rótulos
Serif
punto de letra
zona de bolos

Características de la fuente

Abertura
Aprosh
interletrado
Minúsculas de crecimiento
Crecimiento de capital
crecimiento de la fuente
punto de fuente
Bolo
- Lista
Dimensiones
Saturación

Clasificación de las fuentes
del alfabeto

antiguo	Mayúsculo Minúscula minúscula carolingia uncial estilo isla escritura gaélica
gótico	escritura neogótica Rotonda Textura Fractura Schwabacher
eslavo	Olmo glagolítico fuente cívica Semi-charter Cursivo Carta
Moderno	antigüedad Grotesco Monoespaciado / Proporcional al cuadrado escrito monitor búlgaro

estilos de fuente

Unidades

tipografía de computadora

ver también editorial Imprenta Tipografía Equipo Diseño Impresión