Formato de archivo

Formato de archivo, formato de datos  : especificación de la estructura de datos registrada en un archivo de computadora . El identificador de formato de archivo generalmente se especifica al final del nombre del archivo como una " extensión ". La extensión del nombre del archivo ayuda a identificar el formato de los datos contenidos en el archivo para los programas que pueden trabajar con él. A veces, el formato de datos se especifica adicionalmente al principio del contenido del archivo.

El sistema operativo utiliza la asociación de archivo a programa para determinar qué programa puede abrir un archivo .

Por ejemplo, la terminación del nombre (extensión) " .txt " generalmente se usa para indicar archivos que contienen solo información de texto , y " .doc " - que contiene información de texto estructurada de acuerdo con los estándares del programa Microsoft Word . Los archivos cuyo contenido se ajusta al mismo formato (con menos frecuencia, la misma familia de formatos) a veces se denominan tipos de archivo único .

Dado que el concepto común de un archivo en informática es una secuencia de bytes no estructurada , los programas informáticos que almacenan datos estructurados en archivos deben convertirlos de alguna manera en una secuencia de bytes y viceversa (en POO , estas operaciones se denominan, respectivamente, " serialización " y "deserialización"; para información textual, este último también se denomina "parsing" o " parsing "). El algoritmo para estas transformaciones, así como las convenciones sobre cómo se organizan varias piezas de datos estructurados dentro del archivo, constituyen su "formato".

Los diferentes formatos de archivo pueden variar en el nivel de detalle, un formato puede ser un "complemento" de otro o usar elementos de otros formatos. Por ejemplo, el formato de texto impone solo las restricciones más generales sobre la estructura de datos. El formato HTML establece reglas adicionales para la estructura interna del archivo, pero cualquier archivo HTML es al mismo tiempo un archivo de texto.

Otro ejemplo es la estructura de los programas de computadora - archivos ejecutables : debe cumplir estrictamente con algunas expectativas (especificaciones) del sistema operativo que lo ejecuta .

Especificaciones

Para muchos formatos de archivo, existen especificaciones publicadas que detallan la estructura de archivo de un formato dado, cómo los programas deben codificar datos para escribir en ese formato y cómo decodificarlos cuando se leen. La mayoría de estas especificaciones están disponibles gratuitamente, algunas se distribuyen por una tarifa.

A veces, las empresas pueden considerar ciertos formatos de archivo como su secreto comercial y no publicarlos. Un ejemplo muy conocido son los formatos de archivo de la suite de Microsoft Office . Sin embargo, con la transición al formato abierto Office Open XML , Microsoft aún publicó especificaciones de formato bajo OSP [1] [2] [3] . En algunos casos, la empresa que lanzó la aplicación simplemente no siente la necesidad de tomarse el tiempo para escribir una especificación detallada.

Si no se dispone de una especificación de formato, se debe realizar ingeniería inversa para que el programa sea compatible con ese formato . En la mayoría o en todos los países, los formatos de archivo no están protegidos por leyes de derechos de autor. Sin embargo, en algunos países, los algoritmos utilizados para codificar datos en un formato pueden estar protegidos por patentes. Por ejemplo, el formato GIF generalizado utilizó un algoritmo patentado (las patentes vencieron en varios países en 2003-2004), lo que condujo al desarrollo de un formato PNG alternativo .

Determinando el tipo de archivo

El tipo de archivo es información para identificar rápidamente el contenido de un archivo por parte del sistema operativo y el usuario sin tener que leer todo el contenido del archivo. Gracias a esta información, el usuario conoce de forma aproximada el tipo de información que contiene el archivo, pudiendo asociar al sistema operativo un programa de tratamiento de archivos de este tipo. Para trabajar correctamente con archivos, los programas deben poder determinar su tipo. Por razones históricas, diferentes sistemas operativos utilizan diferentes enfoques para esta tarea.

Extensión de nombre de archivo

Algunos sistemas operativos, como CP/M , RT-11 , DOS y Microsoft Windows , usan parte del nombre de un archivo , es decir, " extensión de nombre de archivo ", para determinar el tipo de archivo. En los sistemas operativos más antiguos, estos eran tres caracteres separados del nombre del archivo por un punto (en los sistemas de archivos de la familia FAT , el nombre y la extensión se almacenaban por separado, el punto ya se agregaba a nivel del sistema operativo ); en los sistemas más nuevos, la extensión puede ser simplemente parte del nombre, en cuyo caso su longitud está limitada únicamente por la longitud no utilizada del nombre (que puede ser, por ejemplo, 255 caracteres). Por ejemplo, los archivos HTML pueden tener la extensión ".htm" o ".html".

El usuario puede cambiar libremente la extensión del archivo. Debido a que muchos shells de usuario usan una extensión para determinar con qué programa abrir un archivo, esto puede hacer que el archivo quede inutilizable o incluso "perdido" si el usuario olvida la extensión original. Por lo tanto, el Explorador de Windows oculta las extensiones de forma predeterminada. Esta práctica tiene un inconveniente: dado que la extensión del archivo no es visible, puedes engañar al usuario haciéndole creer que, por ejemplo, un archivo con extensión .exe es una imagen con una extensión diferente. Al mismo tiempo, un usuario avanzado puede usar la capacidad de cambiar el tipo asignado a un archivo simplemente cambiando la extensión para abrirlo en otro programa sin especificarlo directamente. Esto puede ser útil si el programa no permite abrir archivos con alguna extensión y el usuario sabe que su formato es adecuado para procesar en este programa.

Números mágicos

Otro método, ampliamente utilizado en sistemas operativos similares a UNIX , es almacenar en el propio archivo un cierto "número mágico" ( firma ), una secuencia de caracteres mediante la cual se puede identificar el formato del archivo. El término se usó originalmente para un conjunto especial de identificadores de 2 bytes almacenados al principio de un archivo (esta práctica ha migrado a otros sistemas operativos, como MZ en MS-DOS ), sin embargo, cualquier secuencia de caracteres específica de este formato se puede utilizar como "número mágico".

Para determinar el formato de un archivo, use el comando de archivo, que usa el archivo /usr/share/misc/magic

$archivo /bin/ls /bin/ls: ejecutable ELF LSB de 32 bits, Intel 80386, versión 1 (SYSV), vinculado dinámicamente (usa bibliotecas compartidas), para GNU/Linux 2.6.18, eliminado $filenotes.txt notas.txt: texto UTF-8 Unicode $ archivo licencia_2009-10-12.odt Leave_2009-10-12.odt: Texto de documento abierto

Las líneas con los llamados " shebangs " en los archivos de script son un tipo especial de "números mágicos". Aquí, la firma es un texto legible por humanos que define el programa: el intérprete del script.

Metadatos

Algunos sistemas de archivos permiten almacenar atributos adicionales para cada archivo, es decir, " metadatos ". Estos metadatos se pueden utilizar para almacenar información sobre el tipo de archivo. Este enfoque se utiliza en las computadoras Apple Macintosh . Los metadatos son compatibles con sistemas de archivos modernos como HPFS , NTFS , ext2 , ext3 y otros. La desventaja de este método es la mala portabilidad: al copiar archivos entre sistemas de archivos de diferentes tipos, se pueden perder metadatos.

MIME

Los tipos de datos definidos por el estándar MIME se usan ampliamente en varios protocolos de red , pero todavía se usan raramente en los sistemas de archivos.

Véase también

Notas

  1. Tamura Jones. Microsoft lanza los formatos binarios de Office . www.tamurajones.net. Consultado el 11 de enero de 2018. Archivado desde el original el 12 de noviembre de 2017.
  2. Promesa de especificación abierta  . msdn.microsoft.com. Consultado el 11 de enero de 2018. Archivado desde el original el 7 de diciembre de 2017.
  3. ↑ Comprensión de los formatos de archivos  binarios de Office . msdn.microsoft.com. Consultado el 11 de enero de 2018. Archivado desde el original el 11 de julio de 2017.

Enlaces