Un compilador es un programa que traduce texto escrito en un lenguaje de programación a un conjunto de códigos de máquina [1] [2] [3] .
Compilación : ensamblaje del programa, que incluye:
Si el compilador genera un programa de lenguaje de máquina ejecutable, entonces dicho programa es ejecutado directamente por una máquina programable física (por ejemplo, una computadora). En otros casos, el programa máquina ejecutable es ejecutado por la máquina virtual correspondiente .
La entrada del compilador es:
La salida del compilador es una descripción equivalente del algoritmo en un lenguaje orientado a máquina (código objeto [5] , código de bytes ).
Compilar : ensamblar un programa de máquina, que incluye:
Muy a menudo, los compiladores de lenguajes de alto nivel solo realizan la traducción del código fuente, mientras confían el enlace a un enlazador externo, un enlazador que representa un programa independiente llamado por el compilador como una subrutina externa. Como resultado, muchos consideran que el compilador es una especie de traductor, lo cual es incorrecto...
Además, todos los compiladores se pueden dividir condicionalmente en dos grupos:
Tipos de compilación [2] :
El proceso de compilación consta de los siguientes pasos:
Las implementaciones del compilador estructural pueden ser las siguientes:
De acuerdo con el primer esquema, se construyeron los primeros compiladores; para los compiladores modernos, dicho esquema de construcción no es característico.
De acuerdo con el segundo esquema, se construyen todos los compiladores de lenguajes de alto nivel sin excepción. Cualquier compilador de este tipo solo realiza la traducción y luego llama al enlazador como una subrutina externa, que enlaza el programa orientado a la máquina. Tal esquema de construcción permite que el compilador trabaje fácilmente en el modo traductor desde el lenguaje de programación correspondiente. Esta circunstancia a menudo sirve como una razón para considerar al compilador como una especie de traductor, lo que naturalmente es incorrecto: todos los compiladores modernos de este tipo aún realizan enlaces, aunque por medio del enlazador externo llamado por el compilador, mientras que el compilador en sí nunca llama. el enlazador externo. Pero la misma circunstancia permite que el compilador de un lenguaje de programación en la fase de enlace incluya en el programa escrito en un lenguaje de programación funciones-subrutinas de las ya traducidas por el compilador/compilador correspondiente, escritas en otro lenguaje de programación. De modo que puede insertar funciones escritas en Pascal o Fortran en un programa C/C++ . De manera similar, y viceversa, las funciones escritas en C/C++ se pueden insertar en un programa Pascal o Fortran, respectivamente. Esto sería imposible sin el apoyo de muchos compiladores modernos para generar código para llamar a procedimientos (funciones) de acuerdo con las convenciones de otros lenguajes de programación. Por ejemplo, los compiladores modernos del lenguaje Pascal, además de organizar las llamadas a procedimientos/funciones en el propio estándar Pascal, admiten la organización de una llamada a procedimientos/funciones de acuerdo con las convenciones del lenguaje C/C++. (Por ejemplo, para que un procedimiento/función escrito en Pascal funcione con parámetros de entrada a nivel de código de máquina de acuerdo con las convenciones del lenguaje C/C++, la declaración de dicho procedimiento/función de Pascal debe contener la palabra clave cdecl .)
Finalmente, según el tercer esquema, se construyen los compiladores, que son sistemas completos que incluyen traductores de diferentes lenguajes de programación y enlazadores. Además, cualquier compilador de este tipo puede usar como traductor cualquier compilador con capacidad de traducción de un lenguaje de alto nivel en particular. Naturalmente, dicho compilador puede compilar un programa cuyas diferentes partes del texto fuente estén escritas en diferentes lenguajes de programación. A menudo, estos compiladores están controlados por un intérprete incorporado de uno u otro lenguaje de comandos. Un ejemplo sorprendente de tales compiladores es el compilador make available en todos los sistemas UNIX (en particular, en Linux) .
La traducción del programa como parte integral de la compilación incluye:
La mayoría de los compiladores traducen un programa de algún lenguaje de programación de alto nivel a un código de máquina que puede ser ejecutado directamente por un procesador físico . Por regla general, este código también está enfocado a la ejecución en el entorno de un sistema operativo específico , ya que utiliza las capacidades proporcionadas por él ( llamadas al sistema , bibliotecas de funciones). La arquitectura (conjunto de software y hardware) para la cual se compila (ensambla) un programa orientado a máquina se denomina máquina de destino .
El resultado de la compilación, un módulo de programa ejecutable, tiene el mayor rendimiento posible, pero está vinculado a un sistema operativo específico (familia o subfamilia de SO) y procesador (familia de procesadores) y no funcionará en otros.
Cada máquina de destino ( IBM , Apple , Sun , Elbrus , etc.) y cada sistema operativo o familia de sistemas operativos que se ejecutan en la máquina de destino requiere escribir su propio compilador. También existen los denominados compiladores cruzados que permiten, en una máquina y en el entorno de un sistema operativo, generar código destinado a ejecutarse en otra máquina de destino y/o en el entorno de otro sistema operativo. Además, los compiladores pueden optimizar el código para diferentes modelos de la misma familia de procesadores (al admitir funciones específicas del modelo o extensiones del conjunto de instrucciones). Por ejemplo, el código compilado para procesadores de la familia Pentium puede tener en cuenta las características de paralelización de instrucciones y usar sus extensiones específicas: MMX , SSE , etc.
Algunos compiladores traducen un programa de un lenguaje de alto nivel no directamente a código de máquina, sino a lenguaje ensamblador . (Ejemplo: PureBasic , que traduce el código BASIC al ensamblador FASM ). Esto se hace para simplificar la parte de generación de código del compilador y aumentar su portabilidad (la tarea de generar el código final y vincularlo a la plataforma de destino requerida se cambia a ensamblador ), o para poder controlar y corregir el resultado de la compilación (incluida la optimización manual) por parte del programador.
El resultado del trabajo del compilador puede ser un programa en un lenguaje de bajo nivel especialmente creado de comandos de código binario ejecutado por una máquina virtual . Tal lenguaje se llama pseudocódigo o bytecode . Como regla general, no es el código de máquina de ninguna computadora, y los programas en él se pueden ejecutar en varias arquitecturas, donde hay una máquina virtual correspondiente, pero en algunos casos, se crean plataformas de hardware que ejecutan directamente el pseudocódigo de cualquier idioma. . Por ejemplo, el pseudocódigo del lenguaje Java se denomina código de bytes de Java y se ejecuta en la máquina virtual de Java , y se creó la especificación del procesador picoJava para su ejecución directa . Para .NET Framework , el pseudocódigo se llama Common Intermediate Language (CIL) y el tiempo de ejecución se llama Common Language Runtime (CLR).
Algunas implementaciones de lenguajes interpretados de alto nivel (como Perl) usan código de bytes para optimizar la ejecución: los pasos costosos de analizar y convertir el texto del programa a código de bytes se realizan una vez que se cargan, luego el código correspondiente se puede reutilizar sin volver a compilar.
Debido a la necesidad de interpretación, el código de bytes se ejecuta mucho más lento que el código de máquina de funcionalidad comparable, pero es más portátil (no depende del sistema operativo ni del modelo de procesador). Para acelerar la ejecución del bytecode se utiliza la compilación dinámica , cuando la máquina virtual traduce el pseudocódigo a código máquina inmediatamente antes de su primera ejecución (y cuando se accede repetidamente al código, se ejecuta la versión ya compilada).
El tipo más popular de compilación dinámica es JIT . Otra variación es la compilación incremental .
El compilador JIT también compila el código CIL para el código de la máquina de destino, mientras que las bibliotecas de .NET Framework están precompiladas.
La traducción del código de bytes a código de máquina mediante un traductor especial de códigos de bytes, como se mencionó anteriormente, es una fase integral de la compilación dinámica. Pero la traducción de código de bytes también es útil para convertir simplemente un programa de código de bytes en un programa de lenguaje de máquina equivalente. Se puede traducir a código de máquina como código de bytes precompilado. Pero también la traducción del código de bytes a código de máquina puede ser realizada por el compilador de códigos de bytes inmediatamente después de la compilación del código de bytes. Casi siempre en el último caso, la traducción del código de bytes la realiza un traductor externo llamado por el compilador del código de bytes.
Hay programas que resuelven el problema inverso: traducir un programa de un lenguaje de bajo nivel a uno de alto nivel. Este proceso se denomina descompilación, y dichos programas se denominan descompiladores . Pero dado que la compilación es un proceso con pérdidas, generalmente no es posible restaurar exactamente el código fuente en, por ejemplo, C++. Los programas en códigos de bytes se descompilan de manera más eficiente; por ejemplo, hay un descompilador bastante confiable para Flash . Una variación de la descompilación es el desensamblaje del código de máquina en código de lenguaje ensamblador, que casi siempre se ejecuta de manera segura (en este caso, la complejidad puede ser un código automodificable o un código en el que el código real y los datos no están separados). Esto se debe al hecho de que existe una correspondencia casi uno a uno entre los códigos de instrucción de la máquina y las instrucciones del ensamblador.
Compilación separada ( eng. compilación separada ): traducción de partes del programa por separado con su posterior combinación por parte del enlazador en un solo módulo de carga [2] .
Históricamente, una característica del compilador, reflejada en su nombre ( eng. compile - poner juntos, componer), era que producía traducción y enlace, mientras que el compilador podía generar código de máquina inmediatamente . Sin embargo, más tarde, con el aumento de la complejidad y el tamaño de los programas (y el aumento del tiempo dedicado a la recompilación), se hizo necesario separar los programas en partes y aislar las bibliotecas que se pueden compilar independientemente unas de otras. En el proceso de traducción de un programa, el compilador mismo, o un compilador llamado por el compilador, genera un módulo de objeto que contiene información adicional, que luego, en el proceso de vincular partes en un módulo ejecutable, se utiliza para vincular y resolver referencias entre partes del programa. La compilación separada también le permite escribir diferentes partes del código fuente de un programa en diferentes lenguajes de programación.
La aparición de la compilación separada y la asignación de la vinculación como una etapa separada se produjo mucho después de la creación de los compiladores. En este sentido, en lugar del término "compilador", a veces se usa el término "traductor" como su sinónimo: ya sea en la literatura antigua, o cuando se quiere enfatizar su capacidad para traducir un programa a código de máquina (y viceversa, usan el término "compilador" para enfatizar la capacidad de ensamblar a partir de muchos archivos uno). Eso es solo que el uso de los términos "compilador" y "traductor" en este contexto es incorrecto. Incluso si el compilador realiza la traducción del programa por sí mismo, delegando el enlace al programa vinculador externo invocado, dicho compilador no puede considerarse una especie de traductor: el traductor realiza la traducción del programa fuente y nada más. Y ciertamente no los traductores son compiladores como la utilidad de compilación del sistema make que se encuentra en todos los sistemas UNIX.
La utilidad make en sí misma es un excelente ejemplo de una implementación bastante exitosa de compilación separada. La operación de la utilidad make está controlada por un script en el idioma de entrada interpretado por la utilidad, conocido como makefile , contenido en el archivo de texto de entrada especificado cuando se ejecuta la utilidad. La utilidad en sí no realiza ninguna traducción o vinculación; de facto , la utilidad make funciona como un administrador de procesos del compilador, organizando la compilación del programa de acuerdo con el script especificado. En particular, durante la compilación del programa de destino, la utilidad make llama a compiladores de lenguajes de programación que traducen diferentes partes del programa fuente en código objeto, y luego se llama a uno u otro enlazador que vincula el programa o biblioteca ejecutable final. módulo de programa. Al mismo tiempo, las diferentes partes del programa, organizadas como archivos de texto fuente separados, se pueden escribir tanto en el mismo lenguaje de programación como en diferentes lenguajes de programación. Durante la recompilación del programa, solo se traducen los archivos parciales modificados del código fuente del programa, como resultado de lo cual la duración de la recompilación del programa se reduce significativamente (a veces en un orden de magnitud).
En los albores del desarrollo de las computadoras, los primeros compiladores (traductores) fueron llamados “programas de programación” [6] (ya que en ese momento solo se consideraba programa el código máquina, y un “programa de programación” era capaz de hacer código máquina a partir de texto humano, es decir, programar una computadora ).
diccionarios y enciclopedias | ||||
---|---|---|---|---|
|