Re2c

Re2c
Tipo de	software libre y de código abierto y generador de analizador léxico [d]
Escrito en	C y C++
Sistema operativo	multiplataforma
Primera edición	1994 [1]
ultima versión	3.0 ( 11 de febrero de 2022 ) [2]
Estado	activo
Sitio web	re2c.org _
Archivos multimedia en Wikimedia Commons

re2c ( r egular e xpression to c , r egular e xpression to c ode ) es una utilidad generadora gratuita de código abierto que genera lexers rápidos y fácilmente integrables , orientada a trabajar con lenguajes: C , C++ , Go , Rust .

La utilidad fue creada originalmente por Peter Bumbulis y descrita en su artículo [3] , luego re2c se lanzó al dominio público y desde entonces ha sido mantenida por voluntarios [4] .

La utilidad se diferencia de sus análogos más conocidos (como lex y flex ) en que tiene una interfaz de interacción flexible (el código generado interactúa con un programa externo usando primitivas), genera lexers optimizados que no son de tabla, admite capturas (extracción de subcoincidencia ) basado en autómatas finitos deterministas con etiquetas (TDFA).

La utilidad se usa principalmente en proyectos donde se requiere un análisis sintáctico de alta velocidad , como Ninja [5] y PHP [6] .

Filosofía

El objetivo principal de re2c es generar lexers rápidos [3] que sean al menos tan rápidos como los lexers escritos a mano razonablemente optimizados . En lugar de utilizar el enfoque de hoja de cálculo tradicional, re2c codifica la máquina de estado generada directamente en forma de condicionales y comparaciones. Como resultado, el programa es más rápido que su contraparte basada en tablas [3] y mucho más fácil de depurar y comprender. Además, este enfoque a menudo conduce a lexers más pequeños [3] porque re2c aplica una serie de optimizaciones, como la minimización de DFA y la construcción de autómatas de túneles [7] . Otra gran característica de re2c es su interfaz flexible. En lugar de utilizar una plantilla de programa fija, re2c permite al programador escribir la mayor parte del código de la interfaz y adaptar el lexer generado a cualquier entorno en particular. La idea principal es que re2c debe ser una abstracción de costo cero para el programador, el uso de la utilidad nunca debe hacer que el programa se ejecute más lento que la implementación codificada a mano correspondiente.

Características

capturas de extracción de subcoincidencia [ 8] : re2c admite grupos de captura compatibles con POSIX y etiquetas individuales [9] .

La implementación se basa en el algoritmo "lookahead-TDFA" [10] [11] [12] ;

Compatibilidad con varias codificaciones [13] : re2c admite ASCII , UTF-8 , UTF-16 , UTF-32 , UCS-2 y EBCDIC ;
Interfaz de usuario flexible [14] : el código generado utiliza varias operaciones primitivas para interactuar con el entorno (leer los caracteres de entrada, pasar a la siguiente posición de entrada , etc.). Los usuarios pueden redefinir estas primitivas como deseen;
Estado persistente [15] : re2c es compatible tanto con los lexers del modelo pull (cuando el lexer se ejecuta sin interrupción y obtiene más información según sea necesario) como con los lexers del modelo push (cuando el lexer se detiene periódicamente y se reanuda para analizar nuevos bloques de entrada);
Condiciones de activación [16] - re2c puede generar varios niveles interconectados, donde cada lexer es activado por una determinada condición en el programa;
Autocomprobación [17] : re2c tiene un modo especial en el que ignora todo el código de interfaz definido por el usuario y genera un programa básico independiente. Además, re2c genera dos archivos, uno con cadenas de entrada derivadas de la gramática normal y otro con resultados de conciliación comprimidos que se utilizan para probar el comportamiento del lexer en todas las entradas. Las cadenas de entrada se generan para cubrir ampliamente las transiciones y rutas del DFA . La generación de datos ocurre inmediatamente después de que se crea el DFA y antes de cualquier optimización, pero el lexer en sí está completamente optimizado, por lo que los programas básicos pueden detectar cualquier error en la optimización y la generación de código;
Sistema de advertencia [18] : re2c realiza un análisis estático del programa y advierte a sus usuarios sobre posibles ambigüedades o errores, como flujo de control indefinido, código inalcanzable, caracteres de escape con escape incorrecto y posible uso indebido de primitivas de interfaz;
Depuración: además de crear lexers legibles, re2c tiene una serie de opciones que generan varias representaciones intermedias del lexer generado, como NFA , varios pasos de DFA y el gráfico de programa DOT [19] resultante .

Sintaxis

El programa re2c puede contener cualquier número /*!re2c ... */de bloques. Cada bloque consta de una secuencia de reglas, definiciones y configuraciones (se pueden mezclar, pero generalmente es mejor colocar primero las configuraciones, luego las definiciones y luego las reglas). Las reglas son de la forma - REGEXP { CODE }o REGEXP := CODE;, donde REGEXPes una expresión regular y CODE- es un bloque de código C. Cuando REGEXPcoincide con la cadena de entrada, el flujo de control se transfiere al bloque correspondiente CODE. Hay una regla especial: la regla predeterminada con *en lugar de REGEXP, se activa si ninguna otra regla coincide. re2c tiene una semántica de coincidencia codiciosa : si coinciden varias reglas, se prefiere la regla que coincide con el prefijo más largo, si las reglas en conflicto coinciden con el mismo prefijo, entonces la regla anterior tiene prioridad. Las definiciones tienen la forma NAME = REGEXP;(y en consecuencia NAME { REGEXP }en el modo compatible con Flex). Las configuraciones tienen el formato re2c:CONFIG = VALUE;, donde CONFIGes el nombre de una configuración específica y VALUEes un número o una cadena. Para un uso más avanzado, consulte el manual oficial de re2c [20] .

Expresiones regulares

re2c usa la siguiente sintaxis para expresiones regulares:

"foo"literal de cadena con distinción entre mayúsculas y minúsculas;
'foo'literal de cadena sin distinción entre mayúsculas y minúsculas;
[a-xyz], [^a-xyz]clase de carácter (se puede negar);
.cualquier carácter posible excepto el carácter de nueva línea ;
R \ S diferencia en las clases de personajes;
R*cero o más coincidencias para el carácter R;
R+una o más coincidencias con el carácter R;
R?coincidencia de caracteres opcional R(cero o uno);
R{n}repetición Rexactamente nuna vez;
R{n,}repetir Ral menos nuna vez;
R{n,m}repetición Rde na mveces;
(R)simple R(los paréntesis se usan para anular la precedencia o la coincidencia en el estilo POSIX);
R S concatenación R seguida de S;
R | Salternativa Ro S;
R / S anticipación seguido de ; _ _ _RS
nameexpresión regular definida como name(excepto en el modo de compatibilidad Flex);
@stag s-label (del inglés etiqueta - etiqueta o etiqueta): guarda la última posición de entrada, en la que hace @stagcoincidir la variable con el nombre stag;
#mtag m-label : guarda todas las posiciones de entrada donde #mtagcoincide con la variable nombrada mtag.

Las clases de caracteres y los literales de cadena pueden contener las siguientes secuencias de escape: \a, \b, \f, \n, \r, \t, \v, \\, octal \oooy hexadecimal \xhh, \uhhhh, \Uhhhhhhhh.

Ejemplos de código

Ejemplos de programas en varios idiomas

El siguiente es un ejemplo de un programa re2c simple en el archivo example.re . Comprueba que todos los argumentos de entrada sean números decimales. El código para re2c está enmarcado en los comentarios /*!re2c ... */[21] .

c :

// re2c $ENTRADA -o $SALIDA -i --case-ranges #incluir <afirmar.h> bool lex ( const char * s ) { const char * YYCURSOR = s ; /*!re2c re2c:yyfill:habilitar = 0; re2c:define:YYCTYPE = char; número = [1-9][0-9]*; número { devuelve verdadero; } * { falso retorno; } */ } int principal () { afirmar ( lex ( "1234" )); devolver 0 ; }

Dado que el comando $ re2c -is -o example.c example.regenera el siguiente código ( ejemplo.c ). El contenido del comentario /*!re2c ... */se reemplaza por un autómata finito determinista codificado como saltos y comparaciones condicionales, el resto del programa se copia textualmente en el archivo de salida. Hay varias opciones para generar código, generalmente re2c usa el operador switch, pero puede usar operadores anidados if(como en este ejemplo con la opción -s) o generar mapas de bits y tablas de salto . Qué opción es mejor depende del compilador de C , se anima a los usuarios de re2c a experimentar.

/* Generado por re2c */ // re2c $ENTRADA -o $SALIDA -i --case-ranges #incluir <afirmar.h> bool lex ( const char * s ) { const char * YYCURSOR = s ; { char yych ; yych = * YYCURSOR ; cambiar ( yych ) { caso '1' ... '9' : goto yy2 ; predeterminado : ir a yy1 ; } yy1 : ++ YYCURSOR ; { devuelve falso ; } yy2 : yych = *++ YYCURSOR ; cambiar ( yych ) { caso '0' ... '9' : goto yy2 ; predeterminado : ir a yy3 ; } yy3 : { devuelve verdadero ; } } } int principal () { afirmar ( lex ( "1234" )); devolver 0 ; }

ir :

//ir:generar re2go $ENTRADA -o $SALIDA -i paquete principal func lex ( cadena de cadena ) { var cursor int /*!re2c re2c:define:YYCTYPE = byte; re2c:define:YYPEEK = "str[cursor]"; re2c:define:YYSKIP = "cursor += 1"; re2c:yyfill:habilitar = 0; número = [1-9][0-9]*; número {volver} * { pánico("¡error!") } */ } función principal () { lex ( "1234\x00" ) } // Código generado por re2c, NO EDITAR. //ir:generar re2go $ENTRADA -o $SALIDA -i paquete principal func lex ( cadena de cadena ) { var cursor int { var yych byte yych = cadena [ cursor ] cambiar ( yych ) { caso '1' , '2' , '3' , '4' , '5' , '6' , '7' , '8' , '9' : ir a yy2 predeterminado : ir a yy1 } yy1 : cursor += 1 { pánico ( "¡error!" ) } yy2 : cursor += 1 yych = cadena [ cursor ] cambiar ( yych ) { caso '0' , '1' , '2' , '3' , '4' , '5' , '6' , '7' , '8' , '9' : ir a yy2 predeterminado : ir a yy3 } yy3 : { volver } } } función principal () { lex ( "1234\x00" ) }

óxido :

// re2rust $ENTRADA -o $SALIDA fn lex ( s : & [ u8 ]) -> bool { dejar mut cursor = 0 ; /*!re2c re2c:define:YYCTYPE = u8; re2c:define:YYPEEK = "*s.get_unchecked(cursor)"; re2c:define:YYSKIP = "cursor += 1;"; re2c:yyfill:habilitar = 0; número = [1-9][0-9]*; número { devuelve verdadero; } * { falso retorno; } */ } fn principal () { ¡afirmar! ( lex ( b"1234 \0 " )); } /* Generado por re2c */ // re2rust $ENTRADA -o $SALIDA fn lex ( s : & [ u8 ]) -> bool { dejar mut cursor = 0 ; { #[permitir(asignaciones_no_usadas)] sea mut yych : u8 = 0 ; let mut yystate : usize = 0 ; ' yyl : bucle { estado de coincidencia { 0 => { yych = inseguro { * s . get_unchecked ( cursor )}; cursor += 1 ; partido yych { 0x31 ..= 0x39 => { yestado = 2 ; continuar 'yyl ; } _ => { yestado = 1 ; continuar 'yyl ; } } } 1 => { devuelve falso ; } 2 => { yych = inseguro { * s . get_unchecked ( cursor )}; partido yych { 0x30 .. = 0x39 _ cursor += 1 ; yestado = 2 ; continuar 'yyl ; } _ => { yestado = 3 ; continuar 'yyl ; } } } 3 => { devuelve verdadero ; } _ => { ¡pánico! ( "error interno del lexer" ) } } } } } fn principal () { ¡afirmar! ( lex ( b"1234 \0 " )); }

Proyectos de software usando re2c

PHP es un popular lenguaje de secuencias de comandos de propósito general [6] ;
Ninja es un sistema de compilación orientado a la velocidad [5] ;
SpamAssassin es un programa para filtrar correo basura [22] ;
BRL-CAD - Programa de modelado 3D ( CAD ) [23] ;
STEPCode - ISO 10303 [24] implantación ;
Yasm : reelaboración completa del ensamblador modular de NASM [25] ;
Wake es una herramienta de compilación de SiFive [26] .

Véase también

Notas

↑ (título no especificado) - doi:10.1145/176454.176487
↑ https://github.com/skvadrik/re2c/releases/tag/3.0 - 2022.
↑ 1 2 3 4 Bumbulis Peter , Donald D. Cowan. RE2C: un generador de escáner más versátil (inglés) // Association for Computing Machinery, Nueva York, NY, Estados Unidos: revista. - 1993. - 3-12 ( vol. 2 , no. 1-4 ). - Pág. 70-84 . — ISSN 1057-4514 . doi : 10.1145 / 176454.176487 .
↑ re2c: autores . Consultado el 11 de febrero de 2022. Archivado desde el original el 21 de julio de 2011.
↑ 1 2 Ninja : build.ninja . ninja Consultado el 11 de febrero de 2022. Archivado desde el original el 5 de mayo de 2022.
↑ 1 2 Creación de PHP . Libro de aspectos internos de PHP. Consultado el 11 de febrero de 2022. Archivado desde el original el 8 de mayo de 2021.
↑ Joseph Grosch. Generación eficiente de escáneres de mesa (inglés) // Software: práctica y experiencia 19 : revista. - 1989. - Pág. 1089-1103 .
↑ Extracción de subcoincidencias, documentación de re2c . Consultado el 11 de febrero de 2022. Archivado desde el original el 31 de enero de 2022.
↑ Ville Laurikari. NFA con transiciones etiquetadas, su conversión a autómatas deterministas y su aplicación a expresiones regulares // Séptimo Simposio Internacional sobre Procesamiento de Cadenas y Recuperación de Información, 2000. SPIRE 2000. Actas. : revista. - 2000. Archivado el 8 de febrero de 2022.
↑ Ulia Trofimovich (2017). “Autómatas Finitos Deterministas Etiquetados con Lookahead”. arXiv : 1907.08837 .
↑ Ulia Trofimovich. RE2C: un generador lexer basado en lookahead TDFA // Impactos del software: revista. - 2020. - Vol. 6 _ -doi : 10.1016/ j.simpa.2020.100027 .
↑ Ulya, Trofimovich Lookahead TDFA en imágenes (diapositivas) (inglés) (PDF) (2021). Consultado el 11 de febrero de 2022. Archivado desde el original el 27 de enero de 2022.
↑ re2c: soporte de codificación . Consultado el 11 de febrero de 2022. Archivado desde el original el 31 de enero de 2022.
↑ re2c: Interfaz del programa . Consultado el 11 de febrero de 2022. Archivado desde el original el 31 de enero de 2022.
↑ re2c : estado almacenable . Consultado el 11 de febrero de 2022. Archivado desde el original el 31 de enero de 2022.
↑ re2c: Condiciones de inicio . Consultado el 11 de febrero de 2022. Archivado desde el original el 31 de enero de 2022.
↑ re2c: Esqueleto . Consultado el 11 de febrero de 2022. Archivado desde el original el 31 de enero de 2022.
↑ re2c: Advertencias . Consultado el 11 de febrero de 2022. Archivado desde el original el 31 de enero de 2022.
↑ Visualización , documentación re2c . Consultado el 11 de febrero de 2022. Archivado desde el original el 31 de enero de 2022.
↑ re2c: Manual de usuario (C ) . Consultado el 11 de febrero de 2022. Archivado desde el original el 31 de enero de 2022.
↑ re2c . Consultado el 11 de febrero de 2022. Archivado desde el original el 16 de febrero de 2022. (indefinido)
↑ SpamAssassin (sa-compile ) . Consultado el 11 de febrero de 2022. Archivado desde el original el 20 de enero de 2022.
↑ BRL-CAD (herramientas: re2c ) . Consultado el 11 de febrero de 2022. Archivado desde el original el 11 de febrero de 2022.
↑ Proceso de construcción . Consultado el 11 de febrero de 2022. Archivado desde el original el 20 de enero de 2022.
↑ El proyecto del ensamblador modular de Yasm: características internas clave . Consultado el 11 de febrero de 2022. Archivado desde el original el 20 de enero de 2022.
↑ despertar ._ _ Consultado el 11 de febrero de 2022. Archivado desde el original el 11 de febrero de 2022.

Enlaces

Sitio oficial (inglés)
repositorio de proyectos