IEEE754-2008

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 24 de agosto de 2019; las comprobaciones requieren 22 ediciones .

IEEE 754 ( IEC 60559) es un estándar IEEE ampliamente utilizado que describe un formato para representar números de punto flotante . Se utiliza en implementaciones de software ( compiladores de diferentes lenguajes de programación ) y hardware ( CPU y FPU ) de operaciones aritméticas (operaciones matemáticas).

La norma describe:

formato de número de punto flotante : mantisa , exponente (exponente), signo de número;
representación de cero positivo y negativo , infinito positivo y negativo , así como no -número ( Inglés Not-a-Number, NaN );
métodos utilizados para convertir un número al realizar operaciones matemáticas;
excepciones: división por cero , desbordamiento , subdesbordamiento , trabajo con números desnormalizados y otros;
operaciones: aritmética y otras.

El estándar de 2008 reemplaza a IEEE 754-1985 . El nuevo estándar incluye formatos binarios del estándar anterior y tres nuevos formatos. Según el estándar actual, una implementación debe soportar al menos uno de los formatos básicos, así como el formato aritmético y el formato de intercambio.

Lista de normas:

IEEE 754-1985;
IEEE 754-2008.

Desarrollo de la norma

La versión actual de IEEE 754-2008 se publicó en 2008. Complementa y reemplaza la versión anterior de IEEE 754-1985 , escrita por Dan Zuras y editada por Mike Coulishaw..

El estándar internacional ISO/IEC/IEEE 60559:2011 (con idéntico IEEE 754-2008) ha sido aprobado y publicado para JTC1 /SC 25 bajo el acuerdo ISO/IEEE PSDO.

Los formatos binarios del estándar original se incluyen en el nuevo estándar junto con tres nuevos formatos base (uno binario y dos decimales). Para cumplir con el estándar actual, una implementación debe implementar al menos uno de los formatos básicos.

A partir de septiembre de 2015, la norma se está revisando para incluir aclaraciones.

Formato

El formato IEEE 754 es "un conjunto de representaciones de valores numéricos y caracteres". El formato también puede incluir un método de codificación.

El formato incluye:

Números que se pueden considerar en notación binaria o decimal. Un número real está representado por tres números enteros , y donde está el signo (0 para positivo y 1 para negativo), es la mantisa (coeficiente), es el exponente . Para números enteros dados , y el valor del número real correspondiente es: , donde es la base (2 o 10). Por ejemplo, un número con base , bit de signo (el número es negativo), mantisa y exponente definen un número . $s$ $C$ $q$ $s$ $C$ $q$ $s$ $C$ $q$ ${\displaystyle (-1)^{s}\cdot c\cdot b^{q))$ $b$ $diez$ $una$ ${\ estilo de visualización 12345}$ $-3$ $(-1)^{1}\cdot 12345\cdot 10^{-3}=-12,345$

Cero positivo y cero negativo . ${\ estilo de visualización +0}$ ${\ estilo de visualización -0}$
Dos infinitos: y . $+\infty$ $-\infty$
Dos tipos de NaN : NaN silencioso (qNaN) y NaN de señalización (sNaN). El NaN puede transportar una carga útil destinada a la información de diagnóstico que indica la fuente que causó el NaN. El signo de NaN no tiene significado, pero puede ser predecible en algunos casos.

Los posibles valores finales que se pueden representar en el formato vienen determinados por la base , el número de caracteres en la mantisa (con precisión ) y el valor máximo : $b$ $pags$ ${\ Displaystyle E_ {\ max}}$

$C$ debe ser un número entero en el rango de cero a (si y luego c puede ser de a ) ${\ estilo de visualización b ^ {p} -1}$ ${\ estilo de visualización b = 10}$ ${\ estilo de visualización p = 7}$ ${\ estilo de visualización 0}$ ${\ estilo de visualización 9999999}$
$q$ debe ser un número entero de modo que (si y , entonces puede ser de a ). ${\displaystyle 1-E_{\max }\leq q+p-1\leq E_{\max ))$ ${\ estilo de visualización p = 7}$ ${\ estilo de visualización E_ {\ máximo} = 96}$ $q$ ${\ estilo de visualización -101}$ $90$

Por lo tanto (para el ejemplo anterior), el número positivo distinto de cero más pequeño que se puede representar es , y el más grande es ( ), así como el rango completo de números desde hasta . Los números y ( y ) son los números normales más pequeños (en valor absoluto); los números distintos de cero entre estos números más pequeños se denominan subnormales . $1\cdot 10^{-101}$ $9999999\cdot 10^{90}$ ${\ estilo de visualización 9.999999 \ cdot 10 ^ {96}}$ ${\ estilo de visualización -9,999999 \ cdot 10^{-96))$ ${\ estilo de visualización 9.999999 \ cdot 10 ^ {-96}}$ $-b^{E_{\max ))$ $b^{E_{\max ))$ $-1\cdot 10^{-95}$ $1\cdot 10^{95}$

Representación y codificación en memoria

Algunos números pueden tener múltiples representaciones en el formato en el que se acaban de describir. Por ejemplo, si y , entonces el número se puede representar como : o . ${\ estilo de visualización b = 10}$ ${\ estilo de visualización p = 7}$ ${\ estilo de visualización -12.345}$ ${\displaystyle -12345\cdot 10^{-3))$ ${\displaystyle -123450\cdot 10^{-4))$ ${\displaystyle -1234500\cdot 10^{-5))$

Para formatos decimales, cualquier representación es válida, y la colección de estas representaciones se llama cohortes . Cuando un resultado puede tener múltiples representaciones, el estándar determina cuál selecciona un miembro de la cohorte.

Para formatos binarios, la representación se hace única eligiendo el exponente representable más pequeño. Para números con un exponente en el rango normal (no todos o todos ceros), el bit inicial de la mantisa siempre será 1. Por lo tanto, el bit 1 inicial puede estar implícito en lugar de almacenarse explícitamente en la memoria. Esta regla se denomina convención de bit inicial o convención de bit oculto. La regla le permite guardar 1 bit de memoria para tener un bit más de precisión. El bit inicial de la convención no se usa para números subnormales; su tasa está fuera del rango normal de valores.

Formatos básicos e intercambiables

El estándar define cinco formatos básicos, que se nombran por su base numérica y la cantidad de bits utilizados en su codificación. Hay tres formatos básicos de punto flotante binario (codificados con 32, 64 o 128 bits) y dos formatos de punto flotante decimal (codificados con 64 o 128 bits). Los formatos binary32 y binary64 son los formatos simple y binario IEEE 754-1985. Una implementación conforme debe implementar completamente al menos uno de los formatos básicos.

El estándar también define formatos de intercambio que generalizan estos formatos básicos. Los binarios requieren un acuerdo con los bits principales. La tabla enumera los formatos de intercambio más pequeños (incluidos los básicos).

Nombre	Título completo	Base	Número de dígitos binarios de la mantisa	Número de lugares decimales	Exponente (bit)	Emáx decimal	Compensación exponencial [1]	emín	Emáx	notas
binario16	media precisión	2	once	3.31	5	4.51	2 4 −1 = 15	−14	+15	no convencional
binario32	precisión simple	2	24	7.22	ocho	38.23	2 7 −1 = 127	−126	+127
binario64	Precisión doble	2	53	15.95	once	307.95	2 10 −1 = 1023	−1022	+1023
binario128	Precisión cuádruple	2	113	34.02	quince	4931.77	2 14 −1 = 16383	−16382	+16383
binario256	Precisión 8x	2	237	71.34	19	78913.2	2 18 −1 = 262143	−262142	+262143	no convencional
decimal32		diez	7	7	7.58	96	101	−95	+96	no convencional
decimal64		diez	dieciséis	dieciséis	9.58	384	398	−383	+384
decimal128		diez	34	34	13.58	6144	6176	−6143	+6144

Tenga en cuenta que en la tabla anterior, los valores mínimos son para números regulares. La representación especial de números subnormales hace posible representar números aún más pequeños (con cierta pérdida de precisión). Por ejemplo, el número de precisión doble más pequeño mayor que cero que se puede representar de esta forma es 2 − 1074 (porque 1074 = 1022 + 53 − 1).

El valor decimal es el valor × log 10 base , que da la precisión aproximada en decimal.

Decimal E max es emax × log 10 base, esto da la potencia máxima en decimal.

Como se indicó anteriormente, los formatos binary32 y binary64 son idénticos a los formatos IEEE 754-1985 y son los dos formatos más comunes que se usan en la actualidad. La figura de la derecha muestra la precisión absoluta para los formatos binary32 y binary64, que van de 10 −12 a 10 12 . Tal indicador puede usarse para seleccionar el formato apropiado, dado el valor esperado del número y la precisión requerida.

Formatos de precisión extendidos y extensibles

El estándar también define formatos de precisión extendidos y extensibles que se recomiendan para una mayor precisión que los formatos básicos. El formato de precisión extendida extiende el formato básico utilizando una mayor precisión y un rango de exponente más amplio. El formato de precisión avanzada permite al usuario especificar un rango de precisión y exponente. Una implementación puede usar cualquier representación interna que elija para dichos formatos. Todo lo que necesita ser especificado son los parámetros b, p y emax. Estos parámetros describen de forma única el conjunto de números finitos (combinaciones de signo y exponente para una base dada) que puede representar.

El estándar no requiere una implementación para admitir formatos precisos extendidos o extensibles.

El estándar recomienda que los idiomas proporcionen un método para especificar los valores de p y emax para cada base b admitida.

El estándar recomienda que los lenguajes y las implementaciones admitan un formato extendido que tenga mayor precisión que el formato base más grande admitido para cada base b.

Para un formato extendido con precisión entre dos formatos base, el rango del exponente debe ser tan grande como el siguiente formato base más amplio. Entonces, por ejemplo, un número binario de precisión extendida de 64 bits debe tener un valor emax de al menos 16383.

Formatos de intercambio

Los formatos de intercambio están diseñados para intercambiar datos de punto flotante utilizando una cadena de bits de longitud fija.

Para el intercambio de números binarios de punto flotante, se definen formatos de intercambio de longitud 16 bits, 32 bits, 64 bits y cualquier múltiplo de 32 bits ≥128. El formato de 16 bits está destinado al intercambio o almacenamiento de números pequeños (por ejemplo, para gráficos o cálculos de redes neuronales).

El esquema de codificación para estos formatos de intercambio binario es el mismo que para IEEE 754-1985: un bit de signo seguido de índices que describen el desplazamiento del exponente y bits p-1 que describen el valor. El ancho de campo del exponente para el formato de k bits se calcula como w = round(4 log 2 ( k ))−13. Los formatos de 64 y 128 bits existentes siguen esta regla, pero los formatos de 16 y 32 bits tienen más bits de potencia (5 y 8 bits respectivamente) que los que da esta fórmula (3 y 7 bits respectivamente).

Al igual que con IEEE 754-1985, existe cierta flexibilidad en la codificación NaN.

Para el intercambio de números de coma flotante decimal, los formatos de intercambio se definen para cualquier múltiplo de 32 bits.

Reglas de redondeo

El estándar define cinco reglas de redondeo. Las primeras dos reglas redondean al valor más cercano, las otras se llaman rondas direccionales.

Redondeo al más cercano

Redondeo al más cercano (unión "to even"). Si los dos números de punto flotante más cercanos están igualmente cerca, entonces se debe obtener el número con el dígito más bajo. Este es el valor predeterminado para punto flotante binario y el valor predeterminado recomendado para decimal.
Redondeo al más cercano (unión "hasta el infinito"). Si los dos números de punto flotante más cercanos están igualmente cerca, entonces se debe obtener un número con un módulo mayor.

Redondeo direccional

Redondeo a 0 : redondeo a cero dirigido (también conocido como truncamiento).
Redondeo a +∞ - Redondeo direccional al infinito positivo (también conocido como redondeo hacia arriba o techo).
Redondeo a - ∞ - Redondeo direccional a infinito negativo (también conocido como redondeo hacia abajo o piso).

Ejemplo de redondeo a enteros

Modo / Ejemplo	+11.5	+12.5	−11,5	−12,5
al más cercano (vinculante al par)	+12.0	+12.0	−12,0	−12,0
al más cercano (ajustar al infinito)	+12.0	+13.0	−12,0	−13,0
a 0	+11.0	+12.0	−11,0	−12,0
a + ∞	+12.0	+13.0	−11,0	−12,0
a - ∞	+11.0	+12.0	−12,0	−13,0

Operaciones necesarias

Las operaciones requeridas para un formato aritmético admitido (incluidos los formatos base) incluyen:

Operaciones aritméticas (suma, resta, multiplicación, división, raíz cuadrada, combinación de múltiples multiplicaciones, resto)
Conversiones (entre formatos, cadenas, etc.)
Escalado y cuantificación (para decimal)
Copiar y manipular signos (negación, etc.)
Comparación y orden general
Clasificación y pruebas (para NaN, etc.)
Indicadores de prueba e instalación
Otras operaciones

Predicado general

El estándar proporciona un predicado totalOrder que define el orden total de todos los números de punto flotante para cada formato. El predicado es consistente con las operaciones de comparación usuales. Sin embargo, las operaciones de comparación normales tratan los NaN como desordenados y comparan -0 y +0 como iguales. El predicado totalOrder ordenará estos casos y también distinguirá entre diferentes representaciones de NaN para el mismo número de punto flotante codificado de diferentes maneras.

Véase también

Número de media precisión
Número de precisión simple
Número de doble precisión
número cuádruple
formato bfloat16(formato alternativo de 16 bits, baja precisión, pero fácil conversión a partir de números de precisión simple)
aritmética de intervalos

Notas

↑ Cowlishaw, Mike Codificaciones aritméticas decimales . IBM. Consultado el 6 de agosto de 2015. Archivado desde el original el 8 de febrero de 2016. (indefinido)

Enlaces

754-2019 - Estándar IEEE para aritmética de coma flotante. Revisión de IEEE Std 754-2008 // ieeexplore.ieee.org, ISBN: 2019 978-1-5044-5924-2, doi:10.1109/IEEEESTD.2019.8766229 (pagado)
754-2008 - Estándar IEEE para aritmética de punto flotante. Revisión de ANSI/IEEE Std 754-1985 // ieeexplore.ieee.org, 2008 ISBN 978-0-7381-5752-8 , doi:10.1109/IEEEESTD.2008.4610935 (pagado)
Yashkardin V. L. IEEE 754: un estándar para la aritmética de coma flotante binaria . SoftElectro (2009). (indefinido)
Convertidor IEEE 754
Convertidor binario a decimal en línea IEEE754

Normas IEEE

Actual

488
CAMAC
- 575
- 583
- 595
- 596
- 675
- 683
- 726
- 758
696
754
854
multibus
- 796
- 1296
Programas
- 730
- 828
- 829
- 1012
- 1016
- 1058
- 1063
futuro autobús
- 896
- 1156
- 1194
- 1301
960
1003
1014
1076
1101
1149.1
1155
1164
1196
1275
1278
1284
1355
1394
1451
1471
1497
1516
1541-2002
1547
1584
1588
1596
1603
1613
1666
1667
1675
1685
1722
1733
1788
1800
1801
1815
1850
1900.4
1901
1902
1904.1
1905
2030
2050
11073
12207
14764
16085
16326
29148
42010

Serie 802

802.1	D pags q Qat qay w X abdominales anuncio AE ag Ah Alaska ac COMO hacha Arizona licenciado en Letras
802.3	-1983 a b d mi i j tu X y z abdominales C.A anuncio ae si Ah Alaska un ac a AV Arizona licenciado en Letras bt por
802.11	modo a b C d mi F gramo h i j k norte pags r s tu v w y C.A anuncio si Ah ai hacha sí ser

.2
.cuatro
.5
.6
.7
.ocho
.9
.diez
.12
.catorce
.quince
- .una
- .cuatro
- .4a
- .6
- .7
.dieciséis
- D e original
.17
.Dieciocho
.veinte
.21
.22

serie P

P959

P1363

P1619

P1699

P1823

P1906.1

Sustituido

754-1985
830
1219
1233
1362
1364
1471

Categoría:Estándares IEEE