Tolerancia a fallos

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 2 de abril de 2020; las comprobaciones requieren 15 ediciones .

La tolerancia a fallas  es la propiedad de un sistema técnico para mantener su desempeño luego de la falla de uno o más de sus componentes [1] .

El concepto de tolerancia a fallos en ingeniería

La tolerancia a fallas está determinada por la cantidad de fallas individuales de los componentes (elementos) del sistema, después de lo cual se mantiene la operatividad del sistema en su conjunto. El nivel básico de tolerancia a fallas implica protección contra fallas de cualquier elemento. Por lo tanto, la principal forma de mejorar la tolerancia a fallas es la redundancia . La redundancia se implementa con mayor eficacia en el hardware mediante la redundancia . En varias áreas de la tecnología, la tolerancia a fallas por medio de la redundancia es un requisito obligatorio impuesto por las autoridades reguladoras estatales en los sistemas técnicos [2] .

Para los sistemas técnicos de alto riesgo, un caso especial de tolerancia a fallos es la seguridad frente a fallos  : la capacidad de un sistema, en caso de fallo de algunos de sus componentes, de cambiar a un modo de funcionamiento que no suponga un peligro para las personas, la ambiente o propiedad. En los sistemas reales, estas dos propiedades pueden considerarse juntas.

Características de tolerancia a fallas

La propiedad de tolerancia a fallos está asociada a las siguientes características técnicas:

La arquitectura tolerante a fallas desde el punto de vista de la ingeniería  es una forma de construir sistemas tolerantes a fallas que permanecen operativos (posiblemente con una disminución en la eficiencia) cuando fallan los elementos [3] . El término se utiliza a menudo en la creación de sistemas informáticos que siguen funcionando con una posible disminución del rendimiento o aumento del tiempo de respuesta en caso de fallo de parte de los elementos del sistema (problemas con el hardware o el software ). La arquitectura tolerante a fallas en las computadoras se usa, por ejemplo, en el proceso de replicación .

Asimismo, las estructuras de carga emplean estructuras que conservan su integridad y capacidad de carga cuando se dañan por corrosión o fatiga , defectos de fabricación o daños accidentales.

Las medidas relativas a la tolerancia a fallos también se pueden implementar a nivel de los elementos del sistema. Por ejemplo, en un automóvil diseñado para no perder el control cuando falla una de las llantas, cada llanta contiene un núcleo de goma para permitirles operar por un tiempo limitado y a velocidad reducida.

Redundancia

La redundancia se denomina funcionalidad, que no es necesaria para el funcionamiento sin problemas del sistema [4] .

Algunos ejemplos son las piezas de repuesto que se ponen en funcionamiento automáticamente si la principal se estropea. En particular, los camiones grandes pueden perder un neumático sin consecuencias graves. Tienen muchos neumáticos instalados y perder uno no es crítico (excepto el par delantero, que se usa para tomar curvas). La idea de incluir partes redundantes para aumentar la confiabilidad del sistema fue propuesta por primera vez por John von Neumann en la década de 1950 [5] .

Hay dos tipos de redundancia [6] : espacial y temporal. La redundancia de espacio se implementa mediante la introducción de componentes, funciones o datos adicionales que no son necesarios para un funcionamiento sin problemas. Los componentes adicionales (redundantes) pueden ser hardware, software e información . La redundancia temporal se implementa recalculando o enviando datos, luego de lo cual el resultado se compara con una copia guardada del anterior.

Criterios de Decisión de Resiliencia

El diseño de estructuras a prueba de fallas tiene un costo: mayor peso, costo, consumo de energía, costo y tiempo dedicado al diseño, verificación y prueba. Para determinar qué partes del sistema deben diseñarse para ser tolerantes a fallas, hay una serie de criterios [7] :

Un ejemplo de un elemento que ha pasado por completo son los cinturones de seguridad . El método principal para retener a las personas en cualquier vehículo es la gravedad , pero en un vuelco u otras condiciones de fuerza G, es posible que el método principal de restricción no funcione. Un sistema secundario que mantiene a las personas en su lugar en tales condiciones aumenta su seguridad, por lo que se confirma el primer punto. Los casos de expulsión de personas en un accidente, como un automóvil, eran comunes antes de la introducción de los cinturones de seguridad, lo que confirma el segundo punto. El precio de instalar cinturones de seguridad es bajo tanto en términos de costes como de fabricación, lo que confirma el tercer punto. Como resultado, podemos concluir que la instalación de cinturones de seguridad en todos los vehículos es una medida razonable.

A veces, la resiliencia del hardware requiere que las piezas defectuosas se eliminen y se reemplacen por otras nuevas mientras el sistema sigue funcionando (lo que se conoce en el mundo informático como intercambio en caliente ). En tales sistemas, el tiempo medio entre fallas debe ser lo suficientemente alto como para permitir que se completen las reparaciones antes de que la parte redundante también falle.

Desventajas de los sistemas tolerantes a fallos

Las ventajas de las soluciones técnicas tolerantes a fallas son obvias, pero también tienen desventajas.

Véase también

Notas

  1. GOST R 56111-2014 Apoyo logístico integrado para productos militares exportados. Nomenclatura de indicadores de características operativas y técnicas . Informe estándar (2015). Consultado el 16 de mayo de 2020. Archivado desde el original el 21 de enero de 2022.
  2. Egor Sergeevich Sogomonian. Dispositivos de autocomprobación y sistemas tolerantes a fallos . - Radio y comunicación, 1989. - 207 p. — ISBN 9785256003081 .
  3. Johnson, BW "Sistemas basados ​​en microprocesadores tolerantes a fallas", IEEE Micro (1984), vol. 4, núm. 6, págs. 6-21
  4. Laprie, JC (1985). "Informática confiable y tolerancia a fallas: conceptos y terminología", Actas del 15.º Simposio internacional sobre computación tolerante a fallas (FTSC-15), págs. 2-11
  5. Von Neumann, J. (1956). "Lógica probabilística y síntesis de organismos confiables a partir de componentes no confiables", en Automata Studies, eds. C. Shannon y J. McCarthy, Princeton University Press, págs. 43-98
  6. Avizienis, A. (1976). Sistemas tolerantes a fallas, IEEE Transactions on Computers, vol. 25, núm. 12, págs. 1304-1312
  7. Dubrova, E. (2013). "Diseño tolerante a fallas", Springer, 2013, ISBN 978-1-4614-2112-2

Enlaces

Literatura