La alta disponibilidad es una característica de un sistema técnico diseñado para evitar la falta de mantenimiento al reducir o administrar fallas y minimizar el tiempo de inactividad planificado. Se espera una alta disponibilidad de los sistemas de soporte vital , los sistemas de salud y los sistemas de los que depende el bienestar de la sociedad en su conjunto y el bienestar económico de las organizaciones individuales [1] .
Los sistemas informáticos que están diseñados para minimizar el tiempo de inactividad planificado y no planificado [1] proporcionan una alta disponibilidad de computación ( es decir, computación de alta disponibilidad ) .
La alta disponibilidad se puede definir como la propiedad de un sistema de estar protegido y fácilmente recuperable de pequeñas interrupciones en poco tiempo y por medios automatizados. En esta definición, se consideran tres factores: categorización de posibles problemas (fallas), categorización de los requisitos del sistema en relación con la duración de las interrupciones en el trabajo, soluciones tecnológicas para la protección automática y recuperación después de fallas [2] .
Durante la recopilación de requisitos de usuario para el sistema, generalmente resulta qué nivel necesitan [3] [4] :
El costo de implementación y operación del sistema depende del nivel deseado de disponibilidad. Además, dado que la disponibilidad se define desde la perspectiva del usuario, a menudo subjetiva, vale la pena definir exactamente qué se entiende por alta disponibilidad del sistema en los requisitos del sistema [5] .
Para calcular el nivel de disponibilidad alcanzado, debe conocer el tiempo de inactividad ( P ) y el tiempo de disponibilidad prometido ( D ), en el caso de alta disponibilidad, el tiempo de inactividad planificado total no se incluye en este tiempo. Entonces el nivel de disponibilidad se puede obtener mediante la fórmula [6] :
disponibilidad = ( D - P ) / D × 100%Por ejemplo, un tiempo de inactividad de 45 minutos de disponibilidad continua en enero indica una tasa de disponibilidad del 99,9 % ("tres nueves").
La disponibilidad se puede expresar como promedios [7] :
disponibilidad media = MTTF / (MTTF + MTTR) × 100 %,donde MTTF ( tiempo medio hasta el fallo ) es el tiempo medio hasta el fallo , MTTR ( tiempo medio hasta la reparación ) es el tiempo medio hasta la recuperación .
El tiempo de recuperación después de una falla depende de muchos factores, como la complejidad del sistema (cuanto más complejo es el sistema, más tiempo se tarda en reiniciar), la gravedad del problema, la disponibilidad de personal de mantenimiento, equipo de repuesto, copia de seguridad insuficiente , etc. También cabe señalar que la disponibilidad del sistema se mide desde el punto de vista del usuario , y no fijando el hecho de la operación de los nodos principales [6] .
Otra métrica de disponibilidad aplicada a redes grandes y sus dispositivos componentes es el método que cuenta el número de fallas por millón (DPM, defectos en inglés por millón ) horas de operación. Este método es más preciso que el método porcentual, lo que le permite tener en cuenta las fallas en el funcionamiento de una parte de la red. En este caso, es posible medir el tiempo de actividad de la red como un todo, el tiempo de actividad total de todos los dispositivos o incluso el tiempo de actividad total de los usuarios [8] .