La recuperación ante desastres (en fuentes rusas, también se usa el término no del todo correcto recuperación ante desastres ) incluye un conjunto de políticas, herramientas y procedimientos que le permiten restaurar o continuar la operación de infraestructura y sistemas tecnológicos vitales después de un desastre natural o provocado por el hombre. desastre [1] . La recuperación ante desastres se centra en la tecnología de la información (TI) o los sistemas tecnológicos que respaldan las funciones críticas del negocio, a diferencia de la continuidad del negocio, que implica mantener todos los aspectos esenciales de las operaciones comerciales a pesar de las interrupciones importantes; por lo tanto, puede considerarse como un subconjunto de las tareas de continuidad del negocio [2] [3] . La recuperación ante desastres supone que la parte principal del sistema de información que funcionaba originalmente no se puede restaurar durante algún tiempo, y es el proceso de restaurar datos y servicios a sitios supervivientes secundarios, opuesto al proceso de restaurar los sistemas de información a su lugar original.
La planificación de la continuidad del servicio de TI (ITSC) [4] [5] es un subconjunto de la planificación de la continuidad del negocio (BCP) [6] que se centra en el objetivo de punto de recuperación (RPO) y el objetivo de tiempo de recuperación (R.T.O.). Este proceso incluye dos tipos de planificación; Planificación de recuperación ante desastres de TI y planificación más amplia de resiliencia de TI. Además, también incluye elementos de gestión de infraestructuras TI y servicios relacionados con las comunicaciones, como telefonía (voz) y datos.
La planificación incluye la configuración de sitios de reserva, ya sean cálidos, tibios o fríos, así como el respaldo de sitios de reserva con el equipo necesario para garantizar la continuidad del negocio.
En 2008, la British Standards Institution publicó un estándar específico relacionado y compatible con el estándar de continuidad comercial BS 25999, llamado BS25777, específicamente para alinear la continuidad del sistema de TI con la continuidad comercial . Este estándar fue retirado tras la publicación en marzo de 2011 de ISO/IEC 27031 Prácticas de seguridad. Orientación para garantizar la preparación de las tecnologías de la información y la comunicación para la continuidad del negocio” [7] .
ITIL también define algunos de estos términos [8] .
Objetivos de tiempo de recuperación (RTO) Este término también se traduce como "Objetivo de tiempo de recuperación" [9] [10] es la duración objetivo y el nivel de servicio dentro del cual se debe restaurar un proceso comercial después de un desastre (o falla) para evitar consecuencias inaceptables asociadas. con interrupción del negocio [11] .
De acuerdo con la metodología de Planificación de Continuidad Comercial, el RTO se establece durante el Análisis de Impacto Comercial (BIA) por parte de los propietarios del proceso e incluye la definición de un marco de tiempo para soluciones alternativas o de recuperación manual.
En la literatura sobre el tema, se hace referencia a RTO como complementario al objetivo de punto de recuperación (RPO). En su lugar, describen los límites del desempeño de ITSC aceptable o "aceptable". RTO y RPO miden el desempeño de ITSC en términos de tiempo perdido debido al funcionamiento normal de los procesos comerciales y datos perdidos o no respaldados durante ese período (RPO), respectivamente [11] [12] .
Una revisión de Forbes señala [9] que el tiempo de recuperación real (RTA) es en realidad una métrica crítica para la continuidad del negocio y la recuperación ante desastres.
El equipo de continuidad del negocio realiza ensayos con el tiempo de las acciones reales realizadas, durante los cuales se determina el RTA y se ajusta si es necesario [9] .
El objetivo de punto de recuperación ( Recovery Point Objective , RPO ) es el período objetivo máximo durante el cual se pierden datos transaccionales del servicio de TI debido a un incidente importante [11] .
Por ejemplo, si el RPO se mide en minutos (o incluso en varias horas), en la práctica es necesario mantener constantemente copias de seguridad duplicadas remotas, ya que las copias de seguridad diarias en cinta fuera del sitio no son suficientes [13] .
Relación con el objetivo de tiempo de recuperaciónUna recuperación que no sea instantánea permitirá que los datos transaccionales se restablezcan con el tiempo y hacerlo sin riesgo o pérdida significativos.
RPO mide el tiempo máximo que los últimos datos podrían perderse irremediablemente en caso de un incidente importante y no es una medida directa de la cantidad de dicha pérdida. Por ejemplo, si BC planea restaurar los datos a la última copia de seguridad disponible, RPO es el intervalo máximo entre dichas copias de seguridad que se han eliminado de forma segura del almacenamiento.
A menudo se malinterpreta que el RPO está determinado por el régimen de respaldo existente, cuando en realidad el análisis de impacto comercial determina el RPO para cada servicio. Cuando se requieren datos remotos, el período durante el cual los datos pueden perderse a menudo comienza desde el momento en que se preparan las copias de seguridad y no desde el momento en que se transfieren fuera del sitio [12] .
El punto de sincronización de datos (también es el punto de copia de seguridad ) [14] es el momento en el que se realiza la copia de seguridad de los datos físicos. En la implementación más simple, este es el punto en el que se detiene el procesamiento de la cola de actualización de datos en el sistema mientras se realiza la copia de disco a disco. En los sistemas modernos, el procesamiento de datos generalmente continúa en paralelo con la copia de seguridad, que se realiza mediante instantáneas . La copia de seguridad [15] reflejará una versión anterior de los datos, y no el estado que se produjo cuando los datos se copiaron en el medio de copia de seguridad o se transfirieron a la ubicación de la copia de seguridad.
RTO y RPO deben equilibrarse con el riesgo comercial, así como con todos los demás criterios principales de diseño del sistema.
RPO está ligado al momento en que las copias de seguridad se cargan fuera del sitio. La copia síncrona de datos a un espejo externo supera la mayoría de los problemas imprevistos con la disponibilidad del sitio principal. El traslado físico de cintas (u otros medios portátiles) fuera del sitio proporciona algunas de las necesidades de respaldo a un costo relativamente bajo. La recuperación de tales copias puede llevarse a cabo en un sitio preseleccionado [16] .
Para grandes volúmenes de datos transaccionales valiosos, el hardware se puede dividir en dos o más sitios separándolos por área geográfica, lo que mejora la resiliencia.
Para una planificación de recuperación más detallada, indicadores como DOO - Objetivo de operaciones degradadas - la ralentización aceptable en la ejecución de operaciones por parte del sistema que ocurre en el proceso de transferencia del procesamiento de datos a un sitio de respaldo y NRO - Objetivo de recuperación de red - el ancho de banda mínimo de la red que debe restaurarse también se puede utilizar para garantizar el rendimiento mínimo aceptable del sistema restaurado [17] .
La recuperación ante desastres y la planificación de la tecnología de la información (TI) comenzaron a desarrollarse a mediados y finales de la década de 1970, cuando los administradores de los centros informáticos comenzaron a darse cuenta de la dependencia de sus organizaciones de los sistemas informáticos.
En ese momento, la mayoría de los sistemas eran mainframes orientados a lotes . Otro mainframe remoto puede arrancar desde cintas de respaldo mientras espera que el sitio principal se recupere; el tiempo de inactividad fue relativamente menos crítico.
La industria de la recuperación ante desastres surgió como un proveedor de centros informáticos de respaldo. Uno de los primeros centros de este tipo estaba ubicado en Sri Lanka (Sungard Availability Services, 1978) [18] [19] desarrollado para proporcionar centros informáticos de respaldo. Uno de los primeros centros de este tipo estaba ubicado en Sri Lanka (Sungard Availability Services, 1978). [20] [21] .
En las décadas de 1980 y 1990, a medida que crecía el tiempo compartido dentro de la empresa, la entrada de datos en línea y el procesamiento en tiempo real, se requería una mayor disponibilidad de los sistemas de TI.
La continuidad del servicio de TI es importante para muchas organizaciones cuando implementan la gestión de la continuidad del negocio (BCM) y la gestión de la seguridad de la información (ICM), y como parte de la implementación y gestión de la seguridad de la información y la gestión de la continuidad del negocio como se especifica en ISO/IEC 27001 e ISO 22301 respectivamente.
El auge de la computación en la nube desde 2010 continúa esta tendencia: ahora es aún menos importante dónde se alojan físicamente los servicios informáticos, siempre y cuando la red en sí sea lo suficientemente confiable (un problema aparte y no preocupante, ya que las redes modernas son muy resistentes). ). por diseño). La recuperación como servicio (RaaS) es una de las características o beneficios de seguridad de la computación en la nube promovida por Cloud Security Alliance [22] .
Los desastres se pueden clasificar en tres amplias categorías de amenazas y peligros. La primera categoría incluye desastres naturales como inundaciones, huracanes, tornados, terremotos y epidemias.
La segunda categoría son los peligros tecnológicos, que incluyen accidentes o fallas de sistemas y estructuras, como explosiones de tuberías, accidentes de transporte, fallas de servicios públicos, fallas de represas y fugas accidentales de materiales peligrosos.
La tercera categoría son las amenazas creadas por el hombre, que incluyen actos deliberados como ataques maliciosos activos, ataques químicos o biológicos, ciberataques contra datos o infraestructura y sabotaje. Las medidas de preparación para todas las categorías y tipos de desastres naturales se incluyen en cinco áreas de misión: prevención, protección, mitigación, respuesta y recuperación [23] .
Investigaciones recientes respaldan la idea de que adoptar un enfoque más holístico para la planificación previa al desastre es más rentable a largo plazo. Cada dólar gastado en la mitigación de riesgos (como un plan de recuperación ante desastres) le ahorra a la comunidad $4 en costos de respuesta y recuperación [24] .
Las estadísticas de recuperación ante desastres de 2015 muestran que una hora de tiempo de inactividad puede costar
A medida que los sistemas de TI se vuelven cada vez más críticos para el buen funcionamiento de una empresa y posiblemente de la economía en su conjunto, se vuelve cada vez más importante mantener estos sistemas en funcionamiento rápidamente y recuperarlos rápidamente. Por ejemplo, el 43 % de las empresas que experimentan una gran pérdida de datos comerciales nunca vuelven a abrir y el 29 % cierra en dos años. Como resultado, la preparación para continuar o recuperar los sistemas debe tomarse muy en serio. Esto requiere una importante inversión de tiempo y dinero para garantizar pérdidas mínimas en caso de un evento destructivo [26] .
Las medidas de control son acciones o mecanismos que pueden reducir o eliminar diversas amenazas a las organizaciones. Se pueden incluir varios tipos de medidas en un plan de recuperación de desastres (DRP).
La planificación de la recuperación ante desastres es parte de un proceso más amplio conocido como planificación de la continuidad del negocio e incluye la planificación para la reanudación de aplicaciones, datos, equipos, comunicaciones electrónicas (como redes) y otra infraestructura de TI. El Plan de continuidad comercial (BCP) incluye la planificación de aspectos no relacionados con TI, como personal clave, instalaciones, comunicación de crisis y protección de la reputación, y debe hacer referencia a un Plan de recuperación ante desastres (DRP) para la recuperación/continuidad de la infraestructura relacionada con TI.
Las medidas de gestión de recuperación ante desastres de TI se pueden dividir en los siguientes tres tipos:
Un buen plan de DR requiere que estos tres tipos de controles se documenten y se apliquen periódicamente mediante las llamadas "pruebas de recuperación ante desastres".
Antes de elegir una estrategia de recuperación ante desastres, el planificador de recuperación ante desastres primero consulta el plan de continuidad comercial de su organización, que debe especificar las métricas clave para el objetivo del punto de recuperación y los objetivos de tiempo de recuperación [28] Luego, las métricas del proceso comercial se asignan a sus sistemas e infraestructura [ 29 ] .
La falta de una planificación adecuada puede aumentar el impacto de un desastre natural [30] . Después de comparar las métricas, la organización revisa el presupuesto de TI; Los RTO y RPO deben coincidir con el presupuesto disponible. El análisis de costo-beneficio a menudo determina qué medidas de recuperación ante desastres deben aplicarse.
The New York Times escribe que agregar respaldo en la nube a los beneficios del archivo de cinta local y externo "agrega una capa de protección de datos" [31] .
Las estrategias de protección de datos comúnmente utilizadas incluyen:
En muchos casos, una organización puede optar por utilizar un proveedor de recuperación de desastres subcontratado para proporcionar un sitio y sistemas de respaldo, en lugar de usar sus propios sitios remotos, cada vez más a través de la computación en la nube.
Además de prepararse para la necesidad de restaurar los sistemas, las organizaciones también toman medidas de precaución para evitar desastres. Estos pueden incluir:
Un tipo de clasificación de plan de recuperación ampliamente utilizado es la clasificación de siete niveles, desarrollada a fines de la década de 1980 por el Comité Directivo Técnico de SHARE, que fue desarrollado conjuntamente con IBM. Desarrollaron un libro blanco que describe los niveles de servicio de recuperación ante desastres utilizando los niveles 0 a 6. Desde entonces, han surgido una serie de clasificaciones para competir con esto y reflejar nuevos desarrollos en la tecnología y la industria en general. Las diferentes clasificaciones se centran en diferentes aspectos o características técnicas del proceso de recuperación. Así, la clasificación de Wiboobratr y Kosavisutee se centra principalmente en soluciones DRaaS . A continuación se presenta un cuadro comparativo de dichas clasificaciones [33] .
Nivel | COMPARTIR/ IBM [34] [35] [36] | Hitachi [37] | Wiboonratr y Kosavisutte [38] | novela [39] | Xiotech [40] |
---|---|---|---|---|---|
0 | No existe un plan de recuperación ante desastres. | ||||
una | Las copias de seguridad están en curso, las copias de seguridad se mueven a un edificio separado, pero no hay un sitio de espera activa . Este método de reserva se denomina Método de acceso a camionetas (PTAM) [17] . | Copia de seguridad en cinta externa . | La recuperación puntual es posible. | Copia de seguridad en cinta/restauración manual. | Nivel 4
Copias de seguridad programadas en un sitio de copia de seguridad "frío" |
2 | Se está realizando una copia de seguridad, hay un sitio de copia de seguridad activo en el que se pueden restaurar los datos de una copia de seguridad [17] . El método se conoce como PTAM+hotsite. | Se realiza una copia de seguridad en cinta en el sitio principal o de copia de seguridad. | Las copias realizadas en cinta se envían a un sitio de copia de seguridad previamente preparado. | Almacenamiento/restauración de imagen de disco tradicional. | |
3 | "Almacenamiento electrónico" (bóvedas electrónicas). En comparación con el nivel 2, se agrega la capacidad de copiar regularmente (y, en consecuencia, restaurar) datos del sitio principal. El tiempo de recuperación típico es de 24 horas [34] . | "Almacenamiento electrónico" - similar a la clasificación SHARE/IBM. | Las copias de disco que proporcionan una recuperación puntual se realizan en varias ubicaciones | Flexible (incluido por archivo y con una opción de versión de archivo para la recuperación) para guardar/restaurar una imagen de disco. | Nivel 3
Recuperación relativamente rápida de las copias de seguridad realizadas de forma asíncrona o programada en un sitio de copia de seguridad "tibio". |
cuatro | Se crean copias que permiten la recuperación en un momento dado . | Una única copia de seguridad escrita en disco. | Se lleva a cabo el registro remoto de la operación del sistema. | Copia de seguridad/restauración basada en virtualización. | |
5 | Garantiza la integridad de los datos transaccionales . | Capacidad de recuperación mediante la consolidación de archivos desde diferentes imágenes de disco | Cree una instantánea de una base de datos de producción en paralelo | Redundancia basada en servidores que se ejecutan en un clúster. | Nivel 2
Recuperación rápida de una copia asíncrona a un sitio en espera activa. |
6 | Cero o poca pérdida de datos después de la recuperación. | Disponibilidad de datos en un disco compartido entre los sistemas primario y de respaldo. | Los datos se copian de forma remota. | ||
7 | Recuperación altamente automatizada. | Duplicación de disco entre el sistema primario y secundario. | Se lleva a cabo una copia de datos tolerante a fallos remota. | Nivel 1
Recuperación instantánea de una copia síncrona a un sitio de espera activa. | |
ocho | Duplicación completa de datos. |
Se entiende que cada siguiente nivel dentro de una de las clasificaciones complementa o reemplaza al anterior con sus propiedades.
Disaster Recovery as a Service (DRaaS) es un acuerdo con un tercero, proveedor de servicios y/o hardware. [41] . Por lo general, lo ofrecen los proveedores de servicios como parte de su cartera de servicios. Varios grandes proveedores de equipos ofrecen centros de datos modulares como parte de este servicio , lo que le permite implementar el equipo necesario para la recuperación ante desastres lo más rápido posible.