Conservación de la base de datos

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 17 de julio de 2022; la verificación requiere 1 edición .

La conservación de bases de datos generalmente implica convertir la información almacenada en la base de datos en una forma que sea accesible a largo plazo a medida que cambia la tecnología, sin perder las características originales (contexto, contenido, estructura, apariencia y comportamiento) de los datos [1] . La conservación de la base de datos no debe confundirse con la copia de seguridad. Si bien el propósito de una copia de seguridad es mantener la versión de la base de datos actualizada en un momento determinado para que, en caso de problemas, poder restaurarla rápidamente y continuar trabajando con ella, incluso cambiándola. , el propósito de la conservación es proporcionar acceso a contenidos de bases de datos inmutables durante un período relativamente largo, durante el cual las propiedades técnicas del DBMS en el que se creó esta base de datos podrían cambiar, y el software de aplicación utilizado para crear la base de datos preservada podría desaparecer del acceso . La conservación no significa una pronta recuperación, sino que tiene como objetivo la reproducción más precisa del estado en la base de datos, incluso en sistemas futuros, de los que no sabemos nada en el momento de la conservación de la base de datos.

Con la proliferación de bases de datos, se han desarrollado varios métodos para ayudar a preservar las bases de datos y su contenido. Estos métodos varían según las características de la base de datos y el propósito específico de la conservación [2] .

Existen tres métodos principales para guardar una base de datos para su conservación: migración, XML y emulación. También hay ciertas herramientas, software y proyectos que se han creado para ayudar a preservar las bases de datos, incluidos SIARD, Digital Preservation Toolkit, CHRONOS y RODA [1] .

Características de la base de datos

Las características de la propia base de datos deben tenerse en cuenta a la hora de intentar salvarla. Las bases de datos relacionales están unificadas en su estructura independientemente del DBMS específico: consisten en tablas que contienen datos en registros, y estas tablas luego se conectan entre sí mediante claves [3] .

Almacenar adecuadamente las bases de datos NoSQL es más un desafío [4] .

Las bases de datos se caracterizan por ser abiertas o cerradas, estáticas o dinámicas. Cuando una base de datos se considera abierta, significa que está abierta a agregar más datos, sin embargo, cuando una base de datos se considera cerrada, significa lo contrario: está cerrada a nuevos datos debido a su naturaleza completa. Una base de datos se considera estática si contiene registros que no se editaron o cambiaron después de que se habilitaron inicialmente, pero una base de datos se considera dinámica si contiene registros que se pueden editar en el futuro. El hecho de que una base de datos sea abierta y estática, abierta y dinámica, cerrada y estática o cerrada y dinámica puede afectar los métodos utilizados para preservarla. Una base de datos dinámica es más difícil de mantener que una base de datos estática porque los datos cambian constantemente y es más difícil mantener una base de datos abierta que una cerrada porque los datos se agregan constantemente. Cuanto más frecuentemente se cambia una base de datos, ya sea en un registro o agregando un registro, más pasos deben tomarse para comprometer ese cambio para la conservación [2] .

Métodos de conservación de bases de datos

Las tres principales técnicas de conservación de datos digitales también se pueden aplicar a la conservación de bases de datos. Estos métodos incluyen migración, XML y emulación [1] .

Migración

El método de migración (también conocido como archivo perezoso) [3] implica la migración de datos de un programa de base de datos desactualizado a un formato más nuevo. Hay tres métodos de migración: migración compatible con versiones anteriores, interoperabilidad y conversión a un formato estándar. La compatibilidad con versiones anteriores implica el uso de versiones más recientes del software para abrir, acceder y leer un documento creado con una versión anterior. Esto implica que la responsabilidad de la compatibilidad de los formatos de datos recae en los desarrolladores de este software.

La interoperabilidad implica reducir la probabilidad de obsolescencia al hacer que un archivo en particular sea accesible a través de más de una combinación de software y hardware.

La transición a los estándares implica la transferencia del almacenamiento de datos de un formato propietario a un formato abierto, más accesible y ampliamente utilizado [1] .

XML

El método XML (también conocido como normalización XML) [3] consiste en convertir la información de la base de datos original a un formato XML estándar. XML como formato no requiere ningún hardware o software específico (aparte de un editor de texto o un procesador de textos) y es legible tanto por humanos como por máquinas, lo que lo convierte en un formato estable para la conservación y el almacenamiento de datos [1] . Sin embargo, al convertir datos a formato XML, se pierden algunas de las funciones interactivas de la base de datos, como la capacidad de realizar consultas [3] .

Emulación

El método de emulación consiste en recrear un antiguo entorno informático utilizando nuevas tecnologías y software. Esto permite que el software, el hardware o los formatos de archivo heredados permanezcan disponibles en los sistemas más nuevos. Por lo tanto, una base de datos heredada se puede ejecutar en un emulador que imita el entorno en el que se creó originalmente la base de datos [1] .

Herramientas de preservación de datos

SIARD

La versión 1.0 del formato Software Independent Archiving of Relational Databases (SIARD) fue desarrollada por los Archivos Federales Suizos en 2007. Fue diseñado para archivar bases de datos relacionales de manera independiente del proveedor. El archivo SIARD es un paquete de archivos ZIP basado en XML y SQL:1999 . El archivo SIARD incluye tanto el contenido de la base de datos como los metadatos estructurales legibles por máquina que contienen la estructura de las tablas de la base de datos y sus relaciones. El archivo ZIP contiene un archivo XML que describe la estructura de la base de datos (metadata.xml), así como un conjunto de archivos XML, uno por tabla, que contiene el contenido de la tabla. Un archivo SIARD también puede contener archivos de texto y archivos binarios que representan objetos grandes de la base de datos (BLOB y CLOB). SIARD permite el acceso directo a las tablas individuales, lo que permite extraerlas para su examen mediante herramientas ZIP. El archivo SIARD no es una base de datos de producción, pero admite la reintegración de la base de datos archivada en otro sistema de administración de bases de datos relacionales (RDBMS) que admita SQL:1999. Además, SIARD admite la adición de metadatos descriptivos y contextuales no registrados en la propia base de datos y la incorporación de archivos de documentación en el archivo [5] . SIARD versión 1.0 se formalizó como el estándar eCH-0165 en 2013 [6] .

SIARDDK es una variante del formato SIARD 1.0 modificado por los Archivos Nacionales de Dinamarca [7] .

La versión 2.0 del formato de almacenamiento SIARD (originalmente conocido como SIARD-E [7] ) fue desarrollado por los Archivos Federales Suizos bajo los auspicios del proyecto E-ARK .

La versión 2.0 se basa en la versión 1.0 y define un formato que es compatible con la versión 1.0. Y, según los desarrolladores, también incluye las mejores características del formato SIARDDK y DBML [7] . Las nuevas funciones de la versión 2.0 incluyen:

La versión 2.1 de la especificación SIARD fue publicada por los especificadores en julio de 2018, pero nunca se adoptó como estándar ECH [7] .

DBML (lenguaje de marcado de base de datos)

Un esquema XML creado por el investigador José Carlos Ramalho en la Universidad de Minho para representar datos e información sobre tablas tomadas de una base de datos relacional. Fue publicado en 2007 [8] .

CRONOS

CHRONOS (CSP Chronos Archiving) es un producto de software propietario que sirve como herramienta de conservación de bases de datos [4] . CHRONOS fue desarrollado entre 2004 y 2006 por CSP en colaboración con la Facultad de Ciencias de la Computación de la Universidad de Landshut [4] [9] . CHRONOS recupera datos de un sistema de gestión de bases de datos y los almacena en el archivo CHRONOS como archivos de texto o XML. Así, todos los datos pueden ser accedidos y leídos sin un sistema de gestión de base de datos o el propio CHRONOS, ya que está en formato de texto. Esto elimina la necesidad de mantener un DBMS únicamente para leer bases de datos estáticas almacenadas, así como la necesidad de portar archivos de bases de datos potencialmente riesgosos a nuevos formatos de bases de datos [9] . Aunque CHRONOS almacena datos en formato de texto, sus capacidades de consulta se consideran comparables a las de una base de datos relacional [4] .

Kit de herramientas de preservación de bases de datos

Entre los pasos dados por el proyecto RODA para cargar y guardar bases de datos relacionales en un formato normalizado, uno de los más importantes fue el desarrollo de una herramienta diseñada para guardar bases de datos archivadas y luego acceder a ellas. Esta herramienta se denominó Kit de herramientas de preservación de bases de datos, o DBPTK, dbtoolkit para abreviar. Cuando se utiliza el kit de herramientas de conservación de bases de datos, los datos de una base de datos relacional se convierten a DBML o SIARD para normalizarlos. Ambos formatos se basan en el formato XML estándar, que no requiere software especial o propietario y es ideal para fines de conservación de datos [10] .

DBPTK le permite realizar conversiones entre formatos de bases de datos, incluso en el modo de conexión a sistemas en vivo, para preservar las bases de datos. Durante el proceso de conversión, el kit de herramientas extrae información única sobre el DBMS utilizando conectores específicos de DBMS. Estos conectores se conectan a un DBMS específico y extraen datos de él. A continuación, los datos se exportan al formato de conservación seleccionado. Se pueden desarrollar nuevos conectores (módulos de E/S) [10] [11] para conectarse a nuevos DBMS y guardar datos en nuevos formatos . DBPTK también le permite exportar datos de formatos de conservación a un DBMS en ejecución. Por ejemplo, admite la exportación de MySQL especializada optimizada para PhpMyAdmin, por lo que puede experimentar completamente con la base de datos utilizando la interfaz web.

El kit de herramientas de preservación de la base de datos fue originalmente parte del proyecto RODA y luego se lanzó como un producto independiente. Se ha desarrollado aún más en el proyecto E-ARK junto con una nueva versión del formato de guardado SIARD [12] .

Proyectos de conservación de bases de datos

Los proyectos de investigación en esta área incluyen:

Repositorio de Objetos Digitales Auténticos (RODA)

RODA, también conocido como Repositorio de Objetos Digitales Auténticos, fue un proyecto lanzado en Portugal en 2006 por los Archivos Nacionales de Portugal con el objetivo de preservar objetos digitales creados por instituciones gubernamentales portuguesas. El objetivo del proyecto era combinar varios tipos de objetos digitales en un repositorio, incluidas las bases de datos relacionales. Al ser un depósito unificado de muchos tipos diferentes de objetos digitales, RODA se esfuerza por normalizar todos los objetos descargados, es decir, minimizar los tipos de formatos utilizados para almacenar documentos y guardar documentos similares en los mismos formatos [10] .

El proyecto RODA se centró en crear un método estandarizado para almacenar bases de datos como objetos digitales. Salvar una base de datos es un desafío único porque el proceso de salvar se divide en tres niveles: datos, estructura (lógica) y semántica (interfaz) [17] . En los objetivos del proyecto se determinó que se deben preservar los datos de la base de datos, así como su estructura y semántica. Para preservar los tres elementos, el proyecto RODA desarrolló un conjunto de herramientas de preservación de bases de datos [10] .

Véase también

Notas

  1. ↑ 1 2 3 4 5 6 Stichting ICTU. Testbed Digital Bewareing. Van digitale vluchtigheid naar digitaal houvast . - Den Haag: Testbed Digitale Bewaring, 2003. - 4 dl. Con. - ISBN 90-807758-1-9 , 978-90-807758-1-7.
  2. ↑ 1 2Kevin Ashley. La conservación de bases de datos  // VINE. - 2004-01-01. - T. 34 , n. 2 . — S. 66–70 . — ISSN 0305-5728 . -doi : 10.1108/ 03055720410551075 .
  3. ↑ 1 2 3 4 Brogan, M. y Brown, J. (s.f.). Desafíos en la preservación digital: Bases de datos relacionales . School of Computer and Information Science, Edith Cowan University. Consultado el 5 de julio de 2022. Archivado desde el original el 6 de octubre de 2021.
  4. ↑ 1 2 3 4 Andrew Lindley. Informe de evaluación de la preservación de la base de datos -SIARD vs. CHRONOS ¿Preservar estructuras complejas como bases de datos a través de un enfoque centrado en registros?  (Inglés) . - 2013. - doi : 10.13140/2.1.3272.8005 .
  5. SIARD (Archivo Independiente de Software de Bases de Datos Relacionales) Versión 1.0 . www.loc.gov (30 de mayo de 2015). Recuperado: 12 julio 2022.
  6. Bruggisser, H., Büchler, G., Dubois, A., Kaiser, M., Kansy, L., Lischer, M., Röthlisberger-Jourdan, C., Thomas, H. y Voss, A. (2015 ). eCH-0165 Especificación de formato SIARD 2.0 (borrador) . eCH E Normas gubernamentales. https://www.eark-project.com/resources/specificationdocs/32-specification-for-siard-format-v20/STAN_e_FINAL_2015-07-04_eCH-0165_V2%200_SIARD-Format.pdf
  7. ↑ 1 2 3 4 SIARD (Software Independent Archiving of Relational Databases) Versión 1.0 . www.loc.gov (30 de mayo de 2015). Recuperado: 15 julio 2022.
  8. Preservación de bases de datos relacionales a través del modelado XML . Extreme Markup Languages ​​(7 de agosto de 2007). Fecha de acceso: 16 de abril de 2017.
  9. ↑ 1 2 Brandl, S. y Keller-Marxer, P. (23 de marzo de 2007). Archivo a largo plazo de bases de datos relacionales con Chronos [Presentación del artículo]. Primer Taller Internacional sobre Preservación de Bases de Datos (PresDB'07), Edimburgo, Escocia. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.459.5158&rep=rep1&type=pdf
  10. ↑ 1 2 3 4 Ramalho, JC, Faria, L., Helder, S. y Coutada, M. (31 de diciembre de 2013). Kit de herramientas de preservación de bases de datos: una herramienta flexible para normalizar y dar acceso a las bases de datos . Universidad de Miño. https://core.ac.uk/display/55635702?source=1&algorithmId=15&similarToDoc=55614406&similarToDocKey=CORE&recSetID=f3ffea4d-1504-45e9-bfd6-a0495f5c8f9c&position=2&recommendation_type=same_repo&otherRecs=55614407,55635702,55607961,55613627,2255664
  11. 1 2 db-preservation-toolkit por keep .
  12. Comunidad RODA - Repositorio de Objetos Digitales Auténticos .
  13. Heuscher, Stephan. Brindar acceso de archivo a largo plazo auténtico a datos relacionales complejos // Actas PV-2004: Asegurar la preservación a largo plazo y agregar valor a los datos científicos y técnicos, 5-7 de octubre de 2004 / Stephan Heuscher, Stephan Jaermann, Peter Keller-Marxer … [ etc. ] . - 2004. - Págs. 241-261.
  14. RODA y Crib: un repositorio digital orientado a servicios .
  15. Duurzaam beheer van digitaal archiefmateriaal - Nationaal Archief .
  16. LOCKSS: muchas copias mantienen las cosas seguras . Universidad Stanford. Fecha de acceso: 16 de abril de 2017.
  17. Ribeiro, C. y David, G. (11 de marzo de 2009). Conservación de bases de datos . Preservación Digital Europa. https://digitalpreservationeurope.eu/publications/briefs/database_preservation_ribiero_david.pdf