Base de datos

La versión estable se desprotegió el 17 de octubre de 2022 . Hay cambios no verificados en plantillas o .

Base de datos  : un conjunto de datos almacenados de acuerdo con el esquema de datos , cuya manipulación se realiza de acuerdo con las reglas de las herramientas de modelado de datos [1] [2] [3] .

Muchos expertos señalan un error común, consistente en el uso incorrecto del término "base de datos" en lugar del término " sistema de gestión de base de datos ", y señalan la necesidad de distinguir entre estos conceptos [4] .

Problemas de definición

La literatura ofrece muchas definiciones del concepto de "base de datos", reflejando más bien la opinión subjetiva de ciertos autores, pero no existe una formulación unificada generalmente aceptada.

Definiciones de documentos reglamentarios, incluidas las normas :

Definiciones de monografías autorizadas :

Las definiciones más a menudo (explícita o implícitamente) contienen las siguientes características distintivas [10] :

  1. La base de datos se almacena y procesa en el sistema informático .
    Por lo tanto, cualquier almacenamiento de información no informático ( archivos , bibliotecas , archivadores , etc.) no son bases de datos.
  2. Los datos en la base de datos están lógicamente estructurados ( sistematizados ) para asegurar la posibilidad de su efectiva búsqueda y procesamiento en un sistema informático.
    La estructuración implica una selección explícita de componentes ( elementos ), enlaces entre ellos, así como tipificación de elementos y enlaces, en los que se asocian ciertas semánticas y operaciones válidas al tipo de elemento (enlace) [11] .
  3. La base de datos incluye un esquema , o metadatos , que describe la estructura lógica de la base de datos de manera formal (según algún metamodelo ).
    Según GOST R ISO IEC TO 10032-2007 , “los datos persistentes en un entorno de base de datos incluyen un esquema y una base de datos. El esquema incluye descripciones del contenido, la estructura y las restricciones de integridad utilizadas para crear y mantener la base de datos. La base de datos incluye un conjunto de datos persistentes definidos por un esquema. El sistema de gestión de datos utiliza las definiciones de datos en el esquema para proporcionar acceso y controlar el acceso a los datos en la base de datos” [1] .

De los signos enumerados, solo el primero es estricto, mientras que otros permiten diferentes interpretaciones y diferentes grados de evaluación. Solo se puede establecer cierto grado de cumplimiento de los requisitos para la base de datos.

En tal situación, la práctica común juega un papel importante. De acuerdo con él, por ejemplo, los archivos de archivos , los portales de Internet o las hojas de cálculo no se denominan bases de datos , a pesar de que en cierta medida tienen las características de una base de datos. Generalmente se acepta que este grado es insuficiente en la mayoría de los casos (aunque puede haber excepciones).

Historia

La historia de la aparición y el desarrollo de las tecnologías de bases de datos se puede considerar tanto en un aspecto amplio como limitado.

En un sentido amplio, el concepto de historia de las bases de datos se generaliza a la historia de cualquier medio por el cual la humanidad haya almacenado y procesado datos. En este contexto, por ejemplo, se mencionan los medios de contabilidad del tesoro real y los impuestos en la antigua Sumeria (4000 aC ) [12] , la escritura anudada de los incas  - kipu , la escritura cuneiforme que contiene documentos del reino asirio , etc. .que la desventaja de este enfoque es la confusión del concepto de "base de datos" y su fusión real con los conceptos de " archivo " e incluso " escritura ".

La historia de las bases de datos en sentido estricto considera las bases de datos en el sentido tradicional (moderno). Esta historia comienza en 1955 con la introducción del firmware para el procesamiento de registros. El software de esta época admitía un modelo de procesamiento de registros basado en archivos. Se utilizaron tarjetas perforadas para el almacenamiento de datos [12] .

Las bases de datos de redes operativas aparecieron a mediados de la década de 1960 . Las operaciones en las bases de datos operativas se procesaban de forma interactiva mediante terminales. La organización de registro secuencial de índice simple evolucionó rápidamente a un modelo de registro orientado a conjuntos más poderoso. Charles Bachmann recibió el Premio Turing por liderar el trabajo del Grupo de trabajo de base de datos (DBTG), que desarrolló un lenguaje estándar de descripción y manipulación de datos .

Al mismo tiempo, el concepto de esquemas de bases de datos y el concepto de independencia de datos se desarrollaron en la comunidad de bases de datos COBOL .

El próximo paso importante está asociado con el advenimiento del modelo de datos relacionales a principios de la década de 1970 , gracias al trabajo de Edgar Codd . El trabajo de Codd allanó el camino para una estrecha conexión entre la tecnología de base de datos aplicada y las matemáticas y la lógica. Edgar F. Codd también recibió el Premio Turing por sus contribuciones a la teoría y la práctica .

El término base de datos en sí ( en inglés  database ) apareció a principios de la década de 1960 y se introdujo en simposios organizados por SDC en 1964 y 1965 , aunque en un principio se entendió en un sentido bastante estrecho, en el contexto de los sistemas de inteligencia artificial . El término entró en uso generalizado en el sentido moderno sólo en la década de 1970 [13] .

Tipos de bases de datos

Hay una gran cantidad de variedades de bases de datos que difieren en varios criterios . Por ejemplo, en la "Enciclopedia de tecnologías de bases de datos" [7] , sobre la base de la cual se escribe esta sección, se definen más de 50 tipos de bases de datos.

La clasificación por modelo de datos suele incluir:

La clasificación por entorno de almacenamiento distingue entre bases de datos que almacenan datos en memoria secundaria ("tradicional", base de datos convencional en inglés  ), residente (todos los datos en la etapa de ejecución están en RAM ) y terciaria ( base de datos terciaria en inglés ), que almacena datos en dispositivos de almacenamiento masivo desmontables. - basado en cintas magnéticas o discos ópticos . Al mismo tiempo, en todas las clases, de una forma u otra, se utilizan todos los entornos de almacenamiento, por ejemplo, para las bases de datos residentes, el DBMS escribe registros de solo escritura en la memoria permanente , y para las bases de datos tradicionales, se utiliza un caché en RAM.  

Asimismo, las bases de datos se pueden clasificar por contenido, por ejemplo, pueden ser geográficas, históricas, científicas, multimedia . Para algunas formas de contenido, se crean DBMS especializados o se agregan características especializadas a un DBMS de propósito general, entre tales bases de datos:

De acuerdo con el grado de distribución, las bases de datos se dividen en centralizadas (concentradas; base de datos centralizada ing.  ), totalmente respaldadas en un equipo, y distribuidas ( base de datos distribuida ing. ). Entre la variedad de opciones para bases de datos distribuidas, se destacan las siguientes:  

Las opciones mixtas son posibles, por ejemplo, para la misma base de datos distribuida, la fragmentación se usa para objetos grandes y la replicación se usa para objetos pequeños.

De acuerdo con las formas de organizar el almacenamiento, se pueden distinguir las bases de datos cíclicas (escriben datos nuevos en lugar de obsoletos), las bases de datos de transmisión .

Bases de datos supergrandes

Una base de datos muy grande ( English  Very Large Database, VLDB ) es una base de datos que ocupa una cantidad extremadamente grande de espacio en un dispositivo de almacenamiento físico . El término implica los volúmenes máximos posibles de la base de datos, que están determinados por los últimos avances en tecnologías de almacenamiento de datos físicos y tecnologías de manejo de datos de software.

La definición cuantitativa del concepto de "volumen extremadamente grande" varía con el tiempo. Entonces, en 1997, la base de datos de texto más grande del mundo era DIALOG de Knight Ridder con un volumen de 7 terabytes [14] . En 2001, se consideró que la base de datos más grande tenía 10,5 terabytes, en 2003, 25 terabytes [15] . En 2005, las bases de datos más grandes del mundo se consideraban bases de datos con un volumen de almacenamiento de alrededor de cien terabytes [16] . En 2006, el motor de búsqueda de Google utilizó una base de datos de 850 terabytes [17] .

En 2010, se creía que el volumen de una base de datos ultragrande debería medirse en al menos petabytes [16] .

En 2011, Facebook almacenó datos en un clúster de 2000 nodos con una capacidad total de 21 petabytes [18] ; a fines de 2012, el volumen de datos de Facebook alcanzó los 100 petabytes [19] , y en 2014, los 300 petabytes [20] .

Para 2014, según estimaciones indirectas, Google almacenó en sus servidores hasta 10-15 exabytes de datos en total [21] .

Según algunas estimaciones, para 2025, los genetistas tendrán datos sobre los genomas de 100 millones a 2 mil millones de personas, y el almacenamiento de esta cantidad de datos requerirá de 2 a 40 exabytes [22] .

En general, según las estimaciones de IDC , la cantidad total de datos en el "universo digital" se duplica cada dos años y pasará de 4,4 zettabytes en 2013 a 44 zettabytes en 2020 [23] .

La investigación en el campo del almacenamiento y procesamiento de bases de datos VLDB muy grandes siempre está a la vanguardia de la teoría y la práctica de las bases de datos. En particular, desde 1975 se lleva a cabo anualmente la Conferencia Internacional sobre Bases de Datos Muy Grandes (“Conferencia Internacional sobre Bases de Datos Muy Grandes”). La mayor parte de la investigación se lleva a cabo bajo los auspicios de la organización sin fines de lucro VLDB Endowment (VLDB Endowment Fund), que garantiza la promoción del trabajo científico y el intercambio de información en el campo de bases de datos muy grandes y campos relacionados.

Véase también

Notas

  1. 1 2 GOST R ISO IEC TO 10032-2007: Modelo de referencia de gestión de datos (idéntico a ISO/IEC TR 10032:2003 Tecnología de la información — Modelo de referencia de gestión de datos)
  2. GOST 33707-2016 (ISO/IEC 2382:2015) Tecnología de la información (TI). Diccionario
  3. ISO/IEC TR 10032:2003 - Tecnología de la información - Modelo de referencia de  gestión de datos . www.iso.org. Consultado el 9 de julio de 2018. Archivado desde el original el 9 de julio de 2018.
  4. "Cabe señalar que el término base de datos se usa a menudo incluso cuando en realidad significa DBMS. […] Tal uso de términos es reprobable . ” — K. J. Fecha. Introducción a los sistemas de bases de datos. - 8ª edición. - M .: "Williams", 2006, p. 50.
    "Este término (base de datos) a menudo se usa erróneamente en lugar del término 'sistema de gestión de base de datos'" . — Kogalovsky M.R. Enciclopedia de tecnologías de bases de datos. - M .: Finance and Statistics, 2002., página 460.
    “Entre los no profesionales […] surge la confusión cuando se utilizan los términos “base de datos” y “sistema de gestión de base de datos”. […] Vamos a separar estrictamente estos términos . ” - Conceptos básicos de la base de datos Kuznetsov S. D.: un tutorial. — 2ª edición, rev. — M.: Internet Universidad de Tecnologías de la Información; BINOMIO. Laboratorio de conocimientos, 2007, página 19.
  5. Código Civil de la Federación Rusa, art. 1260
  6. ↑ ISO/IEC 2382 : 2015 - Tecnología de la información - Vocabulario  . www.iso.org. Consultado el 9 de julio de 2018. Archivado desde el original el 24 de abril de 2021.
  7. 1 2 Kogalovsky M.R., 2002 .
  8. Fecha KJ, 2005 .
  9. Connolly T., Begg K., 2003 .
  10. Miroshnichenko E. A. Hacia una definición formal del concepto de "base de datos" Copia de archivo fechada el 27 de abril de 2016 en Wayback Machine // Probl. informatica 2011. Nº 2. S. 83-87.
  11. Es importante comprender que la estructuración de una base de datos no se evalúa a nivel de almacenamiento físico (donde todos los datos se representan mediante conjuntos de bits o bytes ), sino a nivel de algún modelo de datos lógicos .
  12. 1 2 Gray, J. Gestión de datos: pasado, presente y futuro . Consultado el 16 de abril de 2010. Archivado desde el original el 27 de abril de 2010.
  13. Haigh T. How Data Got its Base: Information Storage Software in the 1950s and 1960s // IEEE Annals of the History of Computing. — 2009. — #4 Octubre-Diciembre
  14. Base de datos muy grande . Consultado el 6 de noviembre de 2016. Archivado desde el original el 6 de noviembre de 2016.
  15. Riedewald M., Agrawal D., Abbadi A. Dynamic Multidimensional Data Cubes for Interactive Analysis of Massive Datasets // En: Encyclopedia of Information Science and Technology, Primera edición, Idea Group Inc., 2005. ISBN 9781591405535
  16. 1 2 bases de datos "extremas": las más grandes y rápidas . Archivado el 1 de noviembre de 2011 en Wayback Machine , 2010.
  17. Alex Chitú. ¿Cuántos datos almacena Google? Archivado el 15 de septiembre de 2016 en Wayback Machine , 2006
  18. Shvachko, Konstantin. Apache Hadoop.  La actualización de escalabilidad . - 2011. - vol. 36 , núm. 3 . - Pág. 7-13 . - ISSN 1044-6397 .
  19. Josh Contine. ¿Qué tamaño tienen los datos de Facebook? Archivado el 12 de septiembre de 2018 en Wayback Machine // TechCrunch , 23/08/2012
  20. Wiener, J. , Bronson N. Los principales problemas de datos abiertos de Facebook Archivado el 12 de septiembre de 2018 en Wayback Machine , 22/10/2014
  21. Colin Carson. ¿Cuántos datos almacena Google? Archivado el 15 de septiembre de 2016 en Wayback Machine , 2014
  22. Asya Gorina. La creciente cantidad de datos genéticos se ha convertido en un desafío para la ciencia . Archivado el 5 de marzo de 2017 en Wayback Machine .
  23. Resumen ejecutivo: crecimiento de datos, oportunidades comerciales y los imperativos de TI . Consultado el 12 de septiembre de 2018. Archivado desde el original el 12 de septiembre de 2018.

Literatura

Enlaces