Árbol LSM

El árbol LSM (del árbol de combinación con estructura de registro - árbol de combinación con estructura de registro) es una estructura de datos utilizada en muchos DBMS que proporciona acceso rápido al índice en condiciones de solicitudes de inserción frecuentes (por ejemplo, cuando se almacenan registros de transacciones ). Los árboles LSM, como otros árboles, almacenan pares clave-valor. Un árbol LSM mantiene dos o más estructuras diferentes, cada una optimizada para el dispositivo en el que se almacenará. La sincronización entre estas estructuras ocurre en bloques.

Cómo funciona

Una versión simple de un árbol LSM, un árbol de dos niveles, consta de dos estructuras en forma de árbol C 0 y C 1 . C 0 es más pequeño y se almacena completamente en RAM, mientras que C 1 está en memoria no volátil. Las nuevas entradas se insertan en C 0 . Si, después de la inserción, el tamaño de C 0 supera algún umbral predeterminado, el segmento contiguo se elimina de C 0 y se fusiona con C 1 en el almacenamiento persistente. Se logra un buen desempeño debido a que los árboles están optimizados para su almacenamiento, y la fusión se realiza de manera eficiente y en grupos de varios registros, utilizando un algoritmo que recuerda al merge sort .

La mayoría de los árboles LSM utilizados en la práctica implementan varios niveles. El nivel 0 (llamémoslo MemTable) se almacena en la RAM y se puede representar mediante un árbol normal. Los datos en los dispositivos de almacenamiento persistente se almacenan en forma de tablas ordenadas por clave ( SSTable ). La tabla se puede almacenar como un archivo separado o como un conjunto de archivos con valores clave que no se superponen. Para encontrar una clave específica, debe verificar su presencia en MemTable y luego revisar todas las SSTables en el dispositivo de almacenamiento persistente.

Esquema de trabajo con LSM-tree:

Los índices SSTable siempre se cargan en la RAM;
la entrada se realiza en MemTable;
al leer, primero se verifica MemTable y luego, si es necesario, SSTable en el dispositivo de almacenamiento persistente;
MemTable se vacía periódicamente a la memoria no volátil para el almacenamiento permanente como SSTable;
Las SSTables en dispositivos de almacenamiento persistente se fusionan periódicamente.

La clave buscada puede aparecer en varias tablas a la vez en dispositivos de almacenamiento persistente, y la respuesta final depende del programa. La mayoría de las aplicaciones solo necesitan el último valor asociado con una clave determinada. Otros, como Apache Cassandra , en el que cada valor es una fila de la base de datos (y una fila puede tener un número diferente de columnas en diferentes tablas de almacenamiento persistente), tienen que procesar todos los valores de alguna manera para obtener el resultado correcto [1] . Para reducir el tiempo de ejecución de consultas, en la práctica intentan evitar la situación con demasiadas tablas en dispositivos de almacenamiento persistente.

Se han desarrollado extensiones al método de "nivel" para mantener estructuras B+ ‍, como bLSM [2] y Diff-Index. [3]

Horario de apertura

La arquitectura de árbol LSM le permite satisfacer una solicitud de lectura desde la RAM o en una llamada a dispositivos de almacenamiento persistente. La escritura también es siempre rápida, independientemente del tamaño de almacenamiento.

SSTable en dispositivos de almacenamiento persistente es inmutable. Por lo tanto, los cambios se almacenan en MemTable y las eliminaciones deben agregar un valor especial a MemTable. Debido a que las nuevas lecturas se producen secuencialmente en el índice, el valor actualizado o la entrada de eliminación de valor se producirán antes que los valores antiguos. Una combinación de ejecución periódica de SSTables antiguos en el almacenamiento persistente hará estos cambios y, de hecho, eliminará y actualizará los valores, eliminando los datos innecesarios.

Notas

↑ Compactación nivelada en Apache Cassandra / datastax.com
↑ Margo Seltzer | MARGO I. SELTZER es la Cátedra de Investigación Canada 150 en Ciencias de la Computación en la Universidad de Columbia Británica. Sus intereses de investigación están en sistemas, construidos q... . Consultado el 5 de noviembre de 2016. Archivado desde el original el 3 de enero de 2017. (indefinido)
↑ Copia archivada . Consultado el 5 de noviembre de 2016. Archivado desde el original el 3 de agosto de 2016. (indefinido)

Enlaces

Patrick O'Neil, The log-structured merge-tree (LSM-tree) // Acta Informatica Volume 33 Issue 4, 1996, p 351-385, doi:10.1007/s002360050048

Árbol (estructura de datos)
Árbol de búsqueda binario Árbol (teoría de grafos) estructura de árbol
Árboles binarios	árbol binario árbol en T
Árboles binarios autoequilibrados	árbol AA árbol AVL árbol rojo-negro árbol de juego árbol con multas árbol cartesiano árbol de fibonacci árbol B árbol en T
árboles B	2-3-árbol árbol B⁺ árbol B* B x -árbol árbol de la UB 2-3-4 árbol (a,b)-árbol arbol bailando
árboles de prefijo	árbol de sufijos Árbol de prefijos comprimido Árbol de búsqueda ternario
Partición binaria del espacio	árbol k-dimensional árbol de vicepresidentes
Árboles no binarios	Árbol cuádruple octárbol Octree voxel disperso árbol exponencial árbol PQ
Rompiendo el espacio	R-árbol Árbol R de Hilbert R+-árbol R*-árbol árbol X M-árbol árbol de fenwick Árbol de segmentos
Otros árboles	montón árbol de hachís árbol de los dedos árbol métrico árbol de revestimiento árbol BK Árbol de doble cadena iDistancia Árbol de corte de enlace árbol LSM
Algoritmos	Primera búsqueda en amplitud Primera búsqueda en profundidad algoritmo DSW protocolo de árbol de expansión