Что значит термин VLDB?
Термин VLDB (Very Large Data Bases - сверхбольшие базы данных)
перегружен. Размер базы данных является лишь одним и не самым
важным параметром в контексте этой статьи. К примеру сказать,
практически не один из обсуждаемых далее вопросов не существенен
для баз данных, используемых в приложениях OLTP (On-Line
Transaction Processing), поскольку в таких приложениях запросы
даже к большим базам данных являются короткими и затрагивают
незначительное число элементов данных и метаданных. К тому же,
базы данных OLTP часто создаются и администрируются как наборы
относительно независимых небольших баз данных, разделенных в
соответствии со значением ключа. Вопросы же, обсуждаемые в этой
статье, касаются сверхбольших баз данных, запросы к которым
затрагивают большие объемы данных и метаданных и включают
массивные операции соединения, агрегации и т.п. Такие базы данных
и приложения сегодня главным образом связаны со складами данных
(data warehousing) и добычей данных (data mining).
Для среды VLDB характерны большое число операций ввода/вывода при
выполнении одного сложного оператора языка SQL и частая
потребность в генерации больших промежуточных наборов данных.
Запросы часто пересекают границы установленных разделов и
вовлекают данные, разбросанные по всей базе данных. Поэтому такая
база данных, как правило, должна администрироваться как единое
целое. Автор ориентируется на базы данных размером не менее 250
Гбт, к которым поступают сложные запросы, для которых требуется
оперативное администрирование для реорганизации, архивирования и
восстановления и для которых характерно регулярное выполнение
массивных операций (вставки, удаления и модификации) над объемами
данных не менее 25 Гбт. Для таких баз данных требуются системы
MPP (Massively Parallel Processing) или очень крупные кластеры
SMP (Symmetric MultiProcessor). Однако многие из обсуждаемых
далее вопросов относятся и к более мелким базам данных.