OLAP-приложения оперируют с большими массивами данных, уже
накопленными в оперативных базах данных OLTP-систем, взятыми из
электронных таблиц или из других источников данных. Такие системы
характеризуются следующими признаками:
• Добавление в систему новых данных происходит относительно редко
крупными блоками (например, раз в квартал загружаются данные по
итогам квартальных продаж из OLTP-системы).
• Данные, добавленные в систему, обычно никогда не удаляются и не
изменяются.
• Перед загрузкой данные проходят различные процедуры "очистки",
связанные с тем, что в одну систему могут поступать данные из мно-
гих источников, имеющих различные форматы представления, дан-
ные могут быть некорректны, ошибочны.
• Запросы к системе являются нерегламентированными и, как правило,
достаточно сложными. Очень часто новый запрос формулируется
аналитиком для уточнения результата, полученного в результате пре-
дыдущего запроса.
• Скорость выполнения запросов важна, но не критична.
Исходя из перечисленных признаков OLAP-систем, можно сделать
вывод, что база данных такой системы может быть в значительной степе-
ни денормализованной. Поскольку основным видом запросов к базе дан-
ных являются запросы на выборку, положительные моменты нормализа-
ции не могут быть использованы, а сокращение операций соединения в
запросах окажется весьма полезным.
В последнее время активно развивается еще одно направление ана-
литической обработки данных, получившее название Data Mining (ос-
мысление данных, иногда говорят «раскопка данных»). Это направление
направлено на поиск скрытых закономерностей в данных и решение задач
прогнозирования. Приложения Data Mining также не изменяют данные, с
которыми они работают, поэтому для них более предпочтительной явля-
ется денормализованная база данных.
Для того чтобы подчеркнуть особый способ организации данных, кото-
рые могут эффективно использоваться для анализа приложениями OLAP и
Data Mining, к ним применяют специальный термин «хранилища данных»
(DataWare House). Важно отметить, что хранилища данных, в отличие от
оперативной БД, хранят исторические данные, т.е. отражают те факты из
деятельности предприятия, которые уже произошли, следовательно, могут
храниться в неизменном виде («историю не переписывают») и накапливаться
годами, в связи с чем их размеры могут стать весьма внушительными. После
перекачки данных в хранилище они обычно удаляются из оперативной БД,
что позволяет поддерживать ее размеры в заданных пределах.
Таким образом, можно представить корпоративную информацион-
ную систему современного предприятия в виде совокупности нескольких