Корпоративные хранилища данных (EDW) существуют уже более 30 лет. За это время они стали неотъемлемой частью бизнеса, поскольку EDW помогают улучшить аналитику, ускорить бизнес-процессы, создавать более эффективные рекламные кампании, персонализировать пользовательский опыт и многое другое. Дальше мы расскажем, что такое корпоративные хранилища данных и как они работают, а также на примерах покажем, как внедрение EDW может помочь вашему бизнесу.
Хранилище корпоративных данных (EDW) — это централизованный репозиторий, который консолидирует и хранит все корпоративные бизнес-данные из различных источников. Данные из этих хранилищ обычно можно извлечь с помощью физических носителей (HDD, SSD, CD, карты флеш-памяти и т.п.) или таких инструментов, как система управления взаимоотношениями с клиентами (CRM), система планирования ресурсов предприятия (ERP). Благодаря этому компании могут быстро обрабатывать большие наборы данных с одной структурой хранения и едиными унификациями, а не искать и сопоставлять их из нескольких разнородных баз данных.
Думайте об этом как о поиске информации в книгах. Раньше они существовали только в бумажной форме и хранились в различных библиотеках, из-за чего поиск, сопоставление и анализ информации из книг был весьма длительным и затратным мероприятием. Причем проблема еще больше усугублялась, если эти книги были на разных языках или относились к разным историческим эпохам (могут быть трудности с терминами, названиями и контекстом). Сейчас же почти все книги представлены в электронной форме в интернете и многие из них (по крайне мере те, что написаны на английском) есть, например, в Google Books Ngram Viewer, благодаря чему мы можем не только их прочесть, но и очень быстро сопоставить и проанализировать.
Аналогично дело обстоит и с бизнес-данными. Раньше они хранились на бумаге во множестве хранилищ, что усложняло работу с ними. Затем их перевели в цифровой формат, но они все еще сберегались в отдельных местах (дисках, серверах и базах данных). Сейчас же бизнес-данные принято хранить в одном месте (одной системе) таким образом, чтобы к ним имели быстрый доступ все заинтересованные стороны — от продавца за прилавком до директора компании или внешнего аудитора. Именно такие системы и называют Хранилищем корпоративных данных.
Хотя существует множество архитектурных подходов, которые тем или иным образом влияют на возможности, преимущества и недостатки корпоративного хранилища данных, мы сосредоточимся на наиболее важных из них.
Одноуровневая архитектура. Считается одной из самых примитивных архитектурой для построения EDW. В ней средства отчетности подключаются непосредственно к хранилищу данных, которое имеет прямую связь с различными аналитическими инструментами. Такую архитектуру EDW проще и дешевле внедрить и настроить, но при хранении довольно больших объемов данных ( 100 Гб и больше) ее использование сопряжено с рядом проблем: низкая скорость работы, потребность точного ввода запроса, запутанность результатов запросов и ограниченная гибкость. Из этого следует, что одноуровневая архитектура корпоративного хранилища данных подходит только для организаций с небольшими наборами данных.
Такой подход позволяет значительно увеличить скорость обработки запросов и делает их менее требовательными к точности ввода. Кроме того, витрины данных могут ограничивать доступ к данным для конечных пользователей, что делает EDW более безопасным. Это делает двухуровневое корпоративное хранилище данных более подходящим для реальных сценариев использования в бизнес-процессах.
Таким образом, можно сказать, что трехуровневая EDW лучше подходит для больших компаний, для компаний с довольно разветвленной бизнес-структурой и для компаний, которые работают сразу на множестве направлений.
Постоянный доступ к бизнес-данным. Основная привлекательность корпоративного хранилища данных для бизнеса заключается в том, что у всех заинтересованных сторон есть постоянный быстрый доступ ко всем бизнес-данным. Это намного выгоднее, чем наличие отдельных хранилищ данных у каждого крупного филиала или организационного подразделения, что приводит к сложному процессу изымания данных, который к тому же более склонен к ошибкам в выдаваемых данных и угрозам для безопасности фирмы и конфиденциальности клиентов.
Простой и быстрый доступ к бизнес-данным. Способность быстро принимать правильные решения является одним из факторов, которые дают предприятиям конкурентное преимущество. Когда владелец бизнеса может почти моментально получить доступ к хорошо структурированным достоверным данным, не тратя свое время на их сбор из нескольких разнородных источников, это дает такому владельцу возможность принять более быстрое и обоснованное решение. И даже если времени у такого владельца достаточно, то и в этом случае EDW будет плюсом, так как с ним вы можете потратить больше времени на анализ данных, а не на их сбор.
Простой пример — реакция магазинов на пандемию коронавируса. Компании с EDWs намного быстрее отреагировали на изменение структуры спроса, так как они получали данные в режиме реального времени, а потому могли быстрее конкурентов заказать пополнение запасов товаров, которые начали пропадать с полок, например тех же медицинских масок, антисептиков, а также ноутбуков и планшетов.
Повышенное качество бизнес-аналитики. Корпоративное хранилище данных избавляет руководителей предприятий и директоров от необходимости принимать решения, основанные на ограниченных данных или личных инстинктах. С EDW все важные решения, влияющие на стратегию и деятельность компании, зависят только от достоверных фактов, подкрепленных информацией из хранилищ данных. Причем это могут быть довольно неожиданные решения, так как сбор данных в одном месте и их последующий анализ может показать неожиданные закономерности, как то, что перед ураганом в США росли не только объемы продаж фонариков, но и печенья с клубничной начинкой PopTarts, а также сладких сухих американских завтраков.
Более простые и масштабные интеграции. Современные software-решения для хранения данных можно интегрировать с огромным количеством инструментов для сбора и анализа данных. И это не только Excel или CRM- / ERP-решения, но и такие вещи, как IBM Cognos Analytics, SAP Business Objects, Microsoft SQL Server и т.п. Вот только все эти инструменты эффективны лишь тогда, когда данные из нескольких систем могут быть объединены в одну хорошо структурированную базу данных — это исключает возможность дублирования данных и позволяет легко и быстро извлекать их. Кроме этого, интегрировать все эти инструменты в одно корпоративное хранилище данных намного быстрее и дешевле, нежели проводить такую интеграцию для нескольких хранилищ данных.
Согласованность и качество данных. Поскольку корпоративные хранилища данных собирают информацию из нескольких источников и преобразовывают ее в единый формат, они предоставляют компаниям более точные данные для принятия управленческих решений. Различные подразделения компании, например финансы, маркетинг и продажи, могут использовать эти данные для своих нужд, при этом они будут уверены в точности и достоверности информации. Благодаря этому каждое подразделение будет давать результаты, согласующиеся с результатами других подразделений организации. Это способствует командной работе.
Высокая отдача от инвестиций. Увеличение дохода, которое бизнес получает в результате инвестиций, называется возвратом инвестиций (или ROI). EDWs могут сократить расходы и увеличить прибыль компании, а также значительно повышают качество бизнес-аналитики, что в совокупности сильно увеличивает рентабельность инвестиций и снижает риски стагнации бизнеса или его банкротства.
Историческая разведка. Многие предприятия используют EDWs для создания исторических отчетов, что позволяет выполнять расширенную бизнес-аналитику с использованием анализа тенденций, углубленного поиска закономерностей и прогнозирования развития бизнеса в долгосрочной перспективе.
Вот пример возможного стека технологий для EDW:
Следующим шагом будет логическое моделирование данных или организация данных компании в ряд логических отношений, называемых сущностями (объекты реального мира) и атрибутами (наблюдаемые характеристики, которые определяют эти объекты). Затем эти логические модели данных преобразуются в структуры базы данных, например сущности преобразуются в таблицы, атрибуты преобразуются в столбцы, отношения преобразуются в ограничения внешнего ключа и так далее.
Этот шаг обычно начинается с выбора и настройки выбранных технологий (платформы DWH, программного обеспечения для обеспечения безопасности данных, технологии преобразования данных и т. д.). Затем компания-разработчик создает конвейеры ETL (Extract, Transform, Load) и внедряет защиту данных.
После внедрения всех основных компонентов их необходимо интегрировать с существующей инфраструктурой данных (источники данных, инструменты для бизнес-аналитики и аналитики, озеро данных и т. д.), а также друг с другом, чтобы впоследствии можно было перенести данные в будущую EDW.
Дальше нужно провести тщательную проверку нового продукта:
Когда все это сделано, производится развертывание EDW.
После развертывания вам необходимо обеспечить постоянную поддержку и обслуживание корпоративного хранилища данных. Также со временем необходимо будет измерять показатели производительности EDW и оценить удовлетворенность конечных пользователей. Это поможет вам выявить узкие места в работе хранилища и расширить его возможности согласно текущим потребностям вашего бизнеса.