Хотя существует множество архитектурных подходов, которые тем или иным образом влияют на возможности, преимущества и недостатки корпоративного хранилища данных, мы сосредоточимся на наиболее важных из них.
Одноуровневая архитектура. Считается одной из самых примитивных архитектурой для построения EDW. В ней средства отчетности подключаются непосредственно к хранилищу данных, которое имеет прямую связь с различными аналитическими инструментами. Такую архитектуру EDW проще и дешевле внедрить и настроить, но при хранении довольно больших объемов данных ( 100 Гб и больше) ее использование сопряжено с рядом проблем: низкая скорость работы, потребность точного ввода запроса, запутанность результатов запросов и ограниченная гибкость. Из этого следует, что одноуровневая архитектура корпоративного хранилища данных подходит только для организаций с небольшими наборами данных.
Пример одноуровневой архитектуры EDW.
Источник
Двухуровневая архитектура. В таком хранилище реализован уровень с условным названием «Витрина данных» (или «Магазин данных») между уровнем отчетности и EDW. Витрины данных можно рассматривать как небольшие базы данных, которые содержат информацию о какой-то конкретной предметной области (
например, продажи, доход, маркетинг, персонал и прочее). То есть в такой двухуровневой архитектуре вся информация в EDW разделена на различные витрины данных в зависимости от типа информации и инструменты отчетности подключаются именно к этим витринам, а не ко всему хранилищу данных.
Такой подход позволяет значительно увеличить скорость обработки запросов и делает их менее требовательными к точности ввода. Кроме того, витрины данных могут ограничивать доступ к данным для конечных пользователей, что делает EDW более безопасным. Это делает двухуровневое корпоративное хранилище данных более подходящим для реальных сценариев использования в бизнес-процессах.
В двухуровневой архитектуре EDW есть витрины данных, каждая из которых содержит информацию об отдельной предметной области.
Источник
Трехуровневая архитектура. В этой EDW дополнительно реализуется уровень оперативной аналитической обработки (OLAP) между уровнем витрины данных и уровнем отчетности. Куб OLAP — это особый тип базы данных, предоставляющий данные из нескольких измерений (думайте об этом так: обычные реляционные базы данных работают с одной таблицей, тогда как OLAP позволяет сопоставлять данные из двух и больше таблиц). По этой причине OLAP позволяет компилировать данные в нескольких измерениях (подразделениях, регионах, каналах и т.д.), что позволяет получать более продвинутую аналитику по большему числу параметров.
Таким образом, можно сказать, что трехуровневая EDW лучше подходит для больших компаний, для компаний с довольно разветвленной бизнес-структурой и для компаний, которые работают сразу на множестве направлений.
В трехуровневой архитектуре к EDW добавляется уровень кубов OLAP, который может получать информацию из распределенных витрин или непосредственно из EDW.
Источник
Преимущества EDW для бизнеса
Постоянный доступ к бизнес-данным. Основная привлекательность корпоративного хранилища данных для бизнеса заключается в том, что у всех заинтересованных сторон есть постоянный быстрый доступ ко всем бизнес-данным. Это намного выгоднее, чем наличие отдельных хранилищ данных у каждого крупного филиала или организационного подразделения, что приводит к сложному процессу изымания данных, который к тому же более склонен к ошибкам в выдаваемых данных и угрозам для безопасности фирмы и конфиденциальности клиентов.
Простой и быстрый доступ к бизнес-данным. Способность быстро принимать правильные решения является одним из факторов, которые дают предприятиям конкурентное преимущество. Когда владелец бизнеса может почти моментально получить доступ к хорошо структурированным достоверным данным, не тратя свое время на их сбор из нескольких разнородных источников, это дает такому владельцу возможность принять более быстрое и обоснованное решение. И даже если времени у такого владельца достаточно, то и в этом случае EDW будет плюсом, так как с ним вы можете потратить больше времени на анализ данных, а не на их сбор.
Простой пример — реакция магазинов на пандемию коронавируса. Компании с EDWs намного быстрее отреагировали на изменение структуры спроса, так как они получали данные в режиме реального времени, а потому могли быстрее конкурентов заказать пополнение запасов товаров, которые начали пропадать с полок, например тех же медицинских масок, антисептиков, а также ноутбуков и планшетов.
Повышенное качество бизнес-аналитики. Корпоративное хранилище данных избавляет руководителей предприятий и директоров от необходимости принимать решения, основанные на ограниченных данных или личных инстинктах. С EDW все важные решения, влияющие на стратегию и деятельность компании, зависят только от достоверных фактов, подкрепленных информацией из хранилищ данных. Причем это могут быть довольно неожиданные решения, так как сбор данных в одном месте и их последующий анализ может показать неожиданные закономерности, как то, что перед ураганом в США росли не только объемы продаж фонариков, но и печенья с клубничной начинкой PopTarts, а также сладких сухих американских завтраков.
Более простые и масштабные интеграции. Современные software-решения для хранения данных можно интегрировать с огромным количеством инструментов для сбора и анализа данных. И это не только Excel или CRM- / ERP-решения, но и такие вещи, как IBM Cognos Analytics, SAP Business Objects, Microsoft SQL Server и т.п. Вот только все эти инструменты эффективны лишь тогда, когда данные из нескольких систем могут быть объединены в одну хорошо структурированную базу данных — это исключает возможность дублирования данных и позволяет легко и быстро извлекать их. Кроме этого, интегрировать все эти инструменты в одно корпоративное хранилище данных намного быстрее и дешевле, нежели проводить такую интеграцию для нескольких хранилищ данных.
Согласованность и качество данных. Поскольку корпоративные хранилища данных собирают информацию из нескольких источников и преобразовывают ее в единый формат, они предоставляют компаниям более точные данные для принятия управленческих решений. Различные подразделения компании, например финансы, маркетинг и продажи, могут использовать эти данные для своих нужд, при этом они будут уверены в точности и достоверности информации. Благодаря этому каждое подразделение будет давать результаты, согласующиеся с результатами других подразделений организации. Это способствует командной работе.
Высокая отдача от инвестиций. Увеличение дохода, которое бизнес получает в результате инвестиций, называется возвратом инвестиций (или ROI). EDWs могут сократить расходы и увеличить прибыль компании, а также значительно повышают качество бизнес-аналитики, что в совокупности сильно увеличивает рентабельность инвестиций и снижает риски стагнации бизнеса или его банкротства.
Историческая разведка. Многие предприятия используют EDWs для создания исторических отчетов, что позволяет выполнять расширенную бизнес-аналитику с использованием анализа тенденций, углубленного поиска закономерностей и прогнозирования развития бизнеса в долгосрочной перспективе.
Как внедрить EDW в свой бизнес
Корпоративное хранилище данных — это сложное программное обеспечение, которое должно
быть не только безопасным и надежным, но приятным внешне и удобным в использовании. Добиться этого можно, только создав EDW с нуля, так как готовые решения — это риски безопасности и компромисс между тем, что вам нужно, и тем, что предоставляет поставщик. При этом
разрабатывать EDW должна опытная команда разработчиков, такая как Merehead. Мы с 2015 года занимаемся созданием корпоративных решений различной сложности — от простых сайтов до максимально безопасных
криптовалютных бирж и NFT-платформ. Взгляните на
наш сайт, чтобы изучить портфолио и связаться с нашими консультантами.
Шаг 1. Определение требований бизнеса
Бизнес-требования влияют почти на каждое решение в процессе разработки корпоративного хранилища данных — от того, какая информация должна быть доступна конкретной роли пользователя (например продавцу, маркетологу или директору), до того, как часто к ней следует обращаться. Поэтому создание EDW целесообразно начать с опроса ваших бизнес-пользователей. Благодаря этому опросу вы сможете определиться со следующими вещами:
- Общие бизнес-цели и задачи вашей компании, а также цели ее отдельных бизнес-подразделений, отделов, филиалов, линий производства и т.д.
- Методы и показатели, используемые для измерения успеха — достижения заданных бизнес-целей и задач компании. Эти методы и показатели общие для всей компании и / или они отличаются в зависимости от отдела?
- Ключевые проблемы, с которыми сталкивается бизнес. Каким образом корпоративное хранилище данных способно их решить / уменьшить?
- Типы рутинного анализа данных, которые компания в настоящее время выполняет, в том числе какие данные для этого используются, как часто проводится анализ, какие потенциальные улучшения он принес и т. д.?
Вам также следует опросить ваших ключевых IT-специалистов (штатных разработчиков, экспертов по операционным исходным системам, администраторов баз данных и т.д.) о том, достаточно ли доступной в настоящее время информации для удовлетворения таких бизнес-требований, как:
- Операционные системы, которые используются в вашей компании?
- Частота обновления данных в целом и по отдельным подразделениям?
- Наличие исторических данных. Период? Насколько они стандартизированы?
- Какие инструменты используются для доступа к бизнес-данным?
- Какие инструменты используются для анализа бизнес-данных?
- Какие типы аналитических данных регулярно генерируются?
- Хорошо ли обрабатываются специальные запросы?
- Прочее…
Шаг 2. Концептуализация EDW и выбор технологии
На основе информации, собранной на предыдущем этапе, можно определить масштабы проекта, потребности и ожидания вашего бизнеса и ваших сотрудников. Все это нужно тщательно проанализировать и распределить по приоритетам, чтобы составить оптимальный набор функций и спецификаций будущей EDW. В частности, это поможет выбрать тип и архитектуру корпоративного хранилища данных, а также подобрать оптимальную технологию для каждого из архитектурных компонентов. При составлении стека технологий учитывайте такие факторы, как:
- Ваша текущая технологическая среда.
- Планируемые стратегические технологические направления.
- Технические компетенции членов команды разработчиков.
- Особые требования к безопасности данных.
- Прочие важные вещи…
Также на этом этапе нужно определиться с вариантом развертывания EDW — локально, в облаке или гибридно. Выбор варианта развертывания определяется многочисленными факторами, такими как бюджет, требования безопасности, объем данных, характер данных, количество пользователей и их местоположение.
Вот пример возможного стека технологий для EDW:
- Приемданных: Fivetran, Airbyte, Meltano, Estuary Flow.
- Хранилищеданных: Redshift, BigQuery, Snowflake, Databricks, любаяреляционнаябазаданных (Oracle, Teradata, Vertica, Greenplum, DB2, MySQL, SQL Server ит. д.), платформа Hadoop (Apache Hadoop, MapR, Hortonworks, Cloudera), базаданных — MongoDB, Cassandra, MapR DB ит. д.
- Бизнес-аналитикаивизуализацияданных: Looker, Mode, Tableau, Preset, Superset, Thoughtspot, Chartio, Orange, Opentext Content Analytics, OpenRefine.
- Операционализация или «обратный ETL»: Census, Hightouch, Rudderstack.
- Наблюдениеимониторинг: Monte Carlo, Observe.ai, Splunk, Datadog, Datakin.
- Управлениеметаданными: OpenMetadata, Informatica, MANTA.
- Оркестровка: Airflow, Prefect, Dagster, Astronomer.
Шаг 3. Разработка дизайна среды хранилища данных
Также во время проектирования вашего корпоративного хранилища данных вам необходимо определить источники данных и проанализировать хранящуюся в них информацию — какие типы данных доступны, структура записи, время и скорость генерации, каково качество данных и их точность, что с конфиденциальностью?
Следующим шагом будет логическое моделирование данных или организация данных компании в ряд логических отношений, называемых сущностями (объекты реального мира) и атрибутами (наблюдаемые характеристики, которые определяют эти объекты). Затем эти логические модели данных преобразуются в структуры базы данных, например сущности преобразуются в таблицы, атрибуты преобразуются в столбцы, отношения преобразуются в ограничения внешнего ключа и так далее.
Пример организации данных компании в ряд логических отношений.
Источник
После завершения моделирования данных следующим этапом будет проектирование области промежуточного хранения данных, чтобы обеспечить хранилище данных высококачественными агрегированными данными, а также определить поток данных от источника к целевому объекту во время всех последующих загрузок данных.
Логический и физический дизайн в хранилищах данных.
Источник
Данный этап разработки EDW также включает в себя создание политик доступа и использования данных, создание каталога метаданных, бизнес-глоссариев и т. д.
Шаг 4. Разработка и запуск вашего EDW
Этот шаг обычно начинается с выбора и настройки выбранных технологий (платформы DWH, программного обеспечения для обеспечения безопасности данных, технологии преобразования данных и т. д.). Затем компания-разработчик создает конвейеры ETL (Extract, Transform, Load) и внедряет защиту данных.
После внедрения всех основных компонентов их необходимо интегрировать с существующей инфраструктурой данных (источники данных, инструменты для бизнес-аналитики и аналитики, озеро данных и т. д.), а также друг с другом, чтобы впоследствии можно было перенести данные в будущую EDW.
Дальше нужно провести тщательную проверку нового продукта:
- Протестируйте производительность хранилища данных, ETL и т. д.
- Проверьте качество данных (разборчивость, полнота, безопасность и т. д.)
- Убедитесь, что у пользователей есть доступ к хранилищу данных и т. д.
После тестирования нужно убедиться, что ваши конечные пользователи могут работать в новой технологической среде. Это подразумевает, что они понимают, какая информация им доступна, что она означает, как получить к ней доступ, какие инструменты использовать для ее анализа и вывода и т.п. Для этого желательно провести индивидуальное обучение персонала, в том числе руководителей.
Когда все это сделано, производится развертывание EDW.
Шаг 5. Поддержка и обслуживание
После развертывания вам необходимо обеспечить постоянную поддержку и обслуживание корпоративного хранилища данных. Также со временем необходимо будет измерять показатели производительности EDW и оценить удовлетворенность конечных пользователей. Это поможет вам выявить узкие места в работе хранилища и расширить его возможности согласно текущим потребностям вашего бизнеса.