Как Корпоративное Хранилище Данных Влияет на Бизнес?

Прочитано
0
слов
Юрий Мусиенко  
  Читать: 9 мин Обновлено 07.11.2022
Юрий — CBDO Merehead, более 10 лет опыта в разработке криптопроектов и бизнес-дизайне. Разработал 20+ криптобирж, 10+ DeFi/P2P платформ, 3 проекта токенизации. Подробнее

Корпоративные хранилища данных (EDW) существуют уже более 30 лет. За это время они стали неотъемлемой частью бизнеса, поскольку EDW помогают улучшить аналитику, ускорить бизнес-процессы, создавать более эффективные рекламные кампании, персонализировать пользовательский опыт и многое другое. Дальше мы расскажем, что такое корпоративные хранилища данных и как они работают, а также на примерах покажем, как внедрение EDW может помочь вашему бизнесу.

Что такое EDW

Хранилище корпоративных данных (EDW) — это централизованный репозиторий, который консолидирует и хранит все корпоративные бизнес-данные из различных источников. Данные из этих хранилищ обычно можно извлечь с помощью физических носителей (HDD, SSD, CD, карты флеш-памяти и т.п.) или таких инструментов, как система управления взаимоотношениями с клиентами (CRM), система планирования ресурсов предприятия (ERP). Благодаря этому компании могут быстро обрабатывать большие наборы данных с одной структурой хранения и едиными унификациями, а не искать и сопоставлять их из нескольких разнородных баз данных.

Думайте об этом как о поиске информации в книгах. Раньше они существовали только в бумажной форме и хранились в различных библиотеках, из-за чего поиск, сопоставление и анализ информации из книг был весьма длительным и затратным мероприятием. Причем проблема еще больше усугублялась, если эти книги были на разных языках или относились к разным историческим эпохам (могут быть трудности с терминами, названиями и контекстом). Сейчас же почти все книги представлены в электронной форме в интернете и многие из них (по крайне мере те, что написаны на английском) есть, например, в Google Books Ngram Viewer, благодаря чему мы можем не только их прочесть, но и очень быстро сопоставить и проанализировать.

Аналогично дело обстоит и с бизнес-данными. Раньше они хранились на бумаге во множестве хранилищ, что усложняло работу с ними. Затем их перевели в цифровой формат, но они все еще сберегались в отдельных местах (дисках, серверах и базах данных). Сейчас же бизнес-данные принято хранить в одном месте (одной системе) таким образом, чтобы к ним имели быстрый доступ все заинтересованные стороны — от продавца за прилавком до директора компании или внешнего аудитора. Именно такие системы и называют Хранилищем корпоративных данных.

Как работают EDWs

Хотя существует множество архитектурных подходов, которые тем или иным образом влияют на возможности, преимущества и недостатки корпоративного хранилища данных, мы сосредоточимся на наиболее важных из них.

Одноуровневая архитектура. Считается одной из самых примитивных архитектурой для построения EDW. В ней средства отчетности подключаются непосредственно к хранилищу данных, которое имеет прямую связь с различными аналитическими инструментами. Такую архитектуру EDW проще и дешевле внедрить и настроить, но при хранении довольно больших объемов данных ( 100 Гб и больше) ее использование сопряжено с рядом проблем: низкая скорость работы, потребность точного ввода запроса, запутанность результатов запросов и ограниченная гибкость. Из этого следует, что одноуровневая архитектура корпоративного хранилища данных подходит только для организаций с небольшими наборами данных.

Пример одноуровневой архитектуры EDW. Источник

Пример одноуровневой архитектуры EDW. Источник

Двухуровневая архитектура. В таком хранилище реализован уровень с условным названием «Витрина данных» (или «Магазин данных») между уровнем отчетности и EDW. Витрины данных можно рассматривать как небольшие базы данных, которые содержат информацию о какой-то конкретной предметной области (например, продажи, доход, маркетинг, персонал и прочее). То есть в такой двухуровневой архитектуре вся информация в EDW разделена на различные витрины данных в зависимости от типа информации и инструменты отчетности подключаются именно к этим витринам, а не ко всему хранилищу данных.

Такой подход позволяет значительно увеличить скорость обработки запросов и делает их менее требовательными к точности ввода. Кроме того, витрины данных могут ограничивать доступ к данным для конечных пользователей, что делает EDW более безопасным. Это делает двухуровневое корпоративное хранилище данных более подходящим для реальных сценариев использования в бизнес-процессах.

В двухуровневой архитектуре EDW есть витрины данных, каждая из которых содержит информацию об отдельной предметной области

В двухуровневой архитектуре EDW есть витрины данных, каждая из которых содержит информацию об отдельной предметной области. Источник

Трехуровневая архитектура. В этой EDW дополнительно реализуется уровень оперативной аналитической обработки (OLAP) между уровнем витрины данных и уровнем отчетности. Куб OLAP — это особый тип базы данных, предоставляющий данные из нескольких измерений (думайте об этом так: обычные реляционные базы данных работают с одной таблицей, тогда как OLAP позволяет сопоставлять данные из двух и больше таблиц). По этой причине OLAP позволяет компилировать данные в нескольких измерениях (подразделениях, регионах, каналах и т.д.), что позволяет получать более продвинутую аналитику по большему числу параметров.

Таким образом, можно сказать, что трехуровневая EDW лучше подходит для больших компаний, для компаний с довольно разветвленной бизнес-структурой и для компаний, которые работают сразу на множестве направлений.

В трехуровневой архитектуре к EDW добавляется уровень кубов OLAP, который может получать информацию из распределенных витрин или непосредственно из EDW

В трехуровневой архитектуре к EDW добавляется уровень кубов OLAP, который может получать информацию из распределенных витрин или непосредственно из EDW. Источник

Преимущества EDW для бизнеса

Постоянный доступ к бизнес-данным. Основная привлекательность корпоративного хранилища данных для бизнеса заключается в том, что у всех заинтересованных сторон есть постоянный быстрый доступ ко всем бизнес-данным. Это намного выгоднее, чем наличие отдельных хранилищ данных у каждого крупного филиала или организационного подразделения, что приводит к сложному процессу изымания данных, который к тому же более склонен к ошибкам в выдаваемых данных и угрозам для безопасности фирмы и конфиденциальности клиентов.

Простой и быстрый доступ к бизнес-данным. Способность быстро принимать правильные решения является одним из факторов, которые дают предприятиям конкурентное преимущество. Когда владелец бизнеса может почти моментально получить доступ к хорошо структурированным достоверным данным, не тратя свое время на их сбор из нескольких разнородных источников, это дает такому владельцу возможность принять более быстрое и обоснованное решение. И даже если времени у такого владельца достаточно, то и в этом случае EDW будет плюсом, так как с ним вы можете потратить больше времени на анализ данных, а не на их сбор.

Простой пример — реакция магазинов на пандемию коронавируса. Компании с EDWs намного быстрее отреагировали на изменение структуры спроса, так как они получали данные в режиме реального времени, а потому могли быстрее конкурентов заказать пополнение запасов товаров, которые начали пропадать с полок, например тех же медицинских масок, антисептиков, а также ноутбуков и планшетов.

Повышенное качество бизнес-аналитики. Корпоративное хранилище данных избавляет руководителей предприятий и директоров от необходимости принимать решения, основанные на ограниченных данных или личных инстинктах. С EDW все важные решения, влияющие на стратегию и деятельность компании, зависят только от достоверных фактов, подкрепленных информацией из хранилищ данных. Причем это могут быть довольно неожиданные решения, так как сбор данных в одном месте и их последующий анализ может показать неожиданные закономерности, как то, что перед ураганом в США росли не только объемы продаж фонариков, но и печенья с клубничной начинкой PopTarts, а также сладких сухих американских завтраков.

Более простые и масштабные интеграции. Современные software-решения для хранения данных можно интегрировать с огромным количеством инструментов для сбора и анализа данных. И это не только Excel или CRM- / ERP-решения, но и такие вещи, как IBM Cognos Analytics, SAP Business Objects, Microsoft SQL Server и т.п. Вот только все эти инструменты эффективны лишь тогда, когда данные из нескольких систем могут быть объединены в одну хорошо структурированную базу данных — это исключает возможность дублирования данных и позволяет легко и быстро извлекать их. Кроме этого, интегрировать все эти инструменты в одно корпоративное хранилище данных намного быстрее и дешевле, нежели проводить такую интеграцию для нескольких хранилищ данных.

Согласованность и качество данных. Поскольку корпоративные хранилища данных собирают информацию из нескольких источников и преобразовывают ее в единый формат, они предоставляют компаниям более точные данные для принятия управленческих решений. Различные подразделения компании, например финансы, маркетинг и продажи, могут использовать эти данные для своих нужд, при этом они будут уверены в точности и достоверности информации. Благодаря этому каждое подразделение будет давать результаты, согласующиеся с результатами других подразделений организации. Это способствует командной работе.

Высокая отдача от инвестиций. Увеличение дохода, которое бизнес получает в результате инвестиций, называется возвратом инвестиций (или ROI). EDWs могут сократить расходы и увеличить прибыль компании, а также значительно повышают качество бизнес-аналитики, что в совокупности сильно увеличивает рентабельность инвестиций и снижает риски стагнации бизнеса или его банкротства.

Историческая разведка. Многие предприятия используют EDWs для создания исторических отчетов, что позволяет выполнять расширенную бизнес-аналитику с использованием анализа тенденций, углубленного поиска закономерностей и прогнозирования развития бизнеса в долгосрочной перспективе.

Как внедрить EDW в свой бизнес

Корпоративное хранилище данных — это сложное программное обеспечение, которое должно быть не только безопасным и надежным, но приятным внешне и удобным в использовании. Добиться этого можно, только создав EDW с нуля, так как готовые решения — это риски безопасности и компромисс между тем, что вам нужно, и тем, что предоставляет поставщик. При этом разрабатывать EDW должна опытная команда разработчиков, такая как Merehead. Мы с 2015 года занимаемся созданием корпоративных решений различной сложности — от простых сайтов до максимально безопасных криптовалютных бирж и NFT-платформ. Взгляните на наш сайт, чтобы изучить портфолио и связаться с нашими консультантами.

Шаг 1. Определение требований бизнеса

Бизнес-требования влияют почти на каждое решение в процессе разработки корпоративного хранилища данных — от того, какая информация должна быть доступна конкретной роли пользователя (например продавцу, маркетологу или директору), до того, как часто к ней следует обращаться. Поэтому создание EDW целесообразно начать с опроса ваших бизнес-пользователей. Благодаря этому опросу вы сможете определиться со следующими вещами:
  • Общие бизнес-цели и задачи вашей компании, а также цели ее отдельных бизнес-подразделений, отделов, филиалов, линий производства и т.д.
  • Методы и показатели, используемые для измерения успеха — достижения заданных бизнес-целей и задач компании. Эти методы и показатели общие для всей компании и / или они отличаются в зависимости от отдела?
  • Ключевые проблемы, с которыми сталкивается бизнес. Каким образом корпоративное хранилище данных способно их решить / уменьшить?
  • Типы рутинного анализа данных, которые компания в настоящее время выполняет, в том числе какие данные для этого используются, как часто проводится анализ, какие потенциальные улучшения он принес и т. д.?
Вам также следует опросить ваших ключевых IT-специалистов (штатных разработчиков, экспертов по операционным исходным системам, администраторов баз данных и т.д.) о том, достаточно ли доступной в настоящее время информации для удовлетворения таких бизнес-требований, как:
  • Операционные системы, которые используются в вашей компании?
  • Частота обновления данных в целом и по отдельным подразделениям?
  • Наличие исторических данных. Период? Насколько они стандартизированы?
  • Какие инструменты используются для доступа к бизнес-данным?
  • Какие инструменты используются для анализа бизнес-данных?
  • Какие типы аналитических данных регулярно генерируются?
  • Хорошо ли обрабатываются специальные запросы?
  • Прочее…

Шаг 2. Концептуализация EDW и выбор технологии

На основе информации, собранной на предыдущем этапе, можно определить масштабы проекта, потребности и ожидания вашего бизнеса и ваших сотрудников. Все это нужно тщательно проанализировать и распределить по приоритетам, чтобы составить оптимальный набор функций и спецификаций будущей EDW. В частности, это поможет выбрать тип и архитектуру корпоративного хранилища данных, а также подобрать оптимальную технологию для каждого из архитектурных компонентов. При составлении стека технологий учитывайте такие факторы, как:
  • Ваша текущая технологическая среда.
  • Планируемые стратегические технологические направления.
  • Технические компетенции членов команды разработчиков.
  • Особые требования к безопасности данных.
  • Прочие важные вещи…
Также на этом этапе нужно определиться с вариантом развертывания EDW — локально, в облаке или гибридно. Выбор варианта развертывания определяется многочисленными факторами, такими как бюджет, требования безопасности, объем данных, характер данных, количество пользователей и их местоположение.

Вот пример возможного стека технологий для EDW:

  • Приемданных: Fivetran, Airbyte, Meltano, Estuary Flow.
  • Хранилищеданных: Redshift, BigQuery, Snowflake, Databricks, любаяреляционнаябазаданных (Oracle, Teradata, Vertica, Greenplum, DB2, MySQL, SQL Server ит. д.), платформа Hadoop (Apache Hadoop, MapR, Hortonworks, Cloudera), базаданных — MongoDB, Cassandra, MapR DB ит. д.
  • Бизнес-аналитикаивизуализацияданных: Looker, Mode, Tableau, Preset, Superset, Thoughtspot, Chartio, Orange, Opentext Content Analytics, OpenRefine.
  • Операционализация или «обратный ETL»: Census, Hightouch, Rudderstack.
  • Наблюдениеимониторинг: Monte Carlo, Observe.ai, Splunk, Datadog, Datakin.
  • Управлениеметаданными: OpenMetadata, Informatica, MANTA.
  • Оркестровка: Airflow, Prefect, Dagster, Astronomer.

Шаг 3. Разработка дизайна среды хранилища данных

Также во время проектирования вашего корпоративного хранилища данных вам необходимо определить источники данных и проанализировать хранящуюся в них информацию — какие типы данных доступны, структура записи, время и скорость генерации, каково качество данных и их точность, что с конфиденциальностью?

Следующим шагом будет логическое моделирование данных или организация данных компании в ряд логических отношений, называемых сущностями (объекты реального мира) и атрибутами (наблюдаемые характеристики, которые определяют эти объекты). Затем эти логические модели данных преобразуются в структуры базы данных, например сущности преобразуются в таблицы, атрибуты преобразуются в столбцы, отношения преобразуются в ограничения внешнего ключа и так далее.

Пример организации данных компании в ряд логических отношений

Пример организации данных компании в ряд логических отношений. Источник

После завершения моделирования данных следующим этапом будет проектирование области промежуточного хранения данных, чтобы обеспечить хранилище данных высококачественными агрегированными данными, а также определить поток данных от источника к целевому объекту во время всех последующих загрузок данных.

Логический и физический дизайн в хранилищах данных

Логический и физический дизайн в хранилищах данных. Источник

Данный этап разработки EDW также включает в себя создание политик доступа и использования данных, создание каталога метаданных, бизнес-глоссариев и т. д.

Шаг 4. Разработка и запуск вашего EDW

Этот шаг обычно начинается с выбора и настройки выбранных технологий (платформы DWH, программного обеспечения для обеспечения безопасности данных, технологии преобразования данных и т. д.). Затем компания-разработчик создает конвейеры ETL (Extract, Transform, Load) и внедряет защиту данных.

После внедрения всех основных компонентов их необходимо интегрировать с существующей инфраструктурой данных (источники данных, инструменты для бизнес-аналитики и аналитики, озеро данных и т. д.), а также друг с другом, чтобы впоследствии можно было перенести данные в будущую EDW.

Дальше нужно провести тщательную проверку нового продукта:

  • Протестируйте производительность хранилища данных, ETL и т. д.
  • Проверьте качество данных (разборчивость, полнота, безопасность и т. д.)
  • Убедитесь, что у пользователей есть доступ к хранилищу данных и т. д.
После тестирования нужно убедиться, что ваши конечные пользователи могут работать в новой технологической среде. Это подразумевает, что они понимают, какая информация им доступна, что она означает, как получить к ней доступ, какие инструменты использовать для ее анализа и вывода и т.п. Для этого желательно провести индивидуальное обучение персонала, в том числе руководителей.

Когда все это сделано, производится развертывание EDW.

Шаг 5. Поддержка и обслуживание

После развертывания вам необходимо обеспечить постоянную поддержку и обслуживание корпоративного хранилища данных. Также со временем необходимо будет измерять показатели производительности EDW и оценить удовлетворенность конечных пользователей. Это поможет вам выявить узкие места в работе хранилища и расширить его возможности согласно текущим потребностям вашего бизнеса.

Оценить статью
4.4 / 5 (118 голоса)
Мы приняли вашу оценку
Чем мы можем вам помочь?
Отправить
Юрий Мусиенко
Бизнес аналитик
Юрий Мусиенко специализируется на развитии и оптимизации криптобирж, платформ бинарных опционов, P2P-решений, криптоплатежных шлюзов и систем токенизации активов. С 2018 года консультирует компании в области стратегического планирования, выхода на международные рынки и масштабирования технологического бизнеса. Подробнее