// Другое

Как Корпоративное Хранилище Данных Влияет на Бизнес?

Содержание

#1. Что такое EDW
#2. Как работают EDWs
#3. Преимущества EDW для бизнеса
#4. Как внедрить EDW в свой бизнес
#5. Шаг 1. Определение требований бизнеса
#6. Шаг 2. Концептуализация EDW и выбор технологии
#7. Шаг 3. Разработка дизайна среды хранилища данных
#8. Шаг 4. Разработка и запуск вашего EDW
#9. Шаг 5. Поддержка и обслуживание

Появились вопросы?
Олег Колесников
Автор статьи
Merehead занимается разработкой веб проектов

Корпоративные хранилища данных (EDW) существуют уже более 30 лет. За это время они стали неотъемлемой частью бизнеса, поскольку EDW помогают улучшить аналитику, ускорить бизнес-процессы, создавать более эффективные рекламные кампании, персонализировать пользовательский опыт и многое другое. Дальше мы расскажем, что такое корпоративные хранилища данных и как они работают, а также на примерах покажем, как внедрение EDW может помочь вашему бизнесу.

Что такое EDW

Хранилище корпоративных данных (EDW) — это централизованный репозиторий, который консолидирует и хранит все корпоративные бизнес-данные из различных источников. Данные из этих хранилищ обычно можно извлечь с помощью физических носителей (HDD, SSD, CD, карты флеш-памяти и т.п.) или таких инструментов, как система управления взаимоотношениями с клиентами (CRM), система планирования ресурсов предприятия (ERP). Благодаря этому компании могут быстро обрабатывать большие наборы данных с одной структурой хранения и едиными унификациями, а не искать и сопоставлять их из нескольких разнородных баз данных.

Думайте об этом как о поиске информации в книгах. Раньше они существовали только в бумажной форме и хранились в различных библиотеках, из-за чего поиск, сопоставление и анализ информации из книг был весьма длительным и затратным мероприятием. Причем проблема еще больше усугублялась, если эти книги были на разных языках или относились к разным историческим эпохам (могут быть трудности с терминами, названиями и контекстом). Сейчас же почти все книги представлены в электронной форме в интернете и многие из них (по крайне мере те, что написаны на английском) есть, например, в Google Books Ngram Viewer, благодаря чему мы можем не только их прочесть, но и очень быстро сопоставить и проанализировать.

Аналогично дело обстоит и с бизнес-данными. Раньше они хранились на бумаге во множестве хранилищ, что усложняло работу с ними. Затем их перевели в цифровой формат, но они все еще сберегались в отдельных местах (дисках, серверах и базах данных). Сейчас же бизнес-данные принято хранить в одном месте (одной системе) таким образом, чтобы к ним имели быстрый доступ все заинтересованные стороны — от продавца за прилавком до директора компании или внешнего аудитора. Именно такие системы и называют Хранилищем корпоративных данных.

Как работают EDWs

Хотя существует множество архитектурных подходов, которые тем или иным образом влияют на возможности, преимущества и недостатки корпоративного хранилища данных, мы сосредоточимся на наиболее важных из них.

Одноуровневая архитектура. Считается одной из самых примитивных архитектурой для построения EDW. В ней средства отчетности подключаются непосредственно к хранилищу данных, которое имеет прямую связь с различными аналитическими инструментами. Такую архитектуру EDW проще и дешевле внедрить и настроить, но при хранении довольно больших объемов данных ( 100 Гб и больше) ее использование сопряжено с рядом проблем: низкая скорость работы, потребность точного ввода запроса, запутанность результатов запросов и ограниченная гибкость. Из этого следует, что одноуровневая архитектура корпоративного хранилища данных подходит только для организаций с небольшими наборами данных.

Пример одноуровневой архитектуры EDW. Источник

Пример одноуровневой архитектуры EDW. Источник

Двухуровневая архитектура. В таком хранилище реализован уровень с условным названием «Витрина данных» (или «Магазин данных») между уровнем отчетности и EDW. Витрины данных можно рассматривать как небольшие базы данных, которые содержат информацию о какой-то конкретной предметной области (например, продажи, доход, маркетинг, персонал и прочее). То есть в такой двухуровневой архитектуре вся информация в EDW разделена на различные витрины данных в зависимости от типа информации и инструменты отчетности подключаются именно к этим витринам, а не ко всему хранилищу данных.

Такой подход позволяет значительно увеличить скорость обработки запросов и делает их менее требовательными к точности ввода. Кроме того, витрины данных могут ограничивать доступ к данным для конечных пользователей, что делает EDW более безопасным. Это делает двухуровневое корпоративное хранилище данных более подходящим для реальных сценариев использования в бизнес-процессах.

В двухуровневой архитектуре EDW есть витрины данных, каждая из которых содержит информацию об отдельной предметной области

В двухуровневой архитектуре EDW есть витрины данных, каждая из которых содержит информацию об отдельной предметной области. Источник

Трехуровневая архитектура. В этой EDW дополнительно реализуется уровень оперативной аналитической обработки (OLAP) между уровнем витрины данных и уровнем отчетности. Куб OLAP — это особый тип базы данных, предоставляющий данные из нескольких измерений (думайте об этом так: обычные реляционные базы данных работают с одной таблицей, тогда как OLAP позволяет сопоставлять данные из двух и больше таблиц). По этой причине OLAP позволяет компилировать данные в нескольких измерениях (подразделениях, регионах, каналах и т.д.), что позволяет получать более продвинутую аналитику по большему числу параметров.

Таким образом, можно сказать, что трехуровневая EDW лучше подходит для больших компаний, для компаний с довольно разветвленной бизнес-структурой и для компаний, которые работают сразу на множестве направлений.

В трехуровневой архитектуре к EDW добавляется уровень кубов OLAP, который может получать информацию из распределенных витрин или непосредственно из EDW

В трехуровневой архитектуре к EDW добавляется уровень кубов OLAP, который может получать информацию из распределенных витрин или непосредственно из EDW. Источник

Преимущества EDW для бизнеса

Постоянный доступ к бизнес-данным. Основная привлекательность корпоративного хранилища данных для бизнеса заключается в том, что у всех заинтересованных сторон есть постоянный быстрый доступ ко всем бизнес-данным. Это намного выгоднее, чем наличие отдельных хранилищ данных у каждого крупного филиала или организационного подразделения, что приводит к сложному процессу изымания данных, который к тому же более склонен к ошибкам в выдаваемых данных и угрозам для безопасности фирмы и конфиденциальности клиентов.

Простой и быстрый доступ к бизнес-данным. Способность быстро принимать правильные решения является одним из факторов, которые дают предприятиям конкурентное преимущество. Когда владелец бизнеса может почти моментально получить доступ к хорошо структурированным достоверным данным, не тратя свое время на их сбор из нескольких разнородных источников, это дает такому владельцу возможность принять более быстрое и обоснованное решение. И даже если времени у такого владельца достаточно, то и в этом случае EDW будет плюсом, так как с ним вы можете потратить больше времени на анализ данных, а не на их сбор.

Простой пример — реакция магазинов на пандемию коронавируса. Компании с EDWs намного быстрее отреагировали на изменение структуры спроса, так как они получали данные в режиме реального времени, а потому могли быстрее конкурентов заказать пополнение запасов товаров, которые начали пропадать с полок, например тех же медицинских масок, антисептиков, а также ноутбуков и планшетов.

Повышенное качество бизнес-аналитики. Корпоративное хранилище данных избавляет руководителей предприятий и директоров от необходимости принимать решения, основанные на ограниченных данных или личных инстинктах. С EDW все важные решения, влияющие на стратегию и деятельность компании, зависят только от достоверных фактов, подкрепленных информацией из хранилищ данных. Причем это могут быть довольно неожиданные решения, так как сбор данных в одном месте и их последующий анализ может показать неожиданные закономерности, как то, что перед ураганом в США росли не только объемы продаж фонариков, но и печенья с клубничной начинкой PopTarts, а также сладких сухих американских завтраков.

Более простые и масштабные интеграции. Современные software-решения для хранения данных можно интегрировать с огромным количеством инструментов для сбора и анализа данных. И это не только Excel или CRM- / ERP-решения, но и такие вещи, как IBM Cognos Analytics, SAP Business Objects, Microsoft SQL Server и т.п. Вот только все эти инструменты эффективны лишь тогда, когда данные из нескольких систем могут быть объединены в одну хорошо структурированную базу данных — это исключает возможность дублирования данных и позволяет легко и быстро извлекать их. Кроме этого, интегрировать все эти инструменты в одно корпоративное хранилище данных намного быстрее и дешевле, нежели проводить такую интеграцию для нескольких хранилищ данных.

Согласованность и качество данных. Поскольку корпоративные хранилища данных собирают информацию из нескольких источников и преобразовывают ее в единый формат, они предоставляют компаниям более точные данные для принятия управленческих решений. Различные подразделения компании, например финансы, маркетинг и продажи, могут использовать эти данные для своих нужд, при этом они будут уверены в точности и достоверности информации. Благодаря этому каждое подразделение будет давать результаты, согласующиеся с результатами других подразделений организации. Это способствует командной работе.

Высокая отдача от инвестиций. Увеличение дохода, которое бизнес получает в результате инвестиций, называется возвратом инвестиций (или ROI). EDWs могут сократить расходы и увеличить прибыль компании, а также значительно повышают качество бизнес-аналитики, что в совокупности сильно увеличивает рентабельность инвестиций и снижает риски стагнации бизнеса или его банкротства.

Историческая разведка. Многие предприятия используют EDWs для создания исторических отчетов, что позволяет выполнять расширенную бизнес-аналитику с использованием анализа тенденций, углубленного поиска закономерностей и прогнозирования развития бизнеса в долгосрочной перспективе.

Как внедрить EDW в свой бизнес

Корпоративное хранилище данных — это сложное программное обеспечение, которое должно быть не только безопасным и надежным, но приятным внешне и удобным в использовании. Добиться этого можно, только создав EDW с нуля, так как готовые решения — это риски безопасности и компромисс между тем, что вам нужно, и тем, что предоставляет поставщик. При этом разрабатывать EDW должна опытная команда разработчиков, такая как Merehead. Мы с 2015 года занимаемся созданием корпоративных решений различной сложности — от простых сайтов до максимально безопасных криптовалютных бирж и NFT-платформ. Взгляните на наш сайт, чтобы изучить портфолио и связаться с нашими консультантами.

Шаг 1. Определение требований бизнеса

Бизнес-требования влияют почти на каждое решение в процессе разработки корпоративного хранилища данных — от того, какая информация должна быть доступна конкретной роли пользователя (например продавцу, маркетологу или директору), до того, как часто к ней следует обращаться. Поэтому создание EDW целесообразно начать с опроса ваших бизнес-пользователей. Благодаря этому опросу вы сможете определиться со следующими вещами:
  • Общие бизнес-цели и задачи вашей компании, а также цели ее отдельных бизнес-подразделений, отделов, филиалов, линий производства и т.д.
  • Методы и показатели, используемые для измерения успеха — достижения заданных бизнес-целей и задач компании. Эти методы и показатели общие для всей компании и / или они отличаются в зависимости от отдела?
  • Ключевые проблемы, с которыми сталкивается бизнес. Каким образом корпоративное хранилище данных способно их решить / уменьшить?
  • Типы рутинного анализа данных, которые компания в настоящее время выполняет, в том числе какие данные для этого используются, как часто проводится анализ, какие потенциальные улучшения он принес и т. д.?
Вам также следует опросить ваших ключевых IT-специалистов (штатных разработчиков, экспертов по операционным исходным системам, администраторов баз данных и т.д.) о том, достаточно ли доступной в настоящее время информации для удовлетворения таких бизнес-требований, как:
  • Операционные системы, которые используются в вашей компании?
  • Частота обновления данных в целом и по отдельным подразделениям?
  • Наличие исторических данных. Период? Насколько они стандартизированы?
  • Какие инструменты используются для доступа к бизнес-данным?
  • Какие инструменты используются для анализа бизнес-данных?
  • Какие типы аналитических данных регулярно генерируются?
  • Хорошо ли обрабатываются специальные запросы?
  • Прочее…

Шаг 2. Концептуализация EDW и выбор технологии

На основе информации, собранной на предыдущем этапе, можно определить масштабы проекта, потребности и ожидания вашего бизнеса и ваших сотрудников. Все это нужно тщательно проанализировать и распределить по приоритетам, чтобы составить оптимальный набор функций и спецификаций будущей EDW. В частности, это поможет выбрать тип и архитектуру корпоративного хранилища данных, а также подобрать оптимальную технологию для каждого из архитектурных компонентов. При составлении стека технологий учитывайте такие факторы, как:
  • Ваша текущая технологическая среда.
  • Планируемые стратегические технологические направления.
  • Технические компетенции членов команды разработчиков.
  • Особые требования к безопасности данных.
  • Прочие важные вещи…
Также на этом этапе нужно определиться с вариантом развертывания EDW — локально, в облаке или гибридно. Выбор варианта развертывания определяется многочисленными факторами, такими как бюджет, требования безопасности, объем данных, характер данных, количество пользователей и их местоположение.

Вот пример возможного стека технологий для EDW:

  • Приемданных: Fivetran, Airbyte, Meltano, Estuary Flow.
  • Хранилищеданных: Redshift, BigQuery, Snowflake, Databricks, любаяреляционнаябазаданных (Oracle, Teradata, Vertica, Greenplum, DB2, MySQL, SQL Server ит. д.), платформа Hadoop (Apache Hadoop, MapR, Hortonworks, Cloudera), базаданных — MongoDB, Cassandra, MapR DB ит. д.
  • Бизнес-аналитикаивизуализацияданных: Looker, Mode, Tableau, Preset, Superset, Thoughtspot, Chartio, Orange, Opentext Content Analytics, OpenRefine.
  • Операционализация или «обратный ETL»: Census, Hightouch, Rudderstack.
  • Наблюдениеимониторинг: Monte Carlo, Observe.ai, Splunk, Datadog, Datakin.
  • Управлениеметаданными: OpenMetadata, Informatica, MANTA.
  • Оркестровка: Airflow, Prefect, Dagster, Astronomer.

Шаг 3. Разработка дизайна среды хранилища данных

Также во время проектирования вашего корпоративного хранилища данных вам необходимо определить источники данных и проанализировать хранящуюся в них информацию — какие типы данных доступны, структура записи, время и скорость генерации, каково качество данных и их точность, что с конфиденциальностью?

Следующим шагом будет логическое моделирование данных или организация данных компании в ряд логических отношений, называемых сущностями (объекты реального мира) и атрибутами (наблюдаемые характеристики, которые определяют эти объекты). Затем эти логические модели данных преобразуются в структуры базы данных, например сущности преобразуются в таблицы, атрибуты преобразуются в столбцы, отношения преобразуются в ограничения внешнего ключа и так далее.

Пример организации данных компании в ряд логических отношений

Пример организации данных компании в ряд логических отношений. Источник

После завершения моделирования данных следующим этапом будет проектирование области промежуточного хранения данных, чтобы обеспечить хранилище данных высококачественными агрегированными данными, а также определить поток данных от источника к целевому объекту во время всех последующих загрузок данных.

Логический и физический дизайн в хранилищах данных

Логический и физический дизайн в хранилищах данных. Источник

Данный этап разработки EDW также включает в себя создание политик доступа и использования данных, создание каталога метаданных, бизнес-глоссариев и т. д.

Шаг 4. Разработка и запуск вашего EDW

Этот шаг обычно начинается с выбора и настройки выбранных технологий (платформы DWH, программного обеспечения для обеспечения безопасности данных, технологии преобразования данных и т. д.). Затем компания-разработчик создает конвейеры ETL (Extract, Transform, Load) и внедряет защиту данных.

После внедрения всех основных компонентов их необходимо интегрировать с существующей инфраструктурой данных (источники данных, инструменты для бизнес-аналитики и аналитики, озеро данных и т. д.), а также друг с другом, чтобы впоследствии можно было перенести данные в будущую EDW.

Дальше нужно провести тщательную проверку нового продукта:

  • Протестируйте производительность хранилища данных, ETL и т. д.
  • Проверьте качество данных (разборчивость, полнота, безопасность и т. д.)
  • Убедитесь, что у пользователей есть доступ к хранилищу данных и т. д.
После тестирования нужно убедиться, что ваши конечные пользователи могут работать в новой технологической среде. Это подразумевает, что они понимают, какая информация им доступна, что она означает, как получить к ней доступ, какие инструменты использовать для ее анализа и вывода и т.п. Для этого желательно провести индивидуальное обучение персонала, в том числе руководителей.

Когда все это сделано, производится развертывание EDW.

Шаг 5. Поддержка и обслуживание

После развертывания вам необходимо обеспечить постоянную поддержку и обслуживание корпоративного хранилища данных. Также со временем необходимо будет измерять показатели производительности EDW и оценить удовлетворенность конечных пользователей. Это поможет вам выявить узкие места в работе хранилища и расширить его возможности согласно текущим потребностям вашего бизнеса.

Есть вопросы? Задайте их здесь

Имя *
Email *
Телефон
Ваш бюджет
Сообщение
TorMarket - маркетплейс с гибкой системой фильтрации и удобным кабинетом для поставщиков.