Что такое сетка данных?
Сетка данных – это архитектурная платформа, которая с помощью распределенных децентрализованных прав собственности решает проблемы, связанные с безопасностью данных. Организации имеют несколько источников данных из разных направлений бизнеса, которые должны быть интегрированы для выполнения анализа. Архитектура сетки данных эффективно объединяет разрозненные источники данных с помощью централизованно управляемых рекомендаций по совместному использованию данных и управлению ими. Бизнес-функции могут сохранять контроль над тем, как осуществляется доступ к общим данным, кто и каким способом получает к ним доступ. Хотя сетка данных усложняет архитектуру, она также способствует повышению эффективности путем улучшения доступа к данным, безопасности и масштабируемости.
Какие проблемы решает сетка данных?
Несмотря на то, что организации имеют доступ к постоянно растущему объему данных, им приходится сортировать, фильтровать, обрабатывать и анализировать их, чтобы извлечь практическую пользу. Организации часто используют центральную команду инженеров и ученых для управления данными. Команда использует централизованную платформу данных для следующих целей:
- Загрузка данных из различных бизнес-подразделений (или бизнес-доменов).
- Преобразование данных в надежный, доверенный и применимый формат. Например, команда может сводить все даты в системе к общему формату или подводить итоги по ежедневным отчетам.
- Подготовка данных для пользователей данных, к примеру, создание отчетов для людей или подготовка XML-файлов для приложений. Подробнее об XML »
По мере увеличения объема данных организации сталкиваются с ростом затрат на поддержание прежней гибкости. Монолитную систему трудно масштабировать по следующим причинам.
Разрозненная команда по работе с данными
В центральной команде по работе с данными работают специалисты по работе с данными и инженеры, обладающие ограниченными знаниями о бизнесе и сфере деятельности. Однако им по-прежнему приходится предоставлять данные для различных операционных и аналитических нужд без четкого понимания мотивации.
Медленное реагирование на изменения
Инженеры по обработке данных обычно реализуют конвейеры, которые принимают данные и преобразуют их в несколько этапов перед хранением в центральном озере данных. Любые запрошенные изменения требуют модификации всего конвейера. Центральная команда должна внести эти изменения, одновременно решая противоречивые приоритетные задачи и обладая ограниченными знаниями в области бизнеса.
Низкая точность
Бизнес-подразделения не связаны с пользователями данных и центральными командами по работе с данными. В результате у них нет стимула предоставлять значимые, корректные и полезные данные.
В чем преимущества использования сетки данных?
Со временем архитектура платформы данных может вызвать недовольство у пользователей данных, разобщенность производителей данных и перегруженность команды управления данными. Архитектура сетки данных пытается решить эти проблемы, предоставляя бизнес-подразделениям большую автономию и право собственности на их область данных. Преимущества архитектуры сетки данных приведены ниже.
Демократическая обработка данных
Сетка данных передает контроль над данными экспертам, которые создают значимые продукты данных в рамках децентрализованной системы управления. Пользователи данных также запрашивают доступ к продуктам данных и обращаются за разрешениями или изменениями непосредственно к владельцам данных. В результате все получают более быстрый доступ к необходимым данным, что повышает гибкость бизнеса.
Повышение гибкости
Централизованная инфраструктура данных является более сложной и требует совместной работы по обслуживанию и изменению. Вместо этого сетка данных реорганизует техническую реализацию центральной системы в бизнес-домены. Это позволяет устранить централизованные конвейеры данных и уменьшить узкие места в работе и техническую нагрузку на систему.
Экономия
Архитектура распределенных данных отходит от пакетной обработки, вместо этого способствуя внедрению потоковой обработки данных в режиме реального времени. Вы улучшаете видимость распределения ресурсов и затрат на хранение данных, что способствует более эффективному планированию бюджета и снижению расходов.
Узнайте больше об архитектурах данных.
Улучшение обнаружения данных
Модель сетки данных предотвращает образование хранилищ данных вокруг центральных инженерных команд, а также снижает риск блокировки активов данных в различных системах бизнес-домена. Вместо этого централизованная система управления данными регулирует и регистрирует данные, имеющиеся в организации. Например, доменные команды автоматически регистрируют свои данные в центральном реестре.
Усиление безопасности и соблюдение нормативных требований
Архитектуры сетки данных обеспечивают соблюдение политик безопасности данных как внутри доменов, так и между ними. Они обеспечивают централизованный мониторинг и аудит процесса обмена данными. Например, вы можете установить требования к данным журнала и отслеживания для всех доменов. Ваши аудиторы могут наблюдать за использованием данных и частотой доступа к ним.
Для чего используют сетки данных?
Сетка данных может поддерживать все типы сценариев использования больших данных. Ниже представлены несколько примеров.
Аналитика данных
Многочисленные бизнес-функции обеспечивают надежные высококачественные данные для ваших рабочих нагрузок по анализу данных. Ваши команды могут использовать эти данные для создания индивидуальных панелей бизнес-аналитики, демонстрирующих эффективность проекта, результаты маркетинга и операционные данные. Специалисты по изучению данных могут ускорить проекты машинного обучения, чтобы получить все преимущества автоматизации.
Работа с клиентами
Сетка данных обеспечивает полное представление о клиентах для команд поддержки и маркетинга. Например, команды поддержки могут получить соответствующие данные и сократить среднее время обработки, а маркетинговые команды – правильно выбрать демографическое нацеливание для своих кампаний.
Нормативная отчетность
Необходимость в объемах, своевременности и точности данных, отвечающих целям регулирования, ставит задачи как перед регуляторными органами, так и перед организациями, деятельность которых регулируется. Применение технологий сетки данных может принести пользу всем сторонам. Например, организации могут вводить данные отчетности в ячейку данных, централизованно управляемую регуляторными органами.
Сторонние данные
Вы можете применять технологию сетки данных для случаев использования, когда требуются сторонние и публичные наборы данных. Внешние данные можно рассматривать как отдельный домен и внедрить их в сетку, чтобы обеспечить согласованность с внутренними наборами данных.
Каковы принципы архитектуры сетки данных?
Чтобы внедрить парадигму сетки данных, ваша организация должна реализовать следующие четыре принципа.
Распределенная архитектура, управляемая доменом
Подход «сетки данных» предполагает, что ответственность за управление данными распределяется по бизнес-функциям или доменам. Команды доменов отвечают за сбор, преобразование и предоставление данных, связанных с их бизнес-функциями или созданных ими. Вместо того чтобы данные домена поступали из источников данных в центральную платформу, конкретная команда размещает и предоставляет свои наборы данных в удобном для потребления виде. Например, у розничной компании может быть домен одежды, содержащий данные о ее товарах, и домен поведения на сайте, содержащий аналитику поведения посетителей сайта.
Данные как продукт
Чтобы реализация сетки данных была успешной, каждая команда домена должна придерживаться продуктивного мышления в отношении наборов данных, которые они предоставляют. Они должны рассматривать свои активы данных как свои продукты, а остальные бизнес-подразделения организации и команды по работе с данными – как своих клиентов.
Для наилучшего обслуживания пользователей продукты данных домена должны обладать следующими основными качествами.
Возможность ознакомления
Каждый продукт данных регистрируется в централизованном каталоге данных для удобства поиска.
Доступность адреса
Каждый продукт данных должен иметь уникальный адрес, который поможет потребителям данных получить к нему программный доступ. Адрес обычно соответствует централизованно принятым в организации стандартам именования.
Надежность
Продукты данных определяют приемлемые цели на уровне сервиса в зависимости от того, насколько точно данные отражают реальность событий, которые они документируют. Например, домен заказов может публиковать данные после проверки адреса и номера телефона клиента.
Самостоятельное описание
Все продукты данных имеют хорошо описанные синтаксис и семантику, которые следуют стандартным соглашениям об именовании, определенным организацией.
Самообслуживаемая инфраструктура данных
Архитектура распределенных данных требует, чтобы каждый домен создавал собственный конвейер данных для очистки, фильтрации и загрузки собственных продуктов данных. Сетка данных представляет собой концепцию самообслуживаемой платформы данных, позволяющей избежать повторных усилий. Инженеры по данным устанавливают технологии, чтобы все бизнес-подразделения могли обрабатывать и хранить свои продукты данных. Таким образом, самообслуживаемая инфраструктура позволяет разделить ответственность. Команды по разработке данных управляют технологией, а бизнес-команды – данными.
Федеративное управление данными
Архитектуры сетки данных реализуют безопасность как общую ответственность в организации. Лидерство определяет глобальные стандарты и политики, которые можно применять во всех доменах. В то же время децентрализованная архитектура данных обеспечивает большую степень автономии в отношении стандартов и реализации политики внутри домена.
Как вы можете создать сетку данных в своей организации?
Сетка данных – это новая концепция, которая получила распространение только после пандемии. Организации экспериментируют с различными технологиями, пытаясь создать сетку данных для конкретных случаев использования. Однако внедрение корпоративной сетки данных в масштабах всей организации все еще редкость. Не существует четкого пути к реализации сетки данных, но есть некоторые предложения.
Проанализируйте существующие данные
Прежде чем создавать сетку данных, необходимо составить каталог существующих данных и определить соответствующие бизнес-домены. Соблюдение определенных правил гармонизации является ключом к эффективной корреляции данных между доменами. Например, вам нужно будет определить глобальные стандарты для форматирования типов полей, полей метаданных и соглашений об адресах продуктов данных.
Внедрите глобальные политики управления данными
Федеративное управление данными требует от центральной ИТ-команды определения стандартов отчетности, аутентификации и соответствия для сетки данных. Вы также можете определить элементы управления доступом, которые владельцы продуктов данных применяют при размещении своих наборов данных. В то время как производители данных определяют и измеряют качество данных, политика центрального управления помогает направлять их решения.
Создайте свою самообслуживаемую платформу данных
Ваша самообслуживаемая платформа данных должна быть универсальной, чтобы каждый мог создавать на ее основе новые продукты доменных данных. Она также должна скрывать основную техническую сложность и предоставлять инфраструктурные компоненты в режиме самообслуживания. Вот некоторые возможности, которые следует включить.
- Шифрование данных
- Схема продуктов данных
- Руководство и управление доступом
- Обнаружение продуктов данных, например регистрация или публикация каталога
- Ведение журналов продуктов данных и мониторинг
- Кэширование для улучшения производительности
Вы также можете создать средства автоматизации, такие как конфигурации и сценарии, чтобы сократить время разработки продуктов данных.
Выберите правильные технологии
Существующие традиционные системы хранения данных, такие как хранилища данных и озера данных, также могут работать с сеткой данных. Нужно просто перенести их использование с монолитных систем на многочисленные децентрализованные репозитории данных. Сетка данных также позволяет внедрять облачные платформы и технологии, ориентированные на облако. Облачная инфраструктура снижает эксплуатационные расходы и усилия, необходимые для создания сетки данных. Вы должны выбрать поставщика облачных решений с широким спектром сервисов управления данными для поддержки архитектуры сетки данных. Также необходимо учитывать требования к интеграции данных с устаревшими системами.
Начните изменения в культуре всей организации
Сегодня у нас есть технология и инструменты, необходимые для того, чтобы легко построить сетку данных с множеством продуктов данных. Переход к объединению пакетной и потоковой обработки данных стал как никогда простым благодаря таким инструментам, как Amazon EMR. Однако масштабирование сетки данных, выходящее за рамки небольших проектов, требует перехода от прежних централизованных архитектур данных. Для этого нужен новый язык, который предполагает следующее:
- Обнаружение и использование данных поверх извлечения и загрузки
- Обработку данных в реальном времени вместо пакетной обработки большого объема в более поздние сроки
- Распределенное владение продуктами данных вместо архитектуры центральной платформы данных
В настоящее время технология данных часто определяет архитектурные решения. Сетка данных изменяет этот поток, помещая продукты данных домена в центр, чтобы они определяли технологические решения.
В чем разница между сеткой и озером данных?
Озеро данных – это хранилище, в котором можно хранить все структурированные и неструктурированные данные без предварительной обработки и в любом масштабе. В централизованных платформах данных озеро данных является основной технологией для хранения данных изо всех возможных источников.
Сетка данных – это парадигма управления данными, которая использует озера данных по-другому. Озеро данных больше не является центральным элементом всей архитектуры. Теперь вы можете использовать его для реализации продуктов данных или как часть самообслуживаемой инфраструктуры.
В чем разница между сеткой и матрицей данных?
Полотно данных – это еще одна современная архитектура, использующая машинное обучение и автоматизацию для комплексной интеграции различных облачных сред и конвейеров данных. Вы можете рассматривать это как технологический слой над вашей базовой инфраструктурой, который согласованно интегрирует и представляет данные нетехническим пользователям. Например, лица, принимающие решения, используют матрицу данных для просмотра всех своих данных в едином месте и установления связей между разрозненными наборами данных.
И матрица данных, и сетка данных имеют схожие цели – унифицированное и эффективное управление данными. Допустим, у вас есть центральное озеро данных, и вы используете сервисы AWS для ввода данных. В то же время у вас есть унаследованная инфраструктура для преобразования данных. Ваша матрица данных объединяет обе системы и представляет единое представление без изменения существующего конвейера.
Таким образом, матрица данных использует технологию для работы с существующей инфраструктурой. С другой стороны, реализация сетки данных требует изменения самой базовой инфраструктуры. Вы должны изменить модель управления данными push-and-ingest на модель serve-and-pull во всех областях бизнеса.
Как AWS может поддержать ваши архитектуры ячеек данных?
Современная архитектура данных на AWS перечисляет несколько сервисов, которые вы можете использовать для реализации сетки данных и других современных архитектур данных в вашей организации. Вы можете быстро создавать продукты данных и инфраструктуру сетки данных по низкой цене без ущерба для производительности.
Вот примеры сервисов AWS, которые вы можете использовать:
- Используйте AWS Lake Formation для построения ячеистой структуры данных в масштабе с контролем доступа на основе тегов
- Используйте Обмен данными AWS для интеграции сторонних данных в вашу сетку данных
- Используйте AWS Glue для обмена, размещения и каталогизации продуктов данных
Начните работу с сеткой данных в AWS, создав бесплатный аккаунт уже сегодня.
Сетка данных: дальнейшие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.