Что такое нулевое использование ETL?
Интеграция с нулевым использованием ETL – это набор интеграций, который устраняет или сводит к минимуму необходимость создания конвейеров данных ETL. Извлечение, преобразование и загрузка (ETL) – это процесс подготовки данных из различных источников к рабочим нагрузкам анализа, искусственного интеллекта (ИИ) и машинного обучения (МО) посредством их объединения, очистки и нормализации. Традиционные процессы ETL требуют много времени и сложны в разработке, обслуживании и масштабировании. Интеграция с нулевым использованием ETL упрощает перемещение данных без необходимости создания конвейеров ETL. Интеграция с нулевым использованием ETL также позволяет выполнять запросы в разрозненных хранилищах без необходимости перемещения данных.
Какие проблемы, связанные с процессом ETL, решает интеграция с нулевым использованием ETL?
Интеграция с нулевым использованием ETL позволяет решить многие из существующих проблем, связанных с перемещением данных в традиционных процессах ETL.
Повышенная сложность системы
Конвейеры данных ETL еще больше усложняют процессы интеграции данных. Для отображения данных в соответствии с желаемой целевой схемой необходимо использовать сложные правила сопоставления данных и обрабатывать их несоответствия. Для диагностики проблем необходимо внедрять эффективные механизмы обработки ошибок, ведения журналов и уведомлений. Требования к защите данных приводят к еще большему ограничению возможностей системы.
Дополнительные расходы
Конвейеры ETL изначально дорогостоящие, но затраты также могут расти по мере увеличения объема данных. Хранение дублирующихся данных в больших объемах в разных системах может быть нецелесообразно с финансовой точки зрения. Кроме того, масштабирование процессов ETL часто требует дорогостоящих обновлений инфраструктуры, оптимизации производительности выполнения запросов и применения методов параллельной обработки. В случае изменения требований инженерам по обработке данных приходится постоянно отслеживать и тестировать конвейер в процессе обновления, вследствие чего увеличиваются затраты на его обслуживание.
Задержки в выполнении рабочих нагрузок анализа, ИИ и ML
В процессе ETL инженерам по обработке данных обычно приходится создавать собственный код, а инженерам DevOps – развертывать инфраструктуру, необходимую для масштабирования рабочей нагрузки, и управлять ею. В случае изменений в источниках данных инженерам по обработке данных нужно вручную вносить изменения в код и повторно его развертывать. Этот процесс может занять несколько недель, что приводит к задержкам в выполнении рабочих нагрузок анализа, искусственного интеллекта и машинного обучения. Кроме того, из-за затратного по времени процесса создания и развертывания конвейеров данных ETL данные становятся непригодными для использования в режиме почти реального времени, например для размещения онлайн-рекламы, обнаружения мошеннических транзакций или анализа цепочки поставок в реальном времени. В этих сценариях не представляется возможным улучшить качество обслуживания клиентов, реализовать новые бизнес-возможности или снизить бизнес-риски.
В чем заключаются основные преимущества интеграции с нулевым использованием ETL?
Интеграция с нулевым использованием ETL предлагает ряд преимуществ для стратегии обработки данных организации.
Повышенная гибкость
Интеграция с нулевым использованием ETL позволяет упростить архитектуру данных и сократить усилия по их инженерному проектированию. Она позволяет добавлять новые источники данных без необходимости повторно обрабатывать большие объемы информации. Такие гибкие возможности позволяют легко принимать решения на основе данных и быстро внедрять инновации.
Экономия
В решениях для интеграции данных с нулевым использованием ETL применяются специальные облачные и масштабируемые технологии, позволяющие компаниям оптимизировать расходы в зависимости от фактического применения и потребностей в обработке данных. Организации сокращают затраты на инфраструктуру и обслуживание, а также уменьшают усилия по разработке.
Сокращение времени получения аналитических данных
Традиционные процессы ETL зачастую предусматривают регулярные пакетные обновления, что приводит к задержкам во время получения доступа к данным. Интеграция с нулевым использованием ETL, напротив, обеспечивает доступ к данным в режиме реального или почти реального времени. Благодаря этому можно получать более свежие данные для анализа, ИИ/ML и отчетности. Таким образом вы получаете более точные и оперативные аналитические данные для таких сценариев использования, как информационные панели, обновляемые в режиме реального времени, оптимизированный игровой процесс, мониторинг качества данных и анализ поведения клиентов. Организации с большей уверенностью делают прогнозы и выполняют анализ на основе данных в масштабах всей компании, а также улучшают качество обслуживания клиентов.
Какие бывают варианты применения интеграции с нулевым использованием ETL?
Существует три основных варианта применения интеграции с нулевым использованием ETL.
Оперативное получение данных
Предприятиям необходимо быстро получать и анализировать различные типы данных для принятия решений в реальном времени. Нулевое использование ETL обеспечивает гибкий подход к оперативному получению данных непосредственно в хранилищах и озерах данных. Это исключает необходимость в традиционных конвейерах ETL и позволяет организациям легко адаптироваться к меняющимся бизнес-требованиям.
Прием потоковых данных
Платформы потоковой передачи данных и очередей сообщений передают потоком данные в режиме реального времени из нескольких источников. Интеграция с нулевым использованием ETL с хранилищем данных позволяет принимать данные из нескольких таких потоков и практически мгновенно передавать их для анализа. Нет необходимости размещать потоковые данные, поскольку эти платформы также предлагают расширенные возможности трансформации и аналитики при перемещении данных.
Мгновенная репликация
Как правило, для перемещения данных из базы данных операций и транзакций в центральное хранилище и озеро данных всегда требовалось сложное решение ETL. В наши дни нулевое использование ETL может выступать в качестве инструмента репликации данных, мгновенно дублируя данные из операционной базы данных, транзакционной базы данных и приложений в хранилище и озеро данных. В механизме дублирования используются методы отслеживания измененных данных (Change Data Capture, CDC). Данный механизм также можно встроить в хранилище и озеро данных. Дублирование выполняется незаметно для пользователей: приложения хранят данные в транзакционной базе данных, а аналитики беспрепятственно запрашивают их из хранилища.
Как AWS может поддержать процесс интеграции с нулевым использованием ETL?
AWS инвестирует в решения для интеграции с нулевым использованием ETL. Ниже приведены примеры сервисов со встроенными возможностями интеграции с нулевым использованием ETL.
Amazon SageMaker Lakehouse и Amazon Redshift поддерживают интеграции с нулевым использованием ETL из приложений, что позволяет автоматизировать извлечение и загрузку данных из приложений в Amazon SageMaker Lakehouse и Amazon Redshift.
Интеграция Amazon DynamoDB с нулевым использованием ETL с Amazon SageMaker Lakehouse автоматизирует извлечение и загрузку данных из Amazon DynamoDB в Amazon SageMaker Lakehouse – озеро данных транзакций, созданное на основе Amazon S3.
Интеграция сервиса Amazon OpenSearch с нулевым использованием ETL с журналами Amazon CloudWatch позволяет напрямую запрашивать и визуализировать данные журналов в режиме, близком к реальному времени, централизованно управлять журналами без сложных конвейеров или предварительной обработки.
Интеграция сервиса Amazon OpenSearch с нулевым использованием ETL с Amazon Security Lake обеспечивает прямой поиск и анализ данных безопасности, устраняя проблемы, связанные с интеграцией данных, и одновременно упрощая процесс, а также сокращая эксплуатационные издержки и расходы за счет ускорения обработки данных по требованию и широких аналитических возможностей.
Благодаря интеграции Amazon Aurora с нулевым использованием ETL с Amazon Redshift можно производить их анализ в режиме, близком к реальному времени, и применять возможности машинного обучения (ML). Оно позволяет выполнять анализ петабайтов транзакционных данных, полученных из Aurora, в Amazon Redshift. Это полностью управляемое решение, которое делает транзакционные данные доступными в Amazon Redshift после их записи в кластере Aurora DB.
Интеграция Amazon RDS для MySQL с нулевым использованием ETL с Amazon Redshift помогает получать целостную аналитическую информацию по многим приложениям и устранять разрозненность данных в организации, упрощая анализ данных из одного или нескольких инстансов Amazon RDS для MySQL в Amazon Redshift.
Интеграция Amazon DynamoDB с нулевым использованием ETL с сервисом Amazon OpenSearch предоставляет клиентам доступ к расширенным возможностям поиска, таким как полнотекстовый и векторный поиск, по данным в Amazon DynamoDB.
Интеграция Amazon DocumentDB с нулевым использованием ETL с сервисом Amazon OpenSearch предоставляет клиентам новые возможности для поиска (например, нечеткий поиск, поиск по коллекциям и поиск на разных языках) в документах Amazon DocumentDB через API OpenSearch.
Интеграция сервиса Amazon OpenSearch с нулевым использованием ETL с Amazon S3 – это эффективный способ запроса журналов по операциям в озерах данных Amazon S3, позволяющий не переключаться между инструментами анализа данных.
Интеграция Amazon Aurora PostgreSQL с нулевым использованием ETL с Amazon Redshift позволяет использовать Amazon Redshift для анализа данных транзакций из Aurora объемом во множество петабайтов и предоставляет возможности машинного обучения (ML) и аналитики в режиме, близком к реальному времени.
Интеграция Amazon DynamoDB с нулевым использованием ETL с Amazon Redshift позволяет клиентам выполнять в Amazon Redshift высокопроизводительную аналитику данных из DynamoDB без ущерба для производственных рабочих нагрузок этой базы.
Создайте бесплатный аккаунт и начните работу с решениями AWS для интеграции с нулевым использованием ETL уже сегодня.
AWS: дальнейшие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.