Amazon DataZone: データ検出を自動化

概要

エラーの原因にもなりうる、データカタログにデータ属性を手動で入力する手間を省きます。ビジネスコンテキストを生成し、データセットの分析を推奨します。これにより、データの検出結果が向上します。データがどこから来たのか、どのソースが変更の影響を受けるかを理解します。ビジネスデータカタログのデータが豊富になると、検索エクスペリエンスも向上します。データの検索と使用にかかる時間を数週間から数日に短縮します。

Page Topics

主な特徴

主な特徴

Amazon DataZone ビジネスデータカタログは、技術メタデータをアセットとして公開できる統合組織レジストリとして機能し、充実したビジネスコンテキストを追加できます。すべてのユーザーが迅速かつ容易にデータを見つけ、理解し、信頼できるように、ビジネスコンテキストとともにデータを表示することができます。

データへのビジネスの説明や名称の追加を自動化することで、コンテキストを把握しやすくなり、わかりにくい技術名を扱う必要がなくなります。この自動化は、精度と一貫性を高めるために大規模言語モデル (LLM) によって強化されています。 

ファセット検索はビジネスデータカタログに加えて機能するため、データコンシューマーやプロデューサーは、テーブル名や列名などの使い慣れた構造情報やビジネス用語を使用してデータアセットを見つけることができます。

データセットごとに、最も価値のある列と分析で使用される可能性の高い列のリストを生成します。 

Amazon DataZone のデータ品質に関する統計情報を使用すると、データの利用者は AWS Glue Data Quality またはサードパーティーのシステムからのデータ品質に関するメトリクスを確認できます。データの利用者は、意思決定に使用するデータソースを信頼して、アセットを検索する際にデータ品質のコンテキストを把握できます。また、プロデューサーや IT チームは API を使用して、サードパーティーのシステムからのデータ品質に関する統計情報を、コンソール外の統合ポータルに組み込むこともできます。データプロデューサーは、スケジュールに基づいて AWS Glue Data Quality の結果を取り込み、データが変化し続ける場合でもスコアが最新であるようにします。

時間の経過に合わせてデータの動きを把握できます。データリネージは、データがどこから来たのか、どのように変化したのか、どのように利用されているのかをデータ利用者が理解できるようにすることで、信頼性と組織のデータリテラシーを高めるのに役立ちます。データアセットとその関係のマッピング、パイプラインのトラブルシューティングと開発、データガバナンスの慣行のアサーションに費やす時間を短縮できます。

データアセットを、特定のビジネスユースケースに合わせて定義されたパッケージ (データ製品) にグループ化することで、カタログ作成を効率化し、データコンシューマーがデータを簡単に検出してサブスクライブできるようにします。データプロデューサーは、関連するアセットのコレクションをキュレートし、ビジネスコンテキストを追加して、データ製品ユニットとして公開できます。これにより、データコンシューマーが特定のユースケースに必要なすべてのデータアセットを見つけるプロセスが簡素化されます。消費者は、単一の承認ワークフローを通じて、データ製品内のすべてのアセットをサブスクライブできます。データプロデューサーは、アセットコレクションの編集、非公開化、削除、サブスクリプションの維持など、製品のライフサイクルを管理できます。また、Amazon DataZone は、データ製品ワークフローの API サポートも提供し、統合とオートメーションを容易にします。

ユースケース

適切なデータを適切なコンテキストで見つけ出すことで、インサイトを得るまでの時間を短縮できます。一貫性、正確性、完全性、適時性、追跡可能性を備えており、データ品質スコアが透明である場合にのみ、データは信頼に足るものとなります。所有権が分散されることで、各部門または分析チームがアセットの正確性を維持できるため、データ利用者は自分が正しいデータを使用していることを確認できます。

アセットをクロールし、(実際のデータではなく) 技術的なメタデータを取り込んでビジネスコンテキストを充実させることで、ビジネスデータカタログを構築します。標準化された用語集や用語でビジネスコンテキストを充実させることができます。メタデータフォームを使用して追加のメタデータをカスタマイズすることもできます。

適切なデータを使用するには、データコンテキストを理解する必要があります。Amazon DataZone は、用語集とメタデータフォームでカタログ化されたすべてのデータのコンテキストを構築するのに役立ちます。これで、データ所有者はできるだけ多くの情報を共有して、データコンシューマーがデータを検索、理解、購読するためのデータコンテキストを設定できるようになりました。データ品質スコアは、データアセットが目的に合っているかどうかをデータの利用者が理解するのに役立ちます。

データアセットとその関係のマッピング、パイプラインのトラブルシューティングと開発、データガバナンスに関するプラクティスのアサーションに費やす時間を短縮します。グラフィカルなエクスペリエンスを通じて、データコンシューマーはアセットのオリジンを理解します。データプロデューサーは、どのシステムまたはデータコンシューマーがデータを利用しているのかを理解することで、テーブルまたは列に対する変更の影響を評価できます (影響分析)。また、データプロデューサーは、データアセットのリネージのスナップショットを確認してエラーのソースを特定することで、データの問題をトラブルシューティングすることもできます。Amazon DataZone は、リネージ収集のオープンスタンダードである OpenLineage イベントからキャプチャされたデータリネージを視覚化するほか、カスタムリネージマッピングをキャプチャすることもできます。リネージは、データプロデューサーがデータを共有しながら、データリネージを含めるのに役立ちます。これにより、データソースの信頼性が高まります。

動画

AWS re:Invent 2023 — Amazon DataZone でビジネスカタログを構築する方法 (21:37)
AWS re:Invent 2023 — ビジネスコンテキストでデータを理解する (55:40)

よくある質問

Amazon DataZone ビジネスデータカタログにはどのような情報が含まれていますか?

Amazon DataZone ビジネスデータカタログでは、ビジネスメタデータがビジネス担当者が作成または使用する情報を提供し、組織データにコンテキストを提供します。これには以下の情報が含まれます。

  • 所有権: 最新のデータ中心の組織では、事業部門 (LOB) が自身のデータを管理する責任を負う分散型データスチュワードシッププロセスを採用しています。カタログはその所有者を追跡するので、関係者はビジネスタスクの一環としてデータを見つけてアクセス権をリクエストできます。
  • 分類: データ検出は、ビジネスメタデータがサポートできる重要なタスクです。データディスカバリーでは、一元的に定義された企業オントロジーとタクソノミーを使用してデータソースを分類し、関連するデータオブジェクトを見つけるのに役立ちます。
  • 関係: Amazon DataZone ビジネスデータカタログを使用して、関係に関する情報をメタデータとして追加できます。テクニカルデータセットスキーマと同様に、ビジネスデータカタログには、データベース、データセット、およびそれらの列間の関係など、カタログ内のオブジェクト間の関係が表示されます。
  • スキーマ: 説明に関する AI によるレコメンデーションでは、技術スキーマとビジネススキーマを使用して、データに関して推奨される説明と使用法を生成できます。
  • オリジンと消費: ビジネスデータカタログでは、データリネージと影響分析、および OpenLineage からのカスタムマッピングがリンクされています。

Amazon DataZone では何をカタログ化できますか?

Amazon DataZone は、AWS Glue データカタログと Amazon Redshift から直接公開されたデータアセットをサポートしています。これら 2 つのソースを使用して、次の場所のデータをカタログ化できます。

  • Amazon Simple Storage Service (Amazon S3) データレイク
  • AWS Glue クローラーを通じた Amazon Relational Database Service (Amazon RDS) などの AWS 目的別データベースの多く
  • Snowflake、Salesforce、Google アナリティクスなどのサードパーティーアプリケーションからデータを取り込むための 100 種を超える Amazon AppFlow コネクタ