Amazon DataZone: データ検出を自動化
概要
エラーの原因にもなりうる、データカタログにデータ属性を手動で入力する手間を省きます。ビジネスコンテキストを生成し、データセットの分析を推奨します。これにより、データの検出結果が向上します。データがどこから来たのか、どのソースが変更の影響を受けるかを理解します。ビジネスデータカタログのデータが豊富になると、検索エクスペリエンスも向上します。データの検索と使用にかかる時間を数週間から数日に短縮します。
ユースケース
動画
AWS re:Invent 2023 — Amazon DataZone でビジネスカタログを構築する方法 (21:37)
AWS re:Invent 2023 — ビジネスコンテキストでデータを理解する (55:40)
よくある質問
Amazon DataZone ビジネスデータカタログにはどのような情報が含まれていますか?
Amazon DataZone ビジネスデータカタログでは、ビジネスメタデータがビジネス担当者が作成または使用する情報を提供し、組織データにコンテキストを提供します。これには以下の情報が含まれます。
- 所有権: 最新のデータ中心の組織では、事業部門 (LOB) が自身のデータを管理する責任を負う分散型データスチュワードシッププロセスを採用しています。カタログはその所有者を追跡するので、関係者はビジネスタスクの一環としてデータを見つけてアクセス権をリクエストできます。
- 分類: データ検出は、ビジネスメタデータがサポートできる重要なタスクです。データディスカバリーでは、一元的に定義された企業オントロジーとタクソノミーを使用してデータソースを分類し、関連するデータオブジェクトを見つけるのに役立ちます。
- 関係: Amazon DataZone ビジネスデータカタログを使用して、関係に関する情報をメタデータとして追加できます。テクニカルデータセットスキーマと同様に、ビジネスデータカタログには、データベース、データセット、およびそれらの列間の関係など、カタログ内のオブジェクト間の関係が表示されます。
- スキーマ: 説明に関する AI によるレコメンデーションでは、技術スキーマとビジネススキーマを使用して、データに関して推奨される説明と使用法を生成できます。
- オリジンと消費: ビジネスデータカタログでは、データリネージと影響分析、および OpenLineage からのカスタムマッピングがリンクされています。
Amazon DataZone では何をカタログ化できますか?
Amazon DataZone は、AWS Glue データカタログと Amazon Redshift から直接公開されたデータアセットをサポートしています。これら 2 つのソースを使用して、次の場所のデータをカタログ化できます。
- Amazon Simple Storage Service (Amazon S3) データレイク
- AWS Glue クローラーを通じた Amazon Relational Database Service (Amazon RDS) などの AWS 目的別データベースの多く
- Snowflake、Salesforce、Google アナリティクスなどのサードパーティーアプリケーションからデータを取り込むための 100 種を超える Amazon AppFlow コネクタ