Amazon S3 Tables

データレイクのスケーリングに合わせてクエリのパフォーマンスとコストを最適化

表形式のデータを大規模に S3 に保存

Amazon S3 Tables は、Apache Iceberg サポートが組み込まれた初めてのクラウドオブジェクトストアを提供し、表形式データの大規模な保存を効率的に行えるようにします。継続的なテーブル最適化は、バックグラウンドでテーブルデータを自動的にスキャンして書き換えるため、管理されていない Iceberg テーブルと比較して最大 3 倍高速なクエリパフォーマンスを実現します。これらのパフォーマンス最適化は、今後も引き続き改善されます。さらに、S3 Tables には Iceberg ワークロード固有の最適化が含まれており、汎用 S3 バケットに保存されている Iceberg テーブルと比較して、1 秒あたり最大 10 倍のトランザクションを配信できます。S3 Tables のクエリパフォーマンスの改善について詳しくは、ブログをご覧ください

S3 Tables は Apache Iceberg 標準をサポートしているため、AWS やサードパーティーの人気のクエリエンジンを使用して表形式のデータを簡単にクエリできます。S3 Tables を使用して、毎日の購入取引、ストリーミングセンサーデータ、広告インプレッションなどの表形式のデータを S3 の Iceberg テーブルとして保存し、自動テーブルメンテナンスを使用してデータの変化に応じてパフォーマンスとコストを最適化します。詳細についてはブログ記事をご覧ください

利点

始めたばかりでも、Iceberg 環境で何千ものテーブルを管理している場合でも、あらゆる規模のデータレイクを簡素化します。

継続的なテーブル最適化では、アンマネージド型の Iceberg テーブルと比較してクエリパフォーマンスが最大 3 倍高速になり、汎用 S3 バケットに格納された Iceberg テーブルと比較して 1 秒あたりのトランザクション数が最大 10 倍になります。

コンパクション、スナップショット管理、未参照ファイルの削除などのテーブルメンテナンスタスクを継続的に実行して、時間の経過とともにクエリの効率とコストを自動的に最適化できます。

S3 Tables 統合と Amazon SageMaker Lakehouse を通じて、Amazon Athena、Redshift、EMR などの使い慣れた AWS サービスを利用して高度な Iceberg 分析機能にアクセスし、データをクエリできます。さらに、Apache Spark、Apache Flink、Trino、DuckDB、PyIceberg などの Iceberg REST 互換のサードパーティーアプリケーションを使用して、S3 Tables にデータを読み書きできます。

テーブルをファーストクラスの AWS リソースとして作成し、アクセス許可を適用して簡単にアクセスを管理できます。

仕組み

S3 Tables は、構造化データを Apache Parquet 形式で保存するための専用の S3 ストレージを提供します。テーブルバケット内では、テーブルをファーストクラスのリソースとして直接 S3 に作成できます。これらのテーブルは、ID ベースまたはリソースベースのポリシーで定義されたテーブルレベルの許可で保護でき、Apache Iceberg 標準をサポートするアプリケーションまたはツールによってアクセスできます。テーブルバケットにテーブルを作成すると、S3 内の基盤となるデータは Parquet データとして保存されます。その後、S3 は、その Parquet データをアプリケーションでクエリ可能にするために必要なメタデータを維持します。テーブルバケットには、テーブルバケット内のテーブルの Iceberg メタデータを操作および更新するためにクエリエンジンによって使用されるクライアントライブラリが含まれています。このライブラリは、テーブルオペレーション用の更新された S3 API と連携して、複数のクライアントが安全に、データをテーブルに読み書きできるようにします。時間が経過する中で、S3 は、オブジェクトを書き換える (あるいは「圧縮」する) ことによって、基盤となる Parquet データを自動的に最適化します。圧縮により、S3 上のデータが最適化され、クエリのパフォーマンスが改善し、コストを最小限に抑えることができます。 詳細については、ユーザーガイドをお読みください。

Amazon S3 テーブルのデモ動画

お客様

  • Genesys

    Genesys は、AI を活用したエクスペリエンスオーケストレーションのグローバルクラウドリーダーです。Genesys は、高度な AI、デジタル、ワークフォースエンゲージメント管理機能を通じて、100 か国以上の 8,000 を超える組織が、ビジネスの俊敏性と成果の向上による恩恵を受けながら、パーソナライズされた共感できる顧客体験と従業員体験をもたらすことができるよう支援しています。

    Amazon S3 Tables は、特に多様なデータ分析ニーズに対応するマテリアライズドビューレイヤーを効果的に作成するマネージド Iceberg サポートが導入されたことで、当社のデータアーキテクチャに変革をもたらすでしょう。このサービスは、S3 が圧縮、スナップショット管理、未参照ファイルのクリーンアップなどの主要なメンテナンスタスクを自動的に処理するため、テーブル管理の余分なレイヤーを排除することで、Genesys が複雑なデータワークフローを簡素化するのに役立つ可能性があります。S3 から Iceberg Tables を直接読み書きできるようになったことで、パフォーマンスが向上し、分析エコシステム全体でデータをシームレスに統合する新たな可能性が生まれます。この相互運用性とパフォーマンスの向上により、S3 Tables は、迅速、柔軟かつ信頼性の高いデータインサイトを提供するための将来戦略において極めて重要な位置を占めることになります。

    Genesys、Chief Technology Officer、Glenn Nethercutt 氏
  • Pendulum

    Pendulum は、動画、音声、テキストコンテンツ全体にわたって世界でも極めて包括的なカバレッジを備えたブランドインテリジェンスプラットフォームであり、リスクと機会をプロアクティブに特定して、企業全体でより優れた意思決定とモニタリング分析を可能にします。

    Pendulum Intelligence では、何億ものソーシャルチャネルとソースからのデータを分析しています。Amazon S3 Tables は、当社がデータレイクを管理する方法を変革しました。データレイクは、独自の機械学習ツールを使用してほぼリアルタイムで画像や他のメディアからコンテキストを抽出しながら、数千時間分の分析された動画と音声コンテンツを処理します。圧縮、スナップショット、ファイルのクリーンアップなどのテーブル管理の負担がなくなるため、チームは、極めて重要なこと、すなわち、大規模なデータセットから実用的なインサイトを引き出すことに注力できます。分析スタック (Amazon Athena、AWS Glue、Amazon EMR) とのシームレスな統合により、複雑なデータを大規模に処理する能力が大幅に向上しました。

    Pendulum、Cloud Big Data Architect、Abdurrahman Elbuni 氏
  • SnapLogic

    SnapLogic は AI 主導の統合におけるパイオニアです。SnapLogic Platform for Generative Integration は、企業全体のデジタルトランスフォーメーションを加速して、タスクを自動化し、リアルタイムで意思決定を行い、既存のワークフローに簡単に統合できる AI エージェントと統合を設計、導入、管理できるようにしています。

    Amazon S3 Tables には Apache Iceberg サポートと AWS Analytics サービスの統合が組み込まれており、企業が分析、コンプライアンス、AI の取り組みにビジネスデータを活用する方法を変革しながら、データ分析コストを最適化するのを支援しています。複雑なデータ管理タスクを自動化し、データ変更の完全な監査証跡を提供することで、チームは技術コストを大幅に削減しながら、履歴データを即座に分析し、規制コンプライアンスを維持し、ビジネス上のインサイトを迅速に得ることができます。

    SnapLogic、Enterprise Architect、Dominic Wellington 氏
  • Zus Health

    Zus は共有医療データプラットフォームで、API、組み込みコンポーネント、直接的な EHR 統合を介して使いやすい患者データを提供することにより、医療データの相互運用性を促進するように設計されています。

    頻繁に変化する大量の患者データを扱うヘルスケア企業として、私たちは Apache Iceberg に投資することにしました。Apache Iceberg は、パーティション分割とオートメーションに関する Apache Hive の多くの問題点を解決したのに加え、広い相互運用性を享受できるメリットもあったからです。Iceberg の最大の課題の 1 つは、テーブルの最適化の把握と管理でした。これが、S3 Tables とマネージド最適化機能に期待している理由です。デベロッパーがテーブルメンテナンスの負担を軽減できれば、高品質のデータと貴重なインサイトをお客様に提供することにもっと集中できるようになります。

    Zus Health、Consulting Software Engineer、Sonya Huang 氏

パートナーと統合

  • Daft

    Daft は、データエンジニアリング、分析、ML/AI の統合エンジンです。SQL と Python DataFrame インターフェイスの両方を第一級市民として公開し、Rust で記述されています。Daft は、ペタバイト規模の分散ワークロードにシームレスにスケールしながら、迅速で楽しいローカルインタラクティブエクスペリエンスを提供します。

    Amazon S3 Tables は、Daft の Apache Iceberg サポートを完璧に補完します。AWS Lake Formation および AWS Glue との統合を活用することで、最適化されたパフォーマンスを活用しながら、既存の Iceberg の読み取りおよび書き込み機能を S3 Tables に簡単に拡張できました。当社はこの新しいサービスの進化を楽しみにしており、Python データエンジニアリングと ML/AI エコシステムにクラス最高レベルの S3 Tables サポートを提供できることに高揚感を覚えています。

    Daft、CEO 兼共同創業者、Sammy Sidhu 氏
  • Dremio

    Dremio はインテリジェントなレイクハウスプラットフォームであり、市場をリードする SQL エンジン、オープンで相互運用可能なデータカタログ、安全かつスケーラブルで使いやすいプラットフォームを提供することで、AI と分析を加速します。Apache Iceberg、Apache Polaris (インキュベーション段階)、Apache Arrow コミュニティにおける当社のリーダーシップにより、組織は、柔軟性とコントロールを維持しながら、完全にオープンで高性能なレイクハウスアーキテクチャを構築し、ベンダーロックインを排除できます。

    Dremio は、Amazon S3 Tables の一般提供の開始をサポートできることに高揚感を覚えています。S3 Tables は、Apache Iceberg REST Catalog (IRC) 仕様をサポートすることで、Dremio とのシームレスな相互運用性を実現し、最適化された S3 Tables バケットで管理される Apache Iceberg テーブルをクエリできる高性能 SQL エンジンの恩恵をユーザーが享受できるようにします。このコラボレーションにより、レイクハウスエコシステムにおけるオープンスタンダードの重要性が高まり、統合の複雑さが解消され、顧客による採用が加速します。Amazon S3 Tables と IRC のサポートにより、組織は AI 時代の統合レイクハウスアーキテクチャを構築するために必要な柔軟性と選択肢を得ることができます。

    Dremio、Product、VP、James Rowland-Jones 氏
  • DuckDB Labs

    DuckDB Labs は、人気のユニバーサルデータラングリングツールである DuckDB の生みの親によって設立された企業です。同社は、DuckDB システムの主要な貢献者を雇っています。DuckDB は、MIT ライセンスに基づく無料のオープンソースソフトウェアであり、独立した非営利団体である DuckDB Foundation によって管理されています。DuckDB プロジェクトは、その使いやすさと移植性により、幅広いユーザーが高速分析処理を利用できるようにします。

    Amazon S3 Tables は、オープンファイル形式を使用してデータ分析を民主化するという DuckDB のビジョンと完全に一致しています。AWS と DuckDB Labs のコラボレーションにより、DuckDB での Iceberg サポートをさらに拡張し、S3 Tables とのシームレスな統合を開発できます。DuckDB と S3 Tables の共有されている batteries-included の考え方が組み合わさることで、非常に低い参入障壁を維持しながら、幅広いワークロードを処理できる強力な分析スタックが実現すると考えています。

    DuckDB Labs、Chief Executive Officer、Hannes Mühleisen 氏
  • HighByte

    HighByte は、世界中の製造業者がデジタルトランスフォーメーションを進める中で直面するデータアーキテクチャと統合の課題に対処する産業ソフトウェア企業です。同社の実績ある産業用 DataOps ソフトウェアである HighByte Intelligence Hub は、コードレスインターフェイスを使用して、モデル化されたすぐに利用できるデータを AWS クラウドサービスに提供し、統合時間を短縮して分析を加速します。

    Amazon S3 Tables は、分析ワークロードの表形式データの管理、パフォーマンス、およびストレージを最適化する強力な新機能です。HighByte Intelligence Hub と Amazon S3 Tables との直接統合により、世界中の製造業者は、産業データ用のオープンなトランザクションデータレイクを簡単に構築できます。S3 Tables を使用することで、生の Parquet データを即座にクエリできるため、お客様は、コンテキスト化された情報をエッジからクラウドに送信し、追加の処理や変換なしですぐに使用できます。これは、両社の共通のお客様のパフォーマンスとコストの両方の最適化に大きな影響をもたらします。

    HighByte、Chief Technology Officer、Aron Semle 氏
  • PuppyGraph

    PuppyGraph は、初のリアルタイムのゼロ ETL グラフクエリエンジンです。これを使用することで、データチームは、高コストの移行やメンテナンスなしで、数分で既存のレイクハウスをグラフとしてクエリできます。ペタバイトサイズのデータセットにスケールし、複雑なマルチホップ クエリを数秒で実行して、不正検出からサイバーセキュリティ、AI 駆動型インサイトまで、さまざまなユースケースを強化します。

    Amazon S3 は長い間、最新のデータインフラストラクチャの基盤となってきました。そのような中で、S3 Tables のリリースは大きなマイルストーンであり、Apache Iceberg を、データと AI のユニバーサルスタンダードにより近づけます。このイノベーションにより、組織は S3 で高性能なオープンテーブル形式を活用できるようになり、データの重複なしでマルチエンジン分析が可能になります。PuppyGraph のお客様にとって、これは、複雑な ETL のオーバーヘッドなしで、リアルタイムのグラフクエリを S3 データに対して直接実行し、スケーラブルな最新のインサイトを維持できることを意味します。当社は、グラフ分析をデータ自体と同じ程度にシームレスにするこの進化の一翼を担えることに高揚感を覚えています。

    PuppyGraph、共同創業者兼 CEO、Weimo Liu 氏
  • Snowflake

    Snowflake は、エンタープライズ AI を簡単にするとともに、連携性と信頼性を高めます。世界最大規模の数百社の企業を含む、世界中の何千もの企業が、Snowflake の AI Data Cloud を利用してデータを共有し、アプリケーションを構築して、AI でビジネスを強化しています。

    Snowflake の魔法を Amazon S3 Tables に導入できることに高揚感を覚えています。このコラボレーションにより、Snowflake のお客様は、Snowflake の既存の設定を使用して S3 Tables に保存されているデータをシームレスに読み取り、処理できるようになり、複雑なデータ移行や複製が不要になります。Snowflake の世界クラスのパフォーマンス分析機能と Amazon S3 Tables の Apache Iceberg テーブルの効率的なストレージを組み合わせることで、組織は Amazon S3 に保存されている表形式のデータを簡単にクエリして分析できます。

    Snowflake、Global Director of Partner Solutions Engineering、Rithesh Makkena 氏
  • Starburst

    Starburst は、分析、AI、およびデータアプリケーションに必要な基礎データアーキテクチャを強化します。Apache Iceberg を利用したハイブリッドデータレイクハウス環境を使用して、アクセス、コラボレーション、ガバナンスを大規模に実現します。

    Amazon S3 が S3 Tables で Apache Iceberg の組み込みサポートを導入し、Iceberg Open Data Lakehouse エコシステムを前進させているのを目の当たりにして、当社は高揚感を覚えています。S3 テーブルバケットを使用して、AWS と連携し、両社の共同のお客様がさまざまな分析および AI ユースケースにおいて、最適化された Trino (主要なオープンソース MPP SQL エンジン) を搭載した Open Lakehouse の力を、Amazon S3 のデータで活用するのをサポートできることを楽しみにしています。

    Starburst、Product、Vice President、Matt Fuller 氏
  • StreamNative

    StreamNative は、コスト効率に優れた高性能なデータインジェストにより AI と分析を強化するメッセージングおよびストリーミングプラットフォームです。StreamNative Ursa エンジンにより、企業は、Kafka 互換性、リーダーレスアーキテクチャ、レイクハウスネイティブストレージを使用して総保有コスト (TCO) を 90% 削減できます。これにより、AI 対応データが大規模に利用しやすくなります。

    Amazon S3 Tables との統合により、リアルタイムの AI 対応データがこれまで以上にオープンでアクセスしやすくなります。S3 上の Ursa のリーダーレスアーキテクチャは既にストレージコストを削減しており、S3 Tables との直接統合によりパフォーマンスと効率性がさらに改善します。AI 駆動型の世界では、データガバナンスが重要です。StreamNative では、企業が管理されたリアルタイムデータを利用して AI を活用したアプリケーションを簡単かつ手頃なコストで構築できるようにしながら、TCO を 90% 削減するのをサポートすることに取り組んでいます。

    StreamNative、CEO 兼共同創業者、Sijie Guo 氏