在 S3 中大規模儲存表格式資料
Amazon S3 Tables 可提供首個具有內建 Apache Iceberg 支援的雲端物件存放區,並且簡化大規模儲存表格式資料。持續資料表最佳化會在背景自動掃描和重寫資料表資料,與未受管 Iceberg 資料表相比,查詢效能可提高 3 倍。並且這種效能最佳化將隨時間不斷改進。此外,與儲存在通用 S3 儲存貯體中的 Iceberg 資料表相比,包含針對 Iceberg 工作負載最佳化的 S3 資料表的每秒交易處理量可提高 10 倍。如需有關 S3 資料表查詢效能改進的詳細資訊,請參閱此部落格。
有了適用於 Apache Iceberg 標準的 S3 Tables 支援,常用的 AWS 和第三方查詢引擎即可輕鬆查詢您的表格式資料。使用 S3 Tables 將表格式資料 (例如每日購買交易、串流感測器資料或廣告曝光) 作為 S3 中的 Iceberg 資料表儲存,並使用自動資料表維護隨著資料的發展最佳化效能和成本。閱讀部落格以進一步了解。
優勢
運作方式
S3 Tables 提供專用 S3 儲存,用於以 Apache Parquet 格式儲存結構化資料。在資料表儲存貯體中,您可以直接在 S3 中建立資料表作為一級資源。這些資料表可以使用以身分或資源為基礎的政策中定義的資料表層級許可來進行保護,並且可以透過支援 Apache Iceberg 標準的應用程式或工具來存取。當您在資料表儲存貯體中建立資料表時,S3 中的基礎資料會儲存為 Parquet 資料。然後,S3 會維護所需的中繼資料,以便您的應用程式可查詢該 Parquet 資料。資料表儲存貯體包括用戶端資料庫,而查詢引擎會使用該資料庫來導覽和更新資料表儲存貯體中資料表的 Iceberg 中繼資料。此程式庫與用於資料表操作的更新的 S3 API 結合,可讓多個用戶端安全地讀取和寫入資料表。隨著時間的推移,S3 會透過重寫或「壓縮」物件來自動最佳化基礎 Parquet 資料。壓縮可最佳化 S3 上的資料,以提高查詢效能並最大程度地降低成本。 如需進一步了解,請閱讀使用者戶指南

客戶
-
Genesys
Genesys 是 AI 支援體驗協同運作方面的全球雲端領導者。透過進階的 AI、數位化和員工參與管理功能,Genesys 協助 100 多個國家/地區的 8,000 多個組織提供個人化、富有同理心的客戶和員工體驗,同時可從提高的業務敏捷性和成果中受益。
Amazon S3 Tables 將為我們的資料架構帶來變革性的新增功能,尤其是憑藉其受管 Iceberg 支援,此支援可以有效地為各種資料分析需求建立具體化視觀表層。該產品有可能協助 Genesys 透過消除額外的資料表管理層來簡化複雜的資料工作流程,其中 S3 會自動處理壓縮、快照管理和未參考檔案清理等關鍵維護任務。直接從 S3 讀取和寫入 Iceberg 資料表的能力將有助於我們提高效能並創造新的可能性,以便在我們的分析生態系統中無縫整合資料。這種互通性結合效能增強功能,使 S3 Tables 成為我們未來戰略的重要組成部分,其可提供快速、靈活且可靠的資料洞見。
Genesys 技術長 Glenn Nethercutt -
Pendulum
Pendulum 是一個品牌智慧平台,擁有全球最全面的涵蓋範圍,涵括視訊、音訊與文字內容,能夠主動識別風險與機會,協助企業提升決策能力與監控分析。
Pendulum Intelligence 分析來自數億社交管道和來源的資料。我們的資料湖能夠處理數千個分析視訊與音訊內容,同時利用我們專屬的機器學習工具,幾乎即時地從影像及其他媒體中擷取情境資訊,而 Amazon S3 Tables 則徹底改變了我們管理資料湖的方式。透過消除資料表管理的負擔,包括壓縮、快照與檔案清理,我們的團隊能夠專注於最重要的任務:從龐大的資料集中獲取可行的洞察。與我們的分析堆疊 - Amazon Athena、AWS Glue 及 Amazon EMR 的無縫整合,大幅提升了我們大規模處理複雜資料的能力。
Pendulum 雲端大數據建構師 Abdurrahman Elbuni -
SnapLogic
SnapLogic 是 AI 主導整合的先驅。SnapLogic 生成式整合平台加速了整個企業的數位轉型,以設計、部署和管理 AI 代理程式與整合,從而自動執行任務、做出即時決策並輕鬆整合到現有工作流程中。
Amazon S3 Tables 具備內建 Apache Iceberg 支援和 AWS Analytics 服務整合,可協助公司最佳化資料分析成本,同時轉變公司使用商業資料進行分析、合規性和 AI 計劃的方式。透過自動化複雜的資料管理任務並提供資料變更的完整稽核記錄,團隊可以立即分析歷史資料、維持法規遵循性,加速取得業務洞見,同時顯著降低技術成本。
SnapLogic 企業架構師 Dominic Wellington -
Zus Health
Zus 是一個共用健康資料平台,旨在透過 API、內嵌式元件和直接 EHR 整合提供易於使用的患者資料,從而加速醫療保健資料互通性。
作為一家處理大量頻繁變化的患者資料的醫療保健公司,我們決定投資 Apache Iceberg,因為它解決了 Apache Hive 在分割和自動化方面的許多痛點,並具有更廣泛互通性的額外優勢。我們在使用 Iceberg 時面臨的最嚴峻挑戰之一是理解和管理資料表最佳化。因此,我們對 S3 Tables 和受管最佳化功能的推出感到興奮不已。能夠減輕開發人員的資料表維護開銷,這將使我們能夠更加專注于為客戶提供高品質的資料和有價值的洞見。
Zus Health 諮詢軟體工程師 Sonya Huang
合作夥伴與整合
-
Daft
Daft 是一款專為資料工程、分析與 ML/AI 設計的統一引擎,將 SQL 和 Python DataFrame 介面視為一等公民,並以 Rust 開發。Daft 提供快速且令人愉悅的本機互動體驗,同時還能無縫擴展至 PB 大小規模的分散式工作負載。
Amazon S3 Tables 是 Daft 在支援 Apache Iceberg 上的理想補充。透過與 AWS Lake Formation 和 AWS Glue 的整合,我們能夠輕鬆將現有的 Iceberg 讀寫功能擴展至 S3 Tables,同時充分發揮其最佳化的效能。我們期待這項新服務的發展,並很高興能夠為 Python 資料工程與 ML/AI 生態系統提供業界領先的 S3 Tables 支援。
Daft 執行長兼共同創始人 Sammy Sidhu -
Dremio
Dremio 是智慧型資料湖倉平台,透過提供領先市場的 SQL 引擎、開放且可互操作的資料目錄,以及安全、可擴展且簡單易用的平台,加速人工智慧與分析。我們在 Apache Iceberg、Apache Polaris (孵化中) 和 Apache Arrow 社群具有領導地位,可讓組織建立完全開放、高效能的資料湖倉架構,同時保持彈性和控制力,並避免遭供應商鎖定。
Dremio 很高興能為 Amazon S3 Tables 的一般可用性提供支援。S3 Tables 支援 Apache Iceberg REST Catalog (IRC) 規格,可確保與 Dremio 的無縫互通性,讓使用者受惠於高效能 SQL 引擎,輕鬆查詢管理於最佳化 S3 資料表儲存貯體中的 Apache Iceberg 資料表。這項合作強化了開放標準在資料湖倉生態系統中的重要性,同時消除了整合的複雜性,並加速客戶的採用。有了 Amazon S3 Tables 和 IRC 支援,組織可獲得所需的彈性與選擇性,從而在 AI 時代構建統一的資料湖倉架構。
Dremio 產品副總裁 James Rowland-Jones -
DuckDB Labs
DuckDB Labs 是由 DuckDB 的創造者所建立的公司,DuckDB 是一個廣受歡迎的通用資料整理工具。該公司聘用了 DuckDB 系統的核心貢獻者。DuckDB 是 MIT 授權下的自由與開放原始碼軟體,並由獨立的非營利組織 DuckDB Foundation 管理。DuckDB 專案的易用性和可攜性,可讓廣大的受眾進行快速分析處理。
Amazon S3 Tables 完美契合 DuckDB 的願景,即透過開放檔案格式來實現資料分析的民主化。AWS 與 DuckDB Labs 的合作讓我們能夠進一步擴展 DuckDB 對 Iceberg 的支援,並開發與 S3 Tables 的無縫整合。我們相信 DuckDB 和 S3 Tables 共同的「內建電池 (batteries-included)」能夠融合為一個強大的分析技術堆疊,不僅能處理各種工作負載,同時保持極低的使用門檻。
DuckDB Labs 執行長 Hannes Mühleisen -
HighByte
HighByte 是一家工業軟體公司,致力於解決全球製造商在數位化轉型時所面臨的資料架構與整合挑戰。HighByte Intelligence Hub 是該公司久經考驗的 Industrial DataOps 軟體,可透過無編碼介面向 AWS 雲端服務提供已建模、可立即使用的資料,以加快整合時間並加速分析。
Amazon S3 Tables 是一項強大的新功能,可提升資料表資料的管理、效能與儲存,以最佳化分析工作負載。HighByte Intelligence Hub 與 Amazon S3 Tables 的直接整合,可讓全球製造商輕鬆為其工業資料建立開放式的交易資料湖。S3 Tables 可立即查詢原始 Parquet 資料,讓客戶無需額外處理或轉換,就能將情境化資訊從邊緣傳送至雲端,以供立即使用。這對於我們的共同客戶在效能提升與成本最佳化方面都產生了重大影響。
HighByte 技術長 Aron Semle -
PuppyGraph
PuppyGraph 是第一個即時、零 ETL 圖形查詢引擎,可讓資料團隊在幾分鐘內以圖形查詢現有的資料湖倉,而無需成本高昂的遷移或維護。它可擴展至 PB 大小規模的資料集,並可在數秒內執行複雜的多躍點查詢,為各種使用案例提供強大支援,包括詐欺偵測、網路安全,以及 AI 驅動的洞察分析。
Amazon S3 一直以來都是現代資料基礎架構的基礎,而 S3 Tables 的推出則是一個重要的里程碑,讓 Apache Iceberg 離成為資料與 AI 通用標準的目標更進一步。這項創新可讓組織利用 S3 上的高效能開放式資料表格式,在不重複資料的情況下達成多引擎分析。對於 PuppyGraph 客戶而言,這代表著他們現在可以直接在 S3 資料上執行即時圖形查詢,維持新鮮、可擴充的洞察力,而無需複雜的 ETL 開銷。我們很高興能參與這次的演進,讓圖形分析就像資料本身一樣流暢無縫。
PuppyGraph 共同創始人兼執行長 Weimo Liu -
Snowflake
Snowflake 讓企業 AI 變得簡單、連結且可信賴。全球數以千計的公司,包括數百家全球最大的公司,都使用 Snowflake 的 AI Data Cloud 來分享資料、建立應用程式,並利用 AI 驅動其業務。
我們很高興能將 Snowflake 的魔力帶到 Amazon S3 Tables。這項合作使 Snowflake 客戶能夠透過現有的 Snowflake 設定,無縫讀取與處理儲存在 S3 Tables 中的資料,無需進行複雜的資料遷移或重複。透過結合 Snowflake 世界級的效能分析功能與 Amazon S3 Tables 對 Apache Iceberg 資料表的高效能儲存,各組織可以輕鬆地查詢和分析其儲存於 Amazon S3 的資料表資料。
Snowflake 合作夥伴解決方案工程全球總監 Rithesh Makkena -
Starburst
Starburst 能為分析、AI 和資料應用程式驅動所需的基礎資料架構。它使用由 Apache Iceberg 驅動的混合資料湖倉環境,以提供大規模的存取、協作和管理。
我們很高興看到 Amazon S3 推出內建支援 Apache Iceberg 的 S3 Tables,進一步推動了 Iceberg Open Data Lakehouse 生態系統。我們期待透過 S3 資料表儲存貯體與 AWS 合作,協助我們的共同客戶使用最佳化的 Trino (領先的開放原始碼 MPP SQL 引擎) 所驅動的 Open Lakehouse 強大功能,跨越各種分析與 AI 使用案例,應用於 Amazon S3 中的資料。
Starburst 產品副總裁 Matt Fuller -
StreamNative
StreamNative 是一個訊息傳輸與串流平台,能以符合成本效益的高效能資料擷取來驅動 AI 與分析。StreamNative Ursa 引擎透過 Kafka 相容性、無領導者架構和資料湖倉原生儲存,讓企業降低 90% 的總體擁有成本 (TCO),以大規模存取 AI 就緒資料。
我們與 Amazon S3 Tables 的整合能讓即時、AI 就緒的資料比以往更開放、更容易存取。Ursa 在 S3 上的無領導架構已經降低了儲存成本,而與 S3 Tables 的直接整合更進一步提升了效能與效率。在由 AI 驅動的世界中,資料控管至關重要。StreamNative 致力於協助企業降低 90% 的 TCO,同時以輕鬆且可負擔的方式,讓企業利用受管控的即時資料來建立由 AI 驅動的應用程式。
StreamNative 執行長兼共同創始人 Sijie Guo