Lưu trữ dữ liệu dạng bảng ở quy mô lớn trong S3
Bảng Amazon S3 cung cấp kho đối tượng đám mây đầu tiên hỗ trợ Apache Iceberg tích hợp và đơn giản hóa việc lưu trữ dữ liệu dạng bảng ở quy mô lớn. Tối ưu hóa bảng liên tục tự động quét và ghi lại dữ liệu bảng trong nền, cho hiệu năng truy vấn nhanh hơn tới 3 lần so với bảng Iceberg không được quản lý. Các hoạt động tối ưu hóa hiệu năng này sẽ tiếp tục được cải thiện theo thời gian. Ngoài ra, Bảng S3 cũng bao gồm các tối ưu hóa dành riêng cho khối lượng công việc Iceberg, mang đến số giao dịch mỗi giây cao hơn tới 10 lần so với bảng Iceberg lưu trữ trong vùng lưu trữ S3 đa dụng. Để biết thêm thông tin chi tiết về các cải tiến hiệu năng truy vấn của Bảng S3, hãy tham khảo blog.
Vì Bảng S3 hỗ trợ tiêu chuẩn Apache Iceberg, nên các công cụ truy vấn phổ biến của AWS và bên thứ ba có thể dễ dàng truy vấn dữ liệu dạng bảng của bạn. Sử dụng Bảng S3 để lưu trữ dữ liệu dạng bảng như giao dịch mua hàng hàng ngày, dữ liệu cảm biến phát trực tuyến hoặc lượt hiển thị quảng cáo dưới dạng bảng Iceberg trong S3 và tối ưu hóa hiệu suất cũng như chi phí khi dữ liệu phức tạp hơn nhờ tính năng bảo trì bảng tự động. Đọc blog để tìm hiểu thêm.
Lợi ích
Cách thức hoạt động
Bảng S3 cung cấp kho lưu trữ S3 chuyên dụng để lưu trữ dữ liệu có cấu trúc theo định dạng Apache Parquet. Trong vùng lưu trữ bảng, bạn có thể tạo bảng dưới dạng tài nguyên ưu tiên ngay trong S3. Các bảng này có thể được bảo mật bằng các quyền cấp bảng được xác định trong chính sách dựa trên danh tính hoặc tài nguyên và có thể truy cập được bằng các ứng dụng hoặc công cụ hỗ trợ tiêu chuẩn Apache Iceberg. Khi bạn tạo bảng trong vùng lưu trữ bảng của mình, dữ liệu cơ bản trong S3 sẽ được lưu trữ dưới dạng dữ liệu Parquet. Sau đó, S3 sẽ duy trì siêu dữ liệu cần thiết để cho phép ứng dụng của bạn truy vấn dữ liệu Parquet. Vùng lưu trữ bảng bao gồm thư viện máy khách được các công cụ truy vấn dùng để điều hướng và cập nhật siêu dữ liệu Iceberg của bảng trong vùng dữ liệu bảng của bạn. Sử dụng thư viện này kết hợp với các API S3 mới nhất vào hoạt động trên bảng cho phép nhiều máy khách đọc và ghi dữ liệu vào bảng của bạn một cách an toàn. Theo thời gian, S3 sẽ tự động tối ưu dữ liệu Parquet cơ bản bằng cách ghi lại hoặc "nén" các đối tượng của bạn. Tính năng nén tối ưu hóa dữ liệu của bạn trên S3 để cải thiện hiệu suất truy vấn và tiết kiệm chi phí. Hãy đọc hướng dẫn sử dụng để tìm hiểu thêm

Khách hàng
-
Genesys
Genesys là công ty hàng đầu về đám mây toàn cầu trong việc điều phối trải nghiệm dựa trên AI. Thông qua AI tiên tiến, khả năng quản lý kỹ thuật số và sự tham gia của lực lượng lao động, Genesys giúp hơn 8.000 tổ chức tại hơn 100 quốc gia cung cấp trải nghiệm khách hàng và nhân viên được cá nhân hóa, đồng thời hưởng lợi từ sự linh hoạt và kết quả kinh doanh được cải thiện.
Bảng Amazon S3 sẽ là một sự bổ sung mang tính chuyển đổi cho kiến trúc dữ liệu của chúng tôi, đặc biệt là với sự hỗ trợ có quản lý của Iceberg, giúp tạo ra một lớp chế độ xem cụ thể hóa một cách hiệu quả cho các nhu cầu phân tích dữ liệu đa dạng. Dịch vụ này có khả năng giúp Genesys đơn giản hóa các quy trình dữ liệu phức tạp bằng cách loại bỏ các lớp quản lý dạng bảng bổ sung, với S3 xử lý các tác vụ bảo trì chính như tự động nén, quản lý ảnh chụp nhanh và dọn dẹp tệp không tham chiếu. Khả năng đọc và viết Bảng Iceberg trực tiếp từ S3 sẽ giúp chúng tôi tăng hiệu suất và tạo tiềm năng mới để tích hợp dữ liệu liền mạch trong hệ sinh thái phân tích của chúng tôi. Khả năng tương tác này, kết hợp với các cải tiến về hiệu suất, định vị Bảng S3 là một phần quan trọng trong chiến lược tương lai của chúng tôi để cung cấp thông tin chi tiết dữ liệu nhanh chóng, linh hoạt và đáng tin cậy.
Glenn Nethercutt, Giám đốc Công nghệ - Genesys -
Pendulum
Pendulum là một nền tảng Trí tuệ thương hiệu có phạm vi phủ sóng toàn diện nhất thế giới về nội dung video, âm thanh và văn bản để chủ động xác định rủi ro và cơ hội, cho phép ra quyết định và theo dõi phân tích tốt hơn trong toàn doanh nghiệp.
Tại Pendulum Intelligence, chúng tôi phân tích dữ liệu từ hàng trăm triệu kênh và nguồn xã hội. Bảng Amazon S3 đã thay đổi cách chúng tôi quản lý hồ dữ liệu của mình, xử lý hàng nghìn giờ nội dung video và âm thanh được phân tích đồng thời trích xuất ngữ cảnh từ hình ảnh và các phương tiện khác trong thời gian gần như thời gian thực bằng các công cụ máy học độc quyền của chúng tôi. Bằng cách loại bỏ gánh nặng quản lý bảng, bao gồm nén, ảnh chụp nhanh và dọn dẹp tệp, nhóm của chúng tôi có thể tập trung vào những gì quan trọng nhất: thu thập thông tin chuyên sâu có thể thực hiện được từ các tập dữ liệu khổng lồ. Việc tích hợp liền mạch với ngăn xếp phân tích của chúng tôi — Amazon Athena, AWS Glue và Amazon EMR — đã nâng cao đáng kể khả năng xử lý dữ liệu phức tạp trên quy mô lớn của chúng tôi.
Abdurrahman Elbuni, Kiến trúc sư dữ liệu lớn đám mây - Pendulum -
SnapLogic
SnapLogic là công ty tiên phong trong lĩnh vực tích hợp dựa trên AI. Nền tảng SnapLogic cho Tích hợp tạo sinh tăng tốc quá trình chuyển đổi kỹ thuật số trong toàn doanh nghiệp để thiết kế, triển khai và quản lý tích hợp và các tác tử AI nhằm tự động hóa các tác vụ, đưa ra quyết định thời gian thực và tích hợp dễ dàng vào quy trình công việc hiện có.
Bảng Amazon S3, với sự hỗ trợ của Apache Iceberg tích hợp và tích hợp dịch vụ Phân tích của AWS, giúp các công ty tối ưu hóa chi phí phân tích dữ liệu đồng thời chuyển đổi cách họ sử dụng dữ liệu kinh doanh cho các sáng kiến phân tích, tuân thủ và AI. Bằng cách tự động hóa các nhiệm vụ quản lý dữ liệu phức tạp và cung cấp các biên bản kiểm tra đầy đủ về các thay đổi dữ liệu, các nhóm có thể phân tích dữ liệu lịch sử ngay lập tức, duy trì tuân thủ quy định và tăng cường thông tin chuyên sâu về kinh doanh trong khi giảm đáng kể chi phí công nghệ.
Dominic Wellington, Kiến trúc sư doanh nghiệp - SnapLogic -
Zus Health
Zus là một nền tảng dữ liệu sức khỏe chia sẻ được thiết kế để tăng tốc khả năng tương tác dữ liệu chăm sóc sức khỏe bằng cách cung cấp dữ liệu bệnh nhân dễ sử dụng thông qua API, các thành phần nhúng và tích hợp EHR trực tiếp.
Là một công ty chăm sóc sức khỏe xử lý một lượng lớn dữ liệu bệnh nhân thường xuyên thay đổi, chúng tôi quyết định đầu tư vào Apache Iceberg vì nó giải quyết nhiều vấn đề với Apache Hive xung quanh việc phân vùng và tự động hóa, với lợi ích bổ sung là khả năng tương tác rộng hơn. Một trong những thách thức lớn nhất của chúng tôi với Iceberg là hiểu và quản lý tối ưu hóa bảng. Đây là lý do tại sao chúng tôi rất hào hứng với S3 Tables và khả năng tối ưu hóa được quản lý. Việc có thể giảm chi phí bảo trì bảng cho nhà phát triển sẽ cho phép chúng tôi tập trung nhiều hơn vào việc mang lại dữ liệu chất lượng cao và thông tin chi tiết có giá trị cho khách hàng.
Sonya Huang, Kỹ sư Tư vấn Phần mềm - Zus Health
Đối tác và tích hợp
-
Daft
Daft là một công cụ thống nhất cho kỹ thuật dữ liệu, phân tích và ML/AI, hiển thị cả giao diện SQL và Python DataFrame dưới dạng công dân hạng nhất và được viết bằng Rust. Daft cung cấp trải nghiệm tương tác cục bộ nhanh nhẹn và thú vị, đồng thời mở rộng quy mô liền mạch đến khối lượng công việc phân tán tính theo petabyte.
Bảng Amazon S3 là sự bổ sung hoàn hảo cho sự hỗ trợ của Daft dành cho Apache Iceberg. Bằng cách tận dụng các tích hợp với AWS Lake Formation và AWS Glue, chúng tôi có thể dễ dàng mở rộng khả năng đọc và ghi Iceberg hiện có của mình lên Bảng S3 trong khi tận dụng hiệu suất tối ưu của nó. Chúng tôi mong chờ sự phát triển của dịch vụ mới này và chúng tôi rất vui mừng được cung cấp hỗ trợ Bảng S3 tốt nhất trong lớp cho hệ sinh thái Kỹ thuật Dữ liệu Python & ML/AI.
Sammy Sidhu, Giám đốc điều hành & Đồng sáng lập - Daft -
Dremio
Dremio là nền tảng hồ thông minh, tăng tốc AI và phân tích bằng cách cung cấp công cụ SQL hàng đầu thị trường, danh mục dữ liệu mở, có thể tương tác và nền tảng an toàn, có thể mở rộng và dễ sử dụng. Sự lãnh đạo của chúng tôi trong các cộng đồng Apache Iceberg, Apache Polaris (nuôi dưỡng) và Apache Arrow trao quyền cho các tổ chức xây dựng kiến trúc kho hồ hoàn toàn mở, hiệu suất cao trong khi vẫn duy trì tính linh hoạt và khả năng kiểm soát - loại bỏ tình trạng khóa cứng của nhà cung cấp.
Dremio rất hân hạnh được hỗ trợ cung cấp rộng rãi cho Bảng Amazon S3. Bằng cách hỗ trợ đặc tả Apache Iceberg REST Catalog (IRC), S3 Tables đảm bảo khả năng tương tác liền mạch với Dremio, cho phép người dùng hưởng lợi từ công cụ SQL hiệu suất cao có khả năng truy vấn các bảng Apache Iceberg được quản lý trong các vùng lưu trữ bảng S3 được tối ưu hóa. Sự hợp tác này củng cố tầm quan trọng của các tiêu chuẩn mở trong hệ sinh thái kho hồ, loại bỏ việc tích hợp phức tạp và đẩy nhanh việc áp dụng khách hàng. Với Bảng Amazon S3 và hỗ trợ IRC, các tổ chức có được sự linh hoạt và lựa chọn cần thiết để xây dựng kiến trúc hồ thống nhất trong kỷ nguyên AI.
James Rowland-Jones, Phó chủ tịch, Sản phẩm - Dremio -
DuckDB Labs
DuckDB Labs là công ty được thành lập bởi những người sáng lập DuckDB, một công cụ tranh luận dữ liệu phổ biến. Công ty sử dụng những người đóng góp cốt lõi cho hệ thống DuckDB. DuckDB là phần mềm nguồn mở và miễn phí theo giấy phép MIT và được quản lý bởi tổ chức phi lợi nhuận độc lập DuckDB Foundation. Dự án DuckDB cung cấp khả năng xử lý phân tích nhanh chóng cho nhiều đối tượng thông qua tính dễ sử dụng và tính di động của nó.
Bảng Amazon S3 phù hợp hoàn hảo với tầm nhìn của DuckDB về dân chủ hóa phân tích dữ liệu bằng cách sử dụng các định dạng tệp mở. Sự hợp tác giữa AWS và DuckDB Labs cho phép chúng tôi mở rộng hơn nữa khả năng hỗ trợ Iceberg trong DuckDB và phát triển tích hợp liền mạch với bảng S3. Chúng tôi tin rằng tâm lý sử dụng pin chung của DuckDB và bảng S3 kết hợp thành một ngăn xếp phân tích mạnh mẽ có thể xử lý nhiều khối lượng công việc trong khi vẫn duy trì rào cản gia nhập cực thấp.
Hannes Mühleisen, Giám đốc điều hành - DuckDB Labs -
HighByte
HighByte là một công ty phần mềm công nghiệp giải quyết các thách thức về kiến trúc dữ liệu và tích hợp mà các nhà sản xuất toàn cầu phải đối mặt trong quá trình chuyển đổi kỹ thuật số. HighByte Intelligence Hub, phần mềm Industrial DataOps đã được chứng minh của công ty, cung cấp dữ liệu lập mô hình, sẵn sàng sử dụng cho các dịch vụ đám mây AWS bằng giao diện không cần mã để tăng tốc độ tích hợp và phân tích.
Bảng Amazon S3 là một tính năng mới mạnh mẽ giúp tối ưu hóa việc quản lý, hiệu suất và lưu trữ dữ liệu dạng bảng cho khối lượng công việc phân tích. Tích hợp trực tiếp của HighByte Intelligence Hub với Bảng Amazon S3 giúp các nhà sản xuất toàn cầu dễ dàng xây dựng một hồ dữ liệu giao dịch mở cho dữ liệu công nghiệp của họ. Bảng S3 cho phép truy vấn ngay lập tức dữ liệu Parquet thô, cho phép khách hàng gửi thông tin ngữ cảnh từ biên đến đám mây để sử dụng ngay lập tức mà không cần xử lý hoặc chuyển đổi thêm. Điều này có tác động lớn đến cả hiệu suất và tối ưu hóa chi phí cho các khách hàng chung của chúng tôi.
Aron Semle, Giám đốc Công nghệ - HighByte -
PuppyGraph
PuppyGraph là công cụ truy vấn đồ thị Zero-ETL trong thời gian thực đầu tiên, cho phép các nhóm dữ liệu truy vấn kho hồ hiện có dưới dạng biểu đồ trong vài phút mà không cần di chuyển hoặc bảo trì tốn kém. Nó mở rộng quy mô đến các tập dữ liệu có kích thước tính theo petabyte và thực thi các truy vấn đa chuyển phức tạp trong vài giây, hỗ trợ các trường hợp sử dụng từ phát hiện gian lận đến an ninh mạng và thông tin chuyên sâu dựa trên AI.
Amazon S3 từ lâu đã là nền tảng của cơ sở hạ tầng dữ liệu hiện đại và sự ra mắt của Bảng S3 đánh dấu một bước tiến quan trọng - đưa Apache Iceberg đến gần hơn để trở thành tiêu chuẩn phổ quát cho dữ liệu và AI. Sự đổi mới này cho phép các tổ chức tận dụng các định dạng bảng mở, hiệu suất cao trên S3, cho phép phân tích đa công cụ mà không cần sao chép dữ liệu. Đối với khách hàng của PuppyGraph, điều đó có nghĩa là giờ đây họ có thể chạy các truy vấn đồ thị thời gian thực trực tiếp trên dữ liệu S3 của họ, duy trì thông tin chi tiết mới mẻ, có thể mở rộng mà không phải tốn chi phí ETL phức tạp. Chúng tôi rất vui mừng được trở thành một phần của sự phát triển này, giúp phân tích đồ thị trở nên liền mạch như chính dữ liệu.
Weimo Liu, Đồng sáng lập & Giám đốc điều hành - PuppyGraph -
Snowflake
Snowflake giúp AI cho doanh nghiệp trở nên dễ dàng, kết nối và đáng tin cậy. Hàng ngàn công ty trên toàn thế giới, bao gồm hàng trăm công ty lớn nhất thế giới, sử dụng Đám mây Dữ liệu AI của Snowflake để chia sẻ dữ liệu, xây dựng ứng dụng và cung cấp năng lượng cho doanh nghiệp của họ với AI.
Chúng tôi rất vui mừng được mang sự kỳ diệu của Snowflake đến Bảng Amazon S3. Sự hợp tác này cho phép khách hàng của Snowflake đọc và xử lý liền mạch dữ liệu được lưu trữ trong Bảng S3 bằng cách sử dụng các thiết lập Snowflake hiện có của họ, loại bỏ nhu cầu di chuyển hoặc sao chép dữ liệu phức tạp. Bằng cách kết hợp khả năng phân tích hiệu suất tầm cơ thế giới của Snowflake với việc lưu trữ các bảng Apache Iceberg hiệu quả của bảng Amazon S3, các tổ chức có thể dễ dàng truy vấn và phân tích dữ liệu dạng bảng được lưu trữ trong Amazon S3.
Rithesh Makkena, Giám đốc Toàn cầu về Kỹ thuật Giải pháp Đối tác - Snowflake -
Starburst
Starburst cung cấp năng lượng cho kiến trúc dữ liệu nền tảng cần thiết cho các ứng dụng phân tích, AI và dữ liệu. Nó sử dụng môi trường hồ dữ liệu lai được cung cấp bởi Apache Iceberg để cung cấp quyền truy cập, cộng tác và quản trị trên quy mô lớn.
Chúng tôi rất vui mừng khi thấy Amazon S3 giới thiệu hỗ trợ tích hợp cho Apache Iceberg với Bảng S3, thúc đẩy hệ sinh thái Hồ dữ liệu Iceberg Open. Với vùng lưu trữ bảng S3, chúng tôi mong muốn được hợp tác với AWS để giúp các khách hàng chung của chúng tôi mang sức mạnh của Hồ Open Lakehouse, được hỗ trợ bởi Trino được tối ưu hóa — công cụ SQL MPP mã nguồn mở hàng đầu, trên các trường hợp phân tích và sử dụng AI đa dạng cho dữ liệu trong Amazon S3.
Matt Fuller, Phó Chủ tịch, Sản phẩm - Starburst -
StreamNative
StreamNative là một nền tảng nhắn tin và phát trực tuyến hỗ trợ AI và phân tích với khả năng tải nhập dữ liệu hiệu suất cao, hiệu quả về chi phí. Công cụ StreamNative Ursa cho phép các doanh nghiệp giảm 90% tổng chi phí sở hữu (TCO) với khả năng tương thích Kafka, kiến trúc không dẫn đầu và lưu trữ gốc hồ dữ liệu, giúp dữ liệu sẵn sàng để sử dụng cho AI có thể được truy cập trên quy mô lớn.
Sự tích hợp của chúng tôi với Bảng Amazon S3 giúp dữ liệu theo thời gian thực, sẵn sàng cho AI trở nên cởi mở và dễ truy cập hơn bao giờ hết. Kiến trúc không dẫn đầu của Ursa trên S3 đã giảm chi phí lưu trữ và tích hợp trực tiếp với Bảng S3 giúp cải thiện hiệu suất và hiệu quả hơn nữa. Trong một thế giới do AI điều khiển, quản trị dữ liệu là rất quan trọng. Tại StreamNative, chúng tôi cam kết giúp các doanh nghiệp giảm 90% TCO đồng thời tạo ra dễ dàng và giá cả phải chăng để xây dựng các ứng dụng dựa trên AI với dữ liệu được quản lý thời gian thực.
Sijie Guo, Giám đốc điều hành & Đồng sáng lập - StreamNative