Amazon S3 Tables

Abfrageleistung und Kosten optimieren, während Ihr Data Lake skaliert

Tabellarische Daten im großen Maßstab in S3 speichern

Amazon S3 Tables bieten den ersten Cloud-Objektspeicher mit integrierter Apache-Iceberg-Unterstützung und optimieren das Speichern von Tabellendaten in großem Maßstab. Durch die kontinuierliche Tabellenoptimierung werden Tabellendaten automatisch im Hintergrund gescannt und neu geschrieben, wodurch eine bis zu dreimal schnellere Abfrageleistung im Vergleich zu nicht verwalteten Iceberg-Tabellen erzielt wird. Diese Leistungsoptimierungen werden sich im Laufe der Zeit weiter verbessern. Darüber hinaus enthalten S3-Tabellen Optimierungen speziell für Iceberg-Workloads, die im Vergleich zu Iceberg-Tabellen, die in S3-Allzweck-Buckets gespeichert sind, bis zu zehnmal höhere Transaktionen pro Sekunde liefern. Weitere Informationen zu den Verbesserungen der Abfrageleistung von S3-Tabellen finden Sie im Blog.

Da S3 Tables den Apache-Iceberg-Standard unterstützen, können Ihre Tabellendaten problemlos mit gängigen Abfrage-Engines von AWS und Drittanbietern abgefragt werden. Verwenden Sie S3 Tables, um tabellarische Daten wie tägliche Kauftransaktionen, Streaming-Sensordaten oder Anzeigenimpressionen als Iceberg-Tabelle in S3 zu speichern und mithilfe der automatischen Tabellenpflege Leistung und Kosten zu optimieren, während sich Ihre Daten weiterentwickeln. Weitere Informationen finden Sie im Blog.

Vorteile

Vereinfachen Sie Data Lakes in jeder Größenordnung, egal ob Sie gerade erst anfangen oder Tausende von Tabellen in Ihrer Iceberg-Umgebung verwalten.

Erzielen Sie eine bis zu dreimal schnellere Abfrageleistung durch kontinuierliche Tabellenoptimierung im Vergleich zu nicht verwalteten Iceberg-Tabellen und bis zu zehnmal höhere Transaktionen pro Sekunde im Vergleich zu Iceberg-Tabellen, die in S3-Allzweck-Buckets gespeichert sind.

Führen Sie kontinuierliche Tabellenwartungsaufgaben wie Komprimierung, Snapshot-Verwaltung und Entfernung unreferenzierter Dateien durch, um die Abfrageeffizienz und die Kosten im Laufe der Zeit automatisch zu optimieren.

Greifen Sie über die Integration von S3 Tables mit Amazon SageMaker Lakehouse auf erweiterte Analytikfunktionen von Iceberg zu und fragen Sie Daten mit vertrauten AWS-Services wie Amazon Athena, Redshift und EMR ab. Darüber hinaus können Sie Iceberg-REST-kompatible Drittanbieteranwendungen wie Apache Spark, Apache Flink, Trino, DuckDB und PyIceberg verwenden, um Daten in S3 Tables zu lesen und zu schreiben.

Erstellen Sie Tabellen als erstklassige AWS-Ressourcen und wenden Sie Berechtigungen an, um den Zugriff auf sie einfach zu regeln.

Funktionsweise:

S3 Tables bieten speziell entwickelten S3-Speicher zum Speichern strukturierter Daten im Apache-Parquet-Format. Innerhalb eines Tabellen-Buckets können Sie Tabellen als erstklassige Ressourcen direkt in S3 erstellen. Diese Tabellen können mit Berechtigungen auf Tabellenebene gesichert werden, die entweder in identitäts- oder ressourcenbasierten Richtlinien definiert sind, und sind für Anwendungen oder Tools zugänglich, die den Apache-Iceberg-Standard unterstützen. Wenn Sie eine Tabelle in Ihrem Tabellen-Bucket erstellen, werden die zugrundeliegenden Daten in S3 als Parquet-Daten gespeichert. Anschließend verwaltet S3 die Metadaten, die erforderlich sind, um diese Parquet-Daten von Ihren Anwendungen abfragbar zu machen. Tabellen-Buckets enthalten eine Client-Bibliothek, die von Abfrage-Engines verwendet wird, um in den Iceberg-Metadaten der Tabellen in Ihrem Tabellen-Bucket zu navigieren und sie zu aktualisieren. Diese Bibliothek ermöglicht in Verbindung mit aktualisierten S3-APIs für Tabellenoperationen mehreren Clients das sichere Lesen und Schreiben von Daten in Ihre Tabellen. Im Laufe der Zeit optimiert S3 automatisch die zugrundeliegenden Parquet-Daten, indem Ihre Objekte neu geschrieben oder „komprimiert“ werden. Die Komprimierung optimiert Ihre Daten auf S3, um die Abfrageleistung zu verbessern und die Kosten zu minimieren. Im Benutzerhandbuch erhalten Sie weitere Informationen

Demo-Video zu Amazon S3 Tables

Kunden

  • Genesys

    Genesys ist ein weltweit führender Cloud-Anbieter für KI-gestützte Experience Orchestration. Mithilfe fortschrittlicher KI-, Digital- und Workforce-Engagement-Management-Funktionen unterstützt Genesys mehr als 8 000 Unternehmen in über 100 Ländern dabei, personalisierte, empathische Kunden- und Mitarbeitererlebnisse zu bieten und gleichzeitig von einer verbesserten Geschäftsflexibilität und besseren Ergebnissen zu profitieren.

    Amazon S3 Tables werden eine transformative Ergänzung zu unserer Datenarchitektur sein, insbesondere mit der verwalteten Iceberg-Unterstützung, die effektiv eine materialisierte Ansichtsebene für verschiedene Datenanalyseanforderungen schafft. Dieses Angebot hat das Potenzial, Genesys bei der Vereinfachung komplexer Daten-Workflows zu unterstützen, indem zusätzliche Ebenen der Tabellenverwaltung entfallen. S3 erledigt wichtige Wartungsaufgaben wie Komprimierung, Snapshot-Verwaltung und Bereinigung unreferenzierter Dateien automatisch. Die Möglichkeit, Iceberg-Tabellen direkt aus S3 zu lesen und zu schreiben, wird uns helfen, die Leistung zu steigern und neue Möglichkeiten für die nahtlose Integration von Daten in unser Analytik-Ökosystem zu schaffen. Diese Interoperabilität, kombiniert mit den Leistungsverbesserungen, macht S3 Tables zu einem zentralen Bestandteil unserer zukünftigen Strategie, schnelle, flexible und zuverlässige Dateneinblicke bereitzustellen.

    Glenn Nethercutt, Chief Technology Officer – Genesys
  • Pendulum

    Pendulum ist eine Brand-Intelligence-Plattform, die die weltweit umfassendste Abdeckung von Video-, Audio- und Textinhalten bietet, um Risiken und Chancen proaktiv zu identifizieren und so eine bessere Entscheidungsfindung und Überwachungsanalytik im gesamten Unternehmen zu ermöglichen.

    Bei Pendulum Intelligence analysieren wir Daten aus Hunderten von Millionen von sozialen Kanälen und Quellen. Amazon S3 Tables hat die Art und Weise verändert, wie wir unseren Data Lake verwalten. Es verarbeitet Tausende von Stunden analysierter Video- und Audioinhalte und extrahiert gleichzeitig mithilfe unserer firmeneigenen Machine-Learning-Tools den Kontext aus Bildern und anderen Medien nahezu in Echtzeit. Da der Aufwand der Tabellenverwaltung, einschließlich Komprimierung, Snapshots und Dateibereinigung, entfällt, kann sich unser Team auf das konzentrieren, was am wichtigsten ist: das Ableiten umsetzbarer Erkenntnisse aus riesigen Datensätzen. Die nahtlose Integration in unseren Analytik-Stack – Amazon Athena, AWS Glue und Amazon EMR – hat unsere Fähigkeit, komplexe Daten in großem Maßstab zu verarbeiten, erheblich verbessert.

    Abdurrahman Elbuni, Cloud Big Data Architect – Pendulum
  • SnapLogic

    SnapLogic ist ein Pionier der KI-gestützten Integration. Die SnapLogic-Plattform für generative Integration beschleunigt die digitale Transformation im gesamten Unternehmen, um KI-Agenten und Integrationen zu entwerfen, bereitzustellen und zu verwalten, die Aufgaben automatisieren, Entscheidungen in Echtzeit treffen und sich mühelos in bestehende Workflows integrieren lassen.

    Amazon S3 Tables mit integrierter Apache-Iceberg-Unterstützung und AWS-Analytik-Services-Integration helfen Unternehmen dabei, ihre Datenanalytik-Kosten zu optimieren und gleichzeitig die Art und Weise zu verändern, wie sie Geschäftsdaten für Analytik, Compliance und KI-Initiativen verwenden. Durch die Automatisierung komplexer Datenverwaltungsaufgaben und die Bereitstellung vollständiger Audit Trails von Datenänderungen können Teams historische Daten sofort analysieren, behördliche Compliance sicherstellen und Geschäftseinblicke beschleunigen, während sie gleichzeitig ihre Technologiekosten erheblich senken.

    Dominic Wellington, Enterprise Architect – SnapLogic
  • Zus Health

    Zus ist eine gemeinsame Gesundheitsdatenplattform, die entwickelt wurde, um die Interoperabilität von Gesundheitsdaten zu beschleunigen, indem benutzerfreundliche Patientendaten über API, eingebettete Komponenten und direkte EHR-Integrationen bereitgestellt werden.

    Als Gesundheitsunternehmen, das riesige Mengen sich häufig ändernder Patientendaten verarbeitet, haben wir uns für eine Investition in Apache Iceberg entschieden, da es mit Apache Hive viele Probleme rund um Partitionierung und Automatisierung löst und den zusätzlichen Vorteil einer umfassenderen Interoperabilität bietet. Eine unserer größten Herausforderungen mit Iceberg war es, die Tabellenoptimierung zu verstehen und zu verwalten. Aus diesem Grund sind wir von S3 Tables und den verwalteten Optimierungsfunktionen begeistert. Da wir in der Lage sind, die Entwickler von der Tabellenpflege zu entlasten, können wir uns stärker darauf konzentrieren, unseren Kunden hochwertige Daten und wertvolle Erkenntnisse zu liefern.

    Sonya Huang, Consulting Software Engineer – Zus Health

Partner und Integrationen

  • Daft

    Daft ist eine einheitliche Engine für Datentechnik, Analytik und ML/KI, die sowohl SQL- als auch Python-DataFrame-Schnittstellen als erstklassige Bürger bereitstellt und in Rust geschrieben ist. Daft bietet ein schnelles und reizvolles lokales interaktives Erlebnis und lässt sich gleichzeitig nahtlos auf verteilte Workloads im Petabyte-Bereich skalieren.

    Amazon S3 Tables ist die perfekte Ergänzung zu Dafts Unterstützung für Apache Iceberg. Durch die Nutzung der Integrationen mit AWS Lake Formation und AWS Glue konnten wir unsere bestehenden Lese- und Schreibfunktionen von Iceberg mühelos auf S3 Tables erweitern und gleichzeitig die optimierte Leistung nutzen. Wir freuen uns auf die Entwicklung dieses neuen Services und darauf, die beste S3-Tables-Unterstützung für das Python-Data-Engineering- und ML/KI-Ökosystem anbieten zu können.

    Sammy Sidhu, CEO & Co-Founder – Daft
  • Dremio

    Dremio ist die intelligente Lakehouse-Plattform, die KI und Analytik beschleunigt, indem sie eine marktführende SQL-Engine, einen offenen, interoperablen Datenkatalog und eine sichere, skalierbare und benutzerfreundliche Plattform bietet. Unsere führende Position in den Apache-Iceberg-, Apache-Polaris- (Incubating) und Apache-Arrow-Communitys ermöglicht es Unternehmen, vollständig offene, leistungsstarke Lakehouse-Architekturen zu entwickeln und gleichzeitig Flexibilität und Kontrolle zu wahren, sodass eine Bindung an einen bestimmten Anbieter entfällt.

    Dremio freut sich, die allgemeine Verfügbarkeit von Amazon S3 Tables zu unterstützen. Durch die Unterstützung der Apache Iceberg REST Catalog (IRC)-Spezifikation gewährleisten S3 Tables eine nahtlose Interoperabilität mit Dremio, sodass Benutzer von einer leistungsstarken SQL-Engine profitieren können, die in optimierten S3-Table-Buckets verwaltete Apache-Iceberg-Tabellen abfragen kann. Diese Zusammenarbeit unterstreicht die Bedeutung offener Standards im Lakehouse-Ökosystem, wodurch die Komplexität der Integration verringert und die Kundenakzeptanz beschleunigt wird. Mit Amazon S3 Tables und IRC-Unterstützung erhalten Unternehmen die Flexibilität und Auswahl, die sie benötigen, um im KI-Zeitalter eine einheitliche Lakehouse-Architektur aufzubauen.

    James Rowland-Jones, VP, Product – Dremio
  • DuckDB Labs

    DuckDB Labs ist das Unternehmen, das von den Machern von DuckDB, einem beliebten universellen Tool zum Daten-Wrangling, gegründet wurde. Das Unternehmen beschäftigt die wichtigsten Mitwirkenden am DuckDB-System. DuckDB ist kostenlose Open-Source-Software unter der MIT-Lizenz und wird von der unabhängigen gemeinnützigen DuckDB Foundation verwaltet. Das DuckDB-Projekt macht schnelle analytische Verarbeitung durch seine Benutzerfreundlichkeit und Portabilität einem breiten Publikum zugänglich.

    Amazon S3 Tables passt perfekt zur Vision von DuckDB, Datenanalytik mithilfe offener Dateiformate zu demokratisieren. Die Zusammenarbeit zwischen AWS und DuckDB Labs ermöglicht es uns, die Iceberg-Unterstützung in DuckDB weiter auszubauen und eine nahtlose Integration mit S3 Tables zu entwickeln. Wir glauben, dass sich die gemeinsame Mentalität von DuckDB und S3 Tables zu einem leistungsstarken Analytik-Stack zusammenfügt, der eine Vielzahl von Workloads bewältigen kann und gleichzeitig eine unglaublich niedrige Einstiegshürde beibehält.

    Hannes Mühleisen, Chief Executive Officer – DuckDB Labs
  • HighByte

    HighByte ist ein Unternehmen für industrielle Software, das sich mit den Herausforderungen der Datenarchitektur und -integration befasst, mit denen globale Hersteller bei der digitalen Transformation konfrontiert sind. HighByte Intelligence Hub, die bewährte Industrial-DataOps-Software des Unternehmens, stellt mithilfe einer codefreien Schnittstelle modellierte, gebrauchsfertige Daten für AWS-Cloud-Services bereit, um die Integrationszeit zu verkürzen und Analytik zu beschleunigen.

    Amazon S3 Tables ist ein leistungsstarkes neues Feature, das die Verwaltung, Leistung und Speicherung von Tabellendaten für Analytik-Workloads optimiert. Die direkte Integration von HighByte Intelligence Hub in Amazon S3 Tables erleichtert es globalen Herstellern, einen offenen, transaktionalen Data Lake für ihre Industriedaten aufzubauen. S3 Tables ermöglichen die sofortige Abfrage von Parquet-Rohdaten, sodass Kunden kontextualisierte Informationen vom Edge zur sofortigen Verwendung ohne zusätzliche Verarbeitung oder Transformationen senden können. Dies hat große Auswirkungen sowohl auf die Leistungs- als auch auf die Kostenoptimierung für unsere gemeinsamen Kunden.

    Aron Semle, Chief Technology Officer – HighByte
  • PuppyGraph

    PuppyGraph ist die erste Null-ETL-Graphenabfrage-Engine in Echtzeit, mit der Datenteams innerhalb von Minuten bestehende Lakehouse als Graph abfragen können – ohne kostspielige Migration oder Wartung. Es skaliert auf Petabyte-große Datensätze und führt komplexe Multi-Hop-Abfragen in Sekundenschnelle aus und unterstützt so Anwendungsfälle von der Betrugserkennung über Cybersicherheit bis hin zu KI-gestützten Erkenntnissen.

    Amazon S3 ist seit langem die Grundlage einer modernen Dateninfrastruktur, und die Einführung von S3 Tables ist ein wichtiger Meilenstein, der Apache Iceberg dem universellen Standard für Daten und KI näher bringt. Diese Innovation ermöglicht es Unternehmen, leistungsstarke, offene Tabellenformate in S3 zu nutzen und so Analytik mit mehreren Engines ohne Datenduplizierung zu ermöglichen. Für PuppyGraph-Kunden bedeutet dies, dass sie jetzt Grafikabfragen in Echtzeit direkt auf ihren S3-Daten ausführen können und so neue, skalierbare Erkenntnisse ohne den Aufwand komplexer ETL erhalten. Wir freuen uns, Teil dieser Entwicklung zu sein und die Graphenanalytik so nahtlos wie die Daten selbst zu machen.

    Weimo Liu, Co-founder & CEO – PuppyGraph
  • Snowflake

    Snowflake macht Unternehmens-KI einfach, vernetzt und vertrauenswürdig. Tausende von Unternehmen auf der ganzen Welt, darunter Hunderte der weltweit größten, nutzen die AI Data Cloud von Snowflake, um Daten auszutauschen, Anwendungen zu entwickeln und ihr Geschäft mit KI voranzutreiben.

    Wir freuen uns, die Magie von Snowflake auf Amazon S3 Tables zu übertragen. Diese Zusammenarbeit ermöglicht es Snowflake-Kunden, in S3 Tables gespeicherte Daten mithilfe ihrer vorhandenen Snowflake-Setups nahtlos zu lesen und zu verarbeiten, sodass keine komplexen Datenmigrationen oder Duplikate erforderlich sind. Durch die Kombination der erstklassigen Leistungsanalytikfunktionen von Snowflake mit der effizienten Speicherung von Apache-Iceberg-Tabellen von Amazon S3 Tables können Unternehmen auf einfache Weise in Amazon S3 gespeicherte Tabellendaten abfragen und analysieren.

    Rithesh Makkena, Global Director of Partner Solutions Engineering – Snowflake
  • Starburst

    Starburst unterstützt die grundlegende Datenarchitektur, die für Analytik, KI und Datenanwendungen benötigt wird. Es verwendet eine hybride Data-Lakehouse-Umgebung, die von Apache Iceberg unterstützt wird, um Zugriff, Zusammenarbeit und Governance in großem Maßstab zu ermöglichen.

    Wir freuen uns sehr, dass Amazon S3 die integrierte Unterstützung für Apache Iceberg mit S3 Tables einführt und damit das Iceberg-Open-Data-Lakehouse-Ökosystem weiterentwickelt. Mit S3-Table-Buckets freuen wir uns auf die Zusammenarbeit mit AWS, um unseren gemeinsamen Kunden dabei zu helfen, die Leistung eines Open Lakehouse auf Basis des optimierten Trino – einer führenden Open-Source-MPP-SQL-Engine – für verschiedene Analytik- und KI-Anwendungsfälle in Daten in Amazon S3 nutzbar zu machen.

    Matt Fuller, Vice President, Product – Starburst
  • StreamNative

    StreamNative ist eine Messaging- und Streaming-Plattform, die KI und Analytik mit kostengünstiger, leistungsstarker Datenerfassung unterstützt. Die StreamNative-Ursa-Engine ermöglicht es Unternehmen, die Gesamtbetriebskosten (TCO) um 90 % zu senken – dank Kafka-Kompatibilität, einer führenden Architektur und Lakehouse-nativem Speicher, sodass KI-fähige Daten in großem Umfang zugänglich sind.

    Unsere Integration in Amazon S3 Tables macht KI-fähige Echtzeitdaten offener und zugänglicher als je zuvor. Die führende Architektur von Ursa in S3 reduziert bereits die Speicherkosten, und die direkte Integration mit S3 Tables verbessert die Leistung und Effizienz weiter. In einer KI-gesteuerten Welt ist Daten-Governance von entscheidender Bedeutung. Bei StreamNative setzen wir uns dafür ein, Unternehmen dabei zu unterstützen, ihre Gesamtbetriebskosten um 90 % zu senken und gleichzeitig die Entwicklung KI-gestützter Anwendungen mit kontrollierten Echtzeitdaten mühelos und erschwinglich zu machen.

    Sijie Guo, CEO & Co-Founder – StreamNative