AWS-Glue-Features

Warum Glue?

AWS Glue ist ein skalierbarer Serverless-Datenintegrationsservice, der das Erkennen, Aufbereiten, Verschieben und Integrieren von Daten aus verschiedenen Quellen für Analysen, Machine Learning und Anwendungsentwicklung erleichtert. AWS Glue bietet alle nötigen Funktionen für die Datenintegration, durch die Sie Erkenntnisse gewinnen und Daten in Minuten statt Monaten verwerten können. Für AWS Glue müssen Sie keine Infrastruktur einrichten oder verwalten. Sie zahlen nur für die Ressourcen, die Sie verbrauchen, während Ihre Jobs laufen.

Discover

Der AWS-Glue-Datenkatalog ist Ihr dauerhafter Metadatenspeicher für alle Ihre Daten, unabhängig davon, wo diese gespeichert sind. Der Datenkatalog enthält Tabellendefinitionen, Jobdefinitionen, Schemata und andere Kontrollinformationen, die Ihnen helfen, Ihre AWS Glue-Umgebung zu verwalten. Er berechnet automatisch Statistiken und registriert Partitionen, um Anfragen zu Ihren Daten effizient und kostengünstig zu gestalten. Er unterhält auch einen umfangreichen Schemaversionsverlauf, damit Sie verstehen, wie sich Ihre Daten im zeitlichen Verlauf geändert haben.

AWS Glue-Datenausleseprogramme (sog. Crawler) verbinden sich mit Ihrem Quell- oder Zieldatenspeicher und durchlaufen eine priorisierte Liste von Klassifikatoren, um das Schema für Ihre Daten zu bestimmen und anschließend Metadaten in Ihrem AWS Glue Datenkatalog zu erstellen. Die Metadaten werden in Tabellen in Ihrem Datenkatalog gespeichert und für den Erstellungsprozess Ihrer Extract, Transform und Load-Aufträge (ETL) verwendet. Sie können die Crawler anhand eines Zeitplans, On-Demand oder ereignisgesteuert auslösen, um sicherzustellen dass Ihre Metadaten aktuell sind.

AWS Glue Schema Registry, eine Serverless-Funktion von AWS Glue, hilft Ihnen die Entwicklung von Streaming-Daten mit registrierten Apache Avros-Schemas ohne Aufpreis zu validieren und zu steuern. Durch Apache-lizensierte Serializer und Deserializer, ist AWS Glue Schema Registry in Java-Anwendungen integriert, die für Apache Kafka/ Amazon Managed Streaming for Apache Kafka (Amazon MSK), Amazon Kinesis Data Streams, Apache Flink/Amazon Kinesis Data Analytics for Apache Flink und AWS Lambda entwickelt wurden. Wenn Daten-Streaming-Anwendungen mit AWS Glue Schema Registry integriert werden, können Sie die Datenqualität verbessern und sich gegen unerwartete Änderungen schützen, indem Sie Kompatibilitätsprüfungen verwenden, die die Schemaentwicklung steuern. Des Weiteren können Sie AWS-Glue-Tabellen und -Partitionen mit Schemata erstellen oder aktualisieren, die in der Registry gespeichert sind.

Auto Scaling, eine Serverless-Funktion in AWS Glue, skaliert Ressourcen dynamisch auf und ab, je nach Workload. Beim Auto Scaling werden Ihrem Auftrag nur bei Bedarf Worker zugewiesen. Während der Auftrag fortschreitet und erweiterte Transformationen durchläuft, fügt AWS Glue Ressourcen hinzu und entfernt sie, je nachdem, wie sehr es die Workload aufteilen kann. Sie müssen sich nicht mehr um eine zu große Bereitstellung von Ressourcen kümmern, Zeit für die Optimierung der Anzahl der Worker aufwenden oder für ungenutzte Ressourcen bezahlen.

Vorbereiten

AWS Glue hilft Ihnen dabei, Ihre Daten zu bereinigen und für die Analyse vorzubereiten, ohne dass Sie ein ML-Experte werden müssen. Die FindMatches-Funktion dedupliziert und findet Datensätze, die nicht perfekt miteinander übereinstimmen. Sie können FindMatches etwa verwenden, um doppelte Datensätze in Ihrer Restaurantdatenbank zu finden, zum Beispiel, wenn ein Datensatz „Joe‘s Pizza“ unter „121 Main St.“ und ein anderer „Joseph‘s Pizzeria“ unter „121 Main“ aufführt. FindMatches fordert Sie auf, Datensätze entweder als "übereinstimmend" oder als "nicht übereinstimmend" zu kennzeichnen. Das System erlernt dann Ihre Kriterien, nach denen Datensätze "übereinstimmen" und erstellt eine ETL-Aufgabe, die Sie zur Ermittlung doppelter Datensätze in einer Datenbank oder zum Abgleich von Datensätzen in zwei Datenbanken verwenden können.

Wenn Sie sich dafür entscheiden, Ihren ETL-Code interaktiv zu entwickeln, stellt Ihnen AWS Glue Entwicklungsendpunkte zum Editieren, Debuggen und Testen des für Sie generierten Codes zur Verfügung. Sie können Ihre bevorzugte integrierte Entwicklungsumgebung (IDE) oder Ihr bevorzugtes Notebook verwenden. Sie können benutzerdefinierte Leser, Schreiber oder Transformationen schreiben und diese in Ihre AWS Glue ETL-Jobs und benutzerdefinierten Bibliotheken importieren. Über unser GitHub-Repository können Sie auch den Code anderer Entwickler verwenden oder Ihren Code teilen.

AWS Glue DataBrew bietet eine interaktive, visuelle Point-and-Click-Oberfläche für Benutzer wie Datenanalysten und Daten-Wissenschaftler, um Daten zu bereinigen und zu normalisieren, ohne Code zu schreiben. Sie können Daten direkt aus Ihren Data Lake, Data Warehouses und Datenbanken, einschließlich Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Aurora und Amazon Relational Database Service (Amazon RDS), einfach visualisieren, bereinigen und normalisieren. Sie können aus über 250 eingebauten Transformationen wählen, um die Daten zu kombinieren, zu schwenken und zu transponieren und um Datenvorbereitungs-Aufgaben zu automatisieren, indem Sie gespeicherte Transformationen direkt auf die neu eingehenden Daten anwenden.

AWS Glue Sensitive Data Detection hilft Ihnen, sensible Daten in Ihrer Data Pipeline und Data Lake zu definieren, zu identifizieren und zu verarbeiten. Nach der Identifizierung können Sie sensible Daten sanieren, indem Sie personenbezogene Daten und andere als sensibel eingestufte Datentypen unkenntlich machen, ersetzen oder melden. AWS Glue Sensitive Data Detection vereinfacht die Identifizierung und Maskierung sensibler Daten, inklusive PII wie Name, Sozialversicherungsnummer, Adresse, E-Mail und Führerschein.

Entwickler wissen Python für die einfache Nutzung und umfassende Sammlung von integrierten Datenverarbeitungsbibliotheken von Python zu schätzen. Sie möchten den vertrauten primitiven Python-Typ für die Verarbeitung großer Datensätze verwenden. Daten-Ingenieure können mit AWS Glue for Ray große Datensätze mit Python und gängigen Python-Bibliotheken verarbeiten. AWS Glue for Ray verwendet Ray.io, ein vereinheitlichtes Open-Source-Framework für die Datenverarbeitung, mit dem sich Python-Workloads von einem einzelnen Knoten auf Hunderte von Knoten skalieren lassen. AWS Glue for Ray ist ein Serverless-Service. Deshalb muss keine Infrastruktur verwaltet werden.

Mit AWS Glue können Sie benutzerdefinierte visuelle Transformationen erstellen, damit Sie ETL-Logik definieren, wiederverwenden und teilen können. Mit den benutzerdefinierten visuellen Transformationen von AWS Glue können Data Engineers eine unternehmensspezifische Apache-Spark-Logik schreiben und teilen. So lässt sich die Abhängigkeit von Spark-Entwicklern reduzieren und es wird einfacher, ETL-Jobs auf den neuesten Stand zu halten. Diese Transformationen, ob visuell oder codebasiert, sind für alle Jobs in Ihrem AWS-Konto verfügbar.

Integration

AWS Glue Interactive Sessions, eine Serverless-Funktion zur Auftragsentwicklung, vereinfacht die Entwicklung von Datenintegrations-Aufträgen. Mit AWS Glue Interactive Sessions können Datentechniker, Daten interaktiv untersuchen und aufbereiten. Mit der IDE oder dem Notebook ihrer Wahl können Techniker auch Daten interaktiv untersuchen, mit ihnen experimentieren und sie verarbeiten.

Auftrags-Notebooks von AWS Glue Studio bieten Serverless-Notebooks mit minimaler Einrichtung in AWS Glue Studio, damit Entwickler schnell loslegen können. Mit AWS Glue Studio Job Notebooks haben Sie Zugriff auf eine integrierte Oberfläche für AWS Glue Interactive Sessions, in der Sie Ihren Notebook-Code als AWS-Glue-Aufträge speichern und planen können.

AWS Glue-Jobs können anhand eines Zeitplans, On-Demand oder ereignisgesteuert aktiviert werden. Sie können mehrere Jobs parallel starten oder Abhängigkeiten zwischen Jobs festlegen, um komplexe ETL-Pipelines aufzubauen. AWS Glue bearbeitet alle Abhängigkeiten zwischen Jobs, filtert schlechte Daten aus und startet Jobs neu, falls diese fehlschlagen. Alle Protokolle und Benachrichtigungen werden zu Amazon CloudWatch übertragen, sodass Sie von einem zentralen Service aus Kontrolle ausüben und Warnmeldungen erhalten können.

AWS Glue integriert mit Git, dem weit verbreiteten Open-Source-Versionskontrollsystem. Sie können GitHub und AWS CodeCommit verwenden, um einen Änderungsverlauf ihrer AWS-Glue-Aufträge aufzuzeichnen und bestehende DevOps-Methoden anzuwenden, um diese Aufträge auszuführen. Die Git-Integration in AWS Glue funktioniert für alle AWS-Glue-Auftragstypen, ob visuell oder codebasiert. Sie umfasst die integrierte Integration mit sowohl GitHub als auch CodeCommit und erleichtert auch die Verwendung von Automatisierungstools wie Jenkins und AWS CodeDeploy zum Bereitstellen von AWS-Glue-Aufträgen.

AWS Glue Flex ist eine flexible Auftragsklasse, mit der Sie die Kosten Ihrer nicht dringenden Datenintegrationsarbeitslasten (z. B. Vorproduktionsaufträge, Tests und Datenlasten) um bis zu 35 % senken können. AWS Glue hat zwei Auftragsausführungsklassen: Standard und Flexibel. Die Standardausführungsklasse ist ideal für zeitkritische Workloads, die einen schnellen Auftragsstart und dedizierte Ressourcen erfordern. AWS Glue Flex eignet sich für nicht zeitkritische Aufträge, deren Start- und Abschlusszeiten variieren können.

AWS Glue unterstützt nativ drei Open-Source-Frameworks, einschließlich Apache Hudi, Apache Iceberg und Linux Foundation Delta Lake. Mit diesen Frameworks können Sie Daten transaktionsübergreifend konsistent verwalten, um sie in Ihrem Data Lake zu verwenden, der auf Amazon S3 basiert.

AWS Glue Data Quality hilft Ihnen, Ihre Datenqualität und Ihr Vertrauen zu verbessern. Es misst, überwacht und verwaltet automatisch die Datenqualität in Ihren Data Lakes und Pipelines. Außerdem berechnet es automatisch Statistiken, empfiehlt Qualitätsregeln, überwacht und warnt Sie, wenn sich die Qualität verschlechtert. So können Sie fehlende, veraltete oder schlechte Daten leichter erkennen, bevor sie sich auf Ihr Geschäft auswirken.

Transformation

Mit AWS Glue Studio können Sie hochgradig skalierbare ETL-Aufgaben für die verteilte Verarbeitung erstellen, ohne ein Apache-Spark-Experte zu werden. Definieren Sie Ihren ETL-Prozess im Drag-and-Drop-Aufgaben-Editor und AWS Glue generiert automatisch den Code zum Extrahieren, Transformieren und Laden Ihrer Daten. Der Code wird in Scala oder Python erstellt und für Apache Spark geschrieben.

Serverlose ETL-Streaming-Aufgaben in AWS Glue verbrauchen kontinuierlich Daten aus Streaming-Quellen wie Amazon Kinesis und Amazon MSK, bereinigen und transformieren sie während der Übertragung und stellen sie in Sekundenschnelle in Ihrem Zieldatenspeicher zur Analyse bereit. Nutzen Sie diese Funktion, um Ereignisdaten wie IoT Event-Streams, Clickstreams und Netzwerkprotokolle zu verarbeiten. Streaming-ETL-Aufträge von AWS Glue können Daten ergänzen und aggregieren, Batch- und Streaming-Quellen verbinden und eine Vielzahl komplexer Analytik- und Machine-Learning-Vorgänge ausführen.