Amazon OpenSearch Ingestion

Daten in großem Maßstab aufnehmen, transformieren und an Amazon-OpenSearch-Domänen und serverlose Sammlungen weiterleiten

Warum Amazon-OpenSearch-Service-Datenerfassung?

Amazon OpenSearch Ingestion ist eine Funktion von Amazon OpenSearch Service, mit der Sie Daten erfassen, filtern, transformieren, anreichern und an eine Amazon-OpenSearch-Domäne oder eine serverlose Sammlung weiterleiten können. Amazon OpenSearch Ingestion ist in der Lage, Daten aus einer Vielzahl von Quellen zu erfassen und verfügt über ein umfangreiches Ökosystem integrierter Prozessoren, um Ihre komplexesten Anforderungen an die Datentransformation zu erfüllen. Amazon OpenSearch Ingestion ist von Natur aus serverlos und skaliert automatisch, um die Anforderungen Ihrer anspruchsvollsten Workloads zu erfüllen. So können Sie sich auf Ihre Geschäftslogik konzentrieren und gleichzeitig die Komplexität der Verwaltung komplexer Datenpipelines für Ihre Observabilitäts- und Sicherheitsanwendungsfälle reduzieren.

Vorteile von Amazon OpenSearch Service

Realisieren Sie die Speicherkosten, indem Sie Daten deduplizieren, Stichproben durchführen und sie an kostengünstigere Speicher weiterleiten.
Sorgen Sie für die Datenqualität, indem Sie Daten mit integrierten Prozessoren transformieren, filtern und anreichern und Schemas anwenden, um die Beobachtbarkeit zu beschleunigen und die Zeit für Sicherheitsuntersuchungen zu verkürzen.
Schützen Sie sensible Daten, indem Sie vertrauliche Informationen schwärzen und verschleiern, bevor sie ein Ziel erreichen.
Leiten Sie Daten mithilfe von Bedingungslogik weiter, um die Einhaltung der Gesetze zum Datenspeicherort zu gewährleisten.

Wichtigste Funktionen

AWS ist ein führender Mitwirkender des OpenSearch-Projekts, das viele Kunden nutzen. Mit diesem verwalteten Service erhalten Sie alle neuen Innovationen für OpenSearch Data Prepper. Neben diesen Funktionen, die von der Community vorangetrieben werden und zu denen sie beiträgt, bietet Amazon OpenSearch Ingestion Service auch diese Möglichkeiten:

  • AWS-verwaltete Software-Installation und -Patching
  • AWS überwacht und repariert den Service, 24x7
  • AWS aktualisiert Versionen
  • Keine Ausfallzeiten für Updates und Upgrades
  • Verfügbarkeits-SLA: 99,9 %
  • Serverless, mit automatischer Skalierung für Erfassungs-Workloads

Kunden und Partner

CyberArk Kundenrezension

„Bei CyberArk EPM (Endpoint Privilege Manager), einem cloudbasierten Multi-Tenant-System, verwalten wir Millionen von Endpunkten und erfassen mithilfe von AWS OpenSearch Datenereignisse mit hohem Datenverkehr. Durch die Nutzung von Amazon OpenSearch Ingestion haben wir unsere vorherige selbstverwaltete Logstash-Pipeline durch eine von AWS verwaltete Pipeline ersetzt. Dadurch entfällt der Aufwand für die Verwaltung unserer eigenen Infrastruktur und wir erhielten eine skalierbarere, kostengünstigere, zuverlässigere und sicherere Architektur für unsere Datenaufnahme. Diese Entscheidung wurde mit dem zusätzlichen Vorteil getroffen, dass CyberArk EPM den FedRAMP-High-In-Process-Status erreicht hat, während Amazon OpenSearch Ingestion bereits FedRAMP-konform ist, sodass wir ein hohes Maß an Sicherheit in unserem Angebot aufrechterhalten können.“

Ori Doolman, Leitender Softwarearchitekt – CyberArk EPM

CyberArk-Logo

Calyptia Kundenrezension

„Bei Calyptia arbeiten wir seit mehr als 12 Jahren als Entwickler und Betreuer des Cloud-Native-Computing-Foundation-Projekts Fluentd und Fluent Bit mit der Datenerfassung. Mit den neuesten Versionen dieser Projekte freuen wir uns, dass Benutzer mit der Kombination aus den Fluent-Projekten und dem OpenSearch Ingestion Service auf ihrer ersten Meile mehr Kontrolle erhalten. Mit dem Ingestion-Service können Benutzer Agenten und Verarbeitung weiter skalieren, ohne sich um die Verwaltung und Wartung der Infrastruktur kümmern zu müssen.“

Anurag Gupta, Mitbegründer – Calyptia

Calyptia-Logo

Confluent Kundenbewertung

„Wir freuen uns sehr, mit dem Amazon-OpenSearch-Team bei der Entwicklung seines OpenSearch-Ingestion-Service zusammenzuarbeiten, der eine native Integration mit Apache Kafka und Confluent ermöglicht. Diese Integration wird unseren gemeinsamen Kunden helfen, über Apache Kafka innerhalb von OpenSearch auf Echtzeitdaten zuzugreifen, sodass sie das Kundenerlebnis überdenken, Backend-Operationen in Echtzeit aufbauen oder neue Produkte und Services auf den Markt bringen können. Als führender Anbieter von Apache Kafka hat Confluent Kafka verzehnfacht, indem es eine vollständige und cloudnative Datenstreaming-Plattform entwickelt hat, die es Ihnen ermöglicht, Daten von überall, wo sie erstellt wurden, dorthin zu verschieben, wo Unternehmen in der Multi-SaaS-Welt, in der wir alle leben, handeln können. Auf diese Weise können OpenSearch-Benutzer von den Hunderten von Datenquellen profitieren, in die Confluent integriert ist. Wir freuen uns darauf, zu sehen, was unsere gemeinsamen Kunden entwickeln, wenn sie mit Confluent und OpenSearch Daten in Bewegung setzen.“

Paul Mac Farland, VP für Partner- und Innovationsökosystem – Confluent

Logo von Confluent

Häufig gestellte Fragen zur Einnahme

Amazon OpenSearch Ingestion ist eine Datenaufnahmeebene, mit der Sie Daten filtern, anreichern, transformieren, normalisieren und aggregieren können, um sie anschließend in Amazon-OpenSearch-Domänen und Amazon-OpenSearch-Serverless-Sammlungen zu analysieren und zu visualisieren. Amazon OpenSearch Ingestion ermöglicht es Ihnen, benutzerdefinierte Datenpipelines zu erstellen, um den betrieblichen Überblick über Ihre Anwendungen zu verbessern. Der serverlose Charakter von Amazon OpenSearch Ingestion reduziert die Komplexität selbstverwaltender Datenpipelines und stellt sicher, dass die Verarbeitungskapazitäten Ihrer Datenpipelines automatisch entsprechend den Anforderungen Ihrer Workloads skaliert werden. Mit Amazon OpenSearch Ingestion können Sie

  • Realisieren Sie die Speicherkosten durch Datendeduplizierung und Sampling, um zu verhindern, dass verrauschte Daten in Amazon OpenSearch indexiert werden.
  • Sorgen Sie für die Datenqualität und übernehmen Sie allgemeine Schemas, indem Sie Daten transformieren, formatieren und anreichern, bevor sie in Amazon-OpenSearch-Domänen indexiert werden, um die Behebung von Problemen zu erleichtern.
  • Schwärzen oder verschleiern Sie vertrauliche Informationen, bevor sie ein Ziel erreichen, um die Einhaltung der Gesetze zum Datenspeicherort zu gewährleisten.

Eine Amazon-OpenSearch-Ingestion-Pipeline besteht aus drei Hauptkomponenten:

  • Quelle ist die Eingabekomponente einer Pipeline. Es definiert den Mechanismus, durch den eine Pipeline Datensätze verbraucht. Die Quelle kann Datensätze verarbeiten, indem sie entweder Daten über http/s empfängt oder von externen Endpunkten eines Drittanbieters liest.
  • Prozessoren sind Zwischenverarbeitungseinheiten, die Datensätze filtern, transformieren und in ein gewünschtes Format anreichern können, bevor sie an der Senke veröffentlicht werden. Der Prozessor ist eine optionale Komponente einer Pipeline. Wenn Sie keinen Prozessor definieren, werden Datensätze in dem Format veröffentlicht, das in der Quelle definiert ist. Sie können mehr als einen Prozessor haben. Prozessoren werden in der Reihenfolge ausgeführt, in der Sie sie in der Pipeline definieren.
  • Die Senke ist die Ausgangskomponente einer Pipeline. Es definiert ein oder mehrere Ziele, an denen eine Pipeline Datensätze veröffentlicht. Eine Senke kann auch eine weitere Pipeline sein, mit der Sie mehrere Pipelines miteinander verketten können.

Amazon OpenSearch unterstützt die Erfassung aller Arten von Daten, die Sie normalerweise in einer Amazon-OpenSearch-Domäne indexieren würden. Dies beinhaltet, ist aber nicht beschränkt auf strukturierte, unstrukturierte, textuelle, numerische und georäumliche Daten. OpenSearch Ingestion unterstützt auch die Erfassung aller drei Säulen der Beobachtbarkeitsdaten: Protokolle, Metriken und Nachverfolgungen. Sie können OpenSearch Ingestion zusammen mit seiner Unterstützung für ein umfangreiches Ökosystem aus Datenquellen, Prozessoren und Senken verwenden, um Ihre Daten zu transformieren, bevor Sie sie in Amazon-OpenSearch-Domänen speichern. Mit OpenSearch Ingestion müssen Sie keine benutzerdefinierten Lambda-Funktionen mehr schreiben oder Logstash- und Elasticsearch-Ingest-Knoten selbst verwalten, um Daten aufzunehmen, die in Amazon-OpenSearch-Clustern indexiert werden müssen. Auf unserer Dokumentationsseite finden Sie eine Liste der von Amazon OpenSearch Ingestion unterstützten Quellen, Prozessoren und Senken.

Amazon OpenSearch Ingestion ist eine Datenerfassungsebene, die Daten vorverarbeitet, bevor die Daten in Amazon OpenSearch Service indexiert werden. OpenSearch Ingestions basiert auf Data Prepper, einem Bestandteil des OpenSearch-Projekts und unterstützt alle von Data Prepper unterstützten Datenformate, Quellen, Prozessoren und Senken.

Um mit Amazon OpenSearch Ingestion zu beginnen, definieren Sie zunächst eine Datenpipeline. Eine OpenSearch-Ingestion-Pipeline ist das Herzstück Ihrer Geschäftslogik und besteht aus einer Quelle, einem oder mehreren Prozessoren und einer Senke. Sie definieren Ihre Pipeline-Konfiguration über eine YAML-Datei, die Details zu Ihrer Quelle, Prozessoren und Senken enthält. Mit OpenSearch Ingestion können Sie auch eine Mindest- und Maximalkapazität der OpenSearch Compute Units for Ingestion (OCUs) einrichten, die Sie pro Pipeline festlegen möchten. Schließlich können Sie wählen, wie Ihre Daten Ihre OpenSearch-Ingestion-Pipelines erreichen:

  • VPC-Zugriff: Für den VPC-Zugriff stellen wir einen privaten Link von Ihrer VPC zur Amazon-OpenSearch-Ingestion-Pipeline her. Dies bietet eine private Konnektivität zu Ihren Pipelines, ohne dass Ihr Datenverkehr dem öffentlichen Internet ausgesetzt wird.
  • Öffentlicher Zugriff: In dieser Netzwerkkonfiguration fließen Ihre Daten zu Ihren OpenSearch-Pipelines über das öffentliche Internet.

Sie können mit der Erstellung einer Datenpipeline über die AWS-Konsole oder die AWS-Befehlszeile beginnen.