Finden und beheben Sie Probleme effizient, verbessern Sie den Zustand von Anwendungen und das Kundenerlebnis.
Drei grundlegende Signale für die Beobachtbarkeit sind Metriken, Protokolle (halbstrukturierte Daten) und Traces (Abläufe von Anfragen von Anfang bis Ende über alle Abhängigkeiten hinweg). Diese Signale sind die Ausgabe von überwachten Umgebungen, wie Containern, Microservices und Anwendungen. Ziel ist es, DevOps und Site Reliability Engineers ein integriertes Erlebnis zu bieten, um kritische Ereignisse zu isolieren und alle Beobachtungssignale zu nutzen, um Probleme bei containerisierten Anwendungen und Microservices, die überall laufen, zu isolieren. Amazon OpenSearch Service kombiniert die Analyse von Protokoll- und Trace-Daten in einer einzigen Lösung.
Beobachtbarkeitsoperationen
Amazon OpenSearch Service bietet neue Funktionen, die Ihnen bei der Lösung Ihrer Beobachtungsprobleme helfen.
Funktionen
Verwenden Sie offene Schnittstellen zum Erfassen, Weiterleiten und Umwandeln von Telemetriedaten (einschließlich OpenTelemetry, Fluent Bit, Fluent Bit, Logstash, Data Prepper, und mehr). Sie können große Mengen an halbstrukturierten Daten mit nativen Funktionen durchsuchen und analysieren. Sie können mit den Beobachtungsfunktionen von OpenSearch Dashboards zur Erkennung von Anomalien visualisieren, überwachen und warnen und mit der Piped Processing Language (PPL), einer Abfrageoberfläche, interaktive Analysen und Visualisierungen von Daten durchführen.
Sammeln
Zunächst müssen Sie Daten zur Analyse erfassen. Die Erfassung umfasst das Sammeln, Anreichern, Filtern, Transformieren und Normalisieren von Daten aus verschiedenen Quellen.
Erkennung
Oftmals bemerken Kunden Probleme nicht so schnell, wie sie begonnen haben. Es gibt oft eine Verzögerung zwischen dem Beginn eines Problems und dem Zeitpunkt, an dem Sie benachrichtigt werden. Sie möchten dies so weit wie möglich reduzieren. Die Erkennung sollte proaktiv und vielschichtig sein (z. B. Alarme über Telemetrie). Die Erkennung von Anomalien ist ein wichtiges Instrument, ebenso wie die Möglichkeit, zusammenhängende Alarme miteinander zu verknüpfen, um die Alarmmüdigkeit zu verringern. Eine Kernkomponente der Erkennung ist auch die Visualisierung und Überwachung, die Amazon OpenSearch Service mit einer Komponente namens OpenSearch-Dashboards übernimmt. Sie können die Daten sogar interaktiv analysieren mit Tools wie PPL.
Untersuchen
Die meiste Zeit während eines operativen Ereignisses verbringen die Mitarbeiter mit Untersuchen – und für die Untersuchungen sind in der Regel mehrere Personen erforderlich. Dies ist der größte Beitrag zu Mean Time to Incident (MTTI) und Mean Time to Recovery (MTTR). Das Chaos zu durchschauen und zu verstehen, worauf man sich konzentrieren sollte, bleibt eine schwierige Aufgabe. Verwenden Sie Protokolle, Metriken und Tracing, um schnell eine Ursachenanalyse durchzuführen und dabei Metriken, Protokolle und Traces miteinander zu korrelieren – auf AWS, vor Ort oder in anderen Clouds. Arbeiten Sie gemeinsam an den Untersuchungen und dokumentieren Sie Ihre Analyse mit OpenSearch-Dashboard-Notebooks.
Beheben
Nachdem Sie die Ursache eines Fehlers ermittelt haben, müssen Sie ihn beheben. Es gibt nichts Schlimmeres, als zu versuchen, etwas zu reparieren und die Situation noch schlimmer zu machen. Vergessen Sie nicht, eine Analyse nach dem Ereignis durchzuführen, um festzustellen, wie Sie den Ausfall von vornherein hätten verhindern können. Dokumentieren Sie die vorgeschlagenen Änderungen, damit Sie verhindern können, dass das Problem erneut auftritt. Ihr Ziel sollte es sein, sicherzustellen, dass das gleiche Problem nie wieder auftritt – und falls doch, dass Sie es automatisch erkennen und beheben können.
Überwachung der Anwendungsleistung
Manchmal ist Application Performance Monitoring (APM) die erste Reifegradstufe der Beobachtbarkeit. Aber APM allein reicht nicht aus. Läuft Ihre Anwendung tatsächlich wie erwartet, auch wenn Ihr Anwendungsüberwachungs-Dashboard alles im grünen Bereich zeigt? Bekommen Ihre Kunden das Benutzererlebnis, das sie brauchen? Wie wird Ihre Anwendung genutzt? Welche Teile Ihrer Anwendung stoßen an die Grenzen der Skalierbarkeit? In welcher geografischen Region verzeichnen Sie das größte Wachstum? Welche Trends können Sie visualisieren und dafür vorausplanen? Wenn Sie Metriken erfassen könnten, hätten Sie die Gewissheit, dass Sie bei der Implementierung von neuem Code oder bei Änderungen an Ihrer Infrastruktur die Auswirkungen dieser Änderungen erkennen können. Durch die Beobachtbarkeit wird APM weiterentwickelt, um diese zusätzlichen Fragen zu beantworten.