Observability: Wann Logs und Metriken wichtig werden

Unter dem Auskennerkürzel „O11y“ macht etwas die Runde, das viele für selbstverständlich halten: dass die Komponenten und Prozesse im Unternehmen bekannt und sichtbar sind. Doch für Telemetriedaten gilt das nur sehr bedingt. Hier braucht es technische Lösungen – und die entsprechenden Fachleute.

Metriken, Logs und Traces

Von Dirk Bongardt

Observability bezeichnet ein Konzept, das sich darauf konzentriert, wie gut ein System oder eine Anwendung verstanden und überwacht werden kann. Es beinhaltet das Sammeln von Metriken, Log- und Tracing-Daten, um Entwicklern und Betriebsteams Einblicke in das Verhalten eines Systems zu geben, insbesondere in Bezug auf Leistung, Fehler und andere wichtige Aspekte. Mit diesen Einblicken können Fachleute Maßnahmen ergreifen, um die Stabilität, Leistung und Zuverlässigkeit von Anwendungen und Infrastrukturen zu verbessern.

Damit das Ganze in der IT-Welt seinen Platz finden konnte, brauchte es natürlich auch eine originelle Abkürzung: Die 11 in „O11y“ steht für die elf Buchstaben zwischen o und y in „Observability“. Viele, die in der Thematik zu Hause sind, sprechen das Kürzel meistens aus wie den Vornamen Olli.

Monitoring vs. Observability

Wer Monitoring betreibt, setzt deshalb noch lange nicht das Konzept von Observability um. Die entscheidenden Unterschiede der beiden Ansätze sind folgende:

  • Monitoring sammelt passiv Informationen, zunächst ganz unabhängig von deren konkreter Relevanz, während Observability aktiv Daten sammelt und sich auf das konzentriert, was wirklich relevant ist, um operative Entscheidungen zu treffen.
  • Monitoring konzentriert sich in der Regel auf die Infrastruktur, während Observability auch Anwendungen und Workflows miteinbezieht.
  • Monitoring erzeugt oft Daten um ihrer selbst willen, während Observability Datenquellen in einen Analyseprozess integriert, der den Zustand einer Anwendung oder eines Systems optimal darstellt.
  • Die beim reinen Monitoring anfallenden Datenmengen überfordern oft selbst moderne KI-Systeme und verstellen mitunter sogar den Blick auf die eigentlichen Probleme. Observability bietet einen Ausweg aus diesem Dilemma, indem der Fokus auf die Zustände eines Systems gelegt wird und nicht auf den Zustand einzelner Komponenten. Das ermöglicht ein optimales Benutzer- und Kundenerlebnis, indem proaktiv und reaktiv auf kritische Daten eingegangen wird.

Darüber hinaus kann Observability Rohdaten mit nützlichen IT-Zustandskennzahlen verknüpfen, etwa Key Performance Indicators (KPI), um die User Experience und die Anwenderzufriedenheit darzustellen.

Drei zentrale Telemetriedatenquellen

Die primären Quelldatentypen für Observability sind:

  • Metriken: Diese bieten operative Echtzeitdaten und werden über APIs oder generierte Ereignisse erfasst.
  • Logs (Protokolle): Aufzeichnungen von Ereignissen in textlicher oder von Menschen lesbarer Form.
  • Traces: Aufzeichnungen von Informationspfaden oder Workflows.

Observability setzt sich durch

Das auf Observability-Systeme spezialisierte Unternehmen Splunk Inc. hat in Zusammenarbeit mit der Enterprise Strategy Group den Lagebericht Observability 2023 erstellt. Diese umfangreiche Studie untersucht die Bedeutung von Observability in modernen, komplexen Technologieumgebungen. Dabei wurden 1750 Fachleute und Führungskräfte aus Unternehmen mit mindestens 500 Beschäftigten befragt.

Ein Fazit der Studie: Observability stellt mittlerweile eine grundlegende Voraussetzung für den digitalen Erfolg von Unternehmen dar. Sie trägt dazu bei, Ausfälle zu reduzieren und Ausfallzeiten zu minimieren, die Leistung von Anwendungen zu optimieren, die Kundenerfahrung zu verbessern und digitale Resilienz zu stärken. Observability-Leader (das sind in der Studie Unternehmen mit mindestens 24 Monaten Erfahrung in Observability) können Ausfälle viermal häufiger innerhalb von Minuten beheben. Die Studie belegt zudem, dass in diesen Unternehmen insgesamt bis zu einem Drittel weniger Ausfälle und Service-Unterbrechungen auftreten und auch die Zahl neuer Produkte und Erlösquellen steigt.

ITKarriere 2023 02.jpg

Schwarz auf Weiß
Dieser Beitrag ist zuerst in unserer Magazin­reihe „IT & Karriere“ erschienen. Einen Über­blick mit freien Down­load-Links zu sämt­lichen Einzel­heften be­kommen Sie online im Presse­zentrum des MittelstandsWiki.

O11y-Experten in der Praxis

Spezialisten für Observability können in verschiedenen Rollen und Positionen in der Softwareentwicklung und im IT-Betrieb tätig sein. Dazu gehören:

  • Site Reliability Engineers (SREs): SREs sind für die Gewährleistung der Zuverlässigkeit von Anwendungen und Diensten verantwortlich und nutzen Observability-Tools, um Probleme zu erkennen und zu beheben.
  • DevOps-Ingenieure arbeiten an der Automatisierung von Prozessen und der Integration von Entwicklung und Betrieb. Sie verwenden Observability, um den Entwicklungs- und Bereitstellungszyklus zu optimieren.
  • Softwareentwickler nutzen Observability, um Einblicke in den Code und die Anwendungen zu erhalten, die sie erstellen, und um Probleme zu beheben oder die Leistung zu optimieren.
  • IT-Operations-Teams verwenden Observability, um die Gesundheit und Leistung von Servern, Netzwerken und anderen Infrastrukturkomponenten zu überwachen.

Observability-Experten arbeiten in Unternehmen und Abteilungen, die komplexe IT-Infrastrukturen betreiben und darauf angewiesen sind, die Leistung, Sicherheit und Zuverlässigkeit ihrer Systeme zu überwachen. So gibt es beispielsweise in Technologieunternehmen, insbesondere in denen, die Cloud-Dienste, Software as a Service (SaaS) oder Plattformen für Entwickler anbieten, häufig Teams, die sich auf Observability spezialisiert haben. Diese Teams können in der Produktentwicklung, der IT-Infrastruktur oder im Site Reliability Engineering tätig sein.

Banken, Versicherungsunternehmen und andere Finanzdienstleistungsunternehmen setzen komplexe IT-Systeme ein, um ihre Geschäftsprozesse abzuwickeln. Observability-Experten können in den IT-Abteilungen dieser Unternehmen arbeiten, um sicherzustellen, dass diese Systeme ständig überwacht werden.

Unternehmen, die im Online-Handel ihren Schwerpunkt haben, sind auf eine zuverlässige und leistungsfähige IT-Infrastruktur angewiesen, um den E-Commerce-Betrieb aufrechtzuerhalten. Observability-Teams können in den IT- und DevOps-Abteilungen dieser Unternehmen für verlässliche Verfügbarkeit rund um die Uhr sorgen.

Die Erfahrung zählt

Fachleute für Observability benötigen eine Kombination aus fundierter Ausbildung, überdurchschnittlichen Fähigkeiten und viel Erfahrung, um in diesem Bereich erfolgreich zu sein. Einige Schlüsselkomponenten, die für eine Karriere in der Observability relevant sind, finden sich auch in allgemeinen Informatikbildungswegen. Der Schwerpunkt sollte aber auf folgenden Kompetenzen liegen.

Ein Bachelor-Abschluss in Informatik, Informationstechnologie, Ingenieurwissenschaften oder einem verwandten Bereich bildet oft die Grundlage für die weitere Ausbildung zum Observability-Experten. Einige Fachleute haben auch einen Master-Abschluss, insbesondere wenn sie in fortgeschritteneren Positionen arbeiten möchten. Observability-Experten müssen über fundierte Kenntnisse in den Bereichen Informationstechnologie, Netzwerke und Systemadministration verfügen. Sie sollten auch eine solide Grundlage in Programmierung und Scripting haben, um Skripte und Tools zur Automatisierung von Überwachungsprozessen zu entwickeln.

Da Observability eng mit DevOps und SRE-Praktiken verbunden ist, ist ein Verständnis dieser Konzepte und ihrer Umsetzung von Vorteil. Kenntnisse in Continuous Integration (CI) und Continuous Delivery (CD) sind ebenfalls wichtig.

Die Fähigkeit, klar und präzise zu kommunizieren, ist mehr als nur ein Bonus für O11y-Spezialisten. Sie müssen oft mit verschiedenen Teams aus unterschiedlichen Bereichen des Unternehmens zusammenarbeiten, um Probleme zu lösen und Empfehlungen abzugeben. Starke Kommunikationsfähigkeiten, nicht nur auf rein fachlicher Ebene, sind daher von großer Bedeutung.

Es gibt verschiedene Zertifizierungen, die für Observability-Experten nützlich sein können. Darunter finden sich etwa besondere Zertifizierungen für Cloud-Plattformen (zum Beispiel AWS Certified Solutions Architect) oder spezialisierte Observability-Zertifikate von Unternehmen wie Splunk oder Elastic.

Karrierewege für O11y-Spezialisten

Die Laufbahn eines Observability-Experten kann natürlich individuell variieren. Dennoch lassen sich einige typische Schritte in dieser Karriere verzeichnen. Nach einer grundlegenden Ausbildung auf einem Fachgebiet der IT, in der Regel nachgewiesen mit einem Bachelor- oder Master-Abschluss, sammeln spätere O11y-Fachleute oftmals zunächst allgemeine Berufserfahrung, etwa als Junior-Entwickler, Systemadministrator oder Netzwerktechniker. Wer dabei seine Präferenz für O11y-Themen entdeckt, wird dann sein Wissen auf diesem Gebiet gezielt erweitern. Das kann durch verschiedene Schulungen, Zertifizierungen und auch durch selbstständiges Lernen erfolgen. Es gibt mittlerweile auch spezialisierte Kurse und Schulungsprogramme, die sich auf Observability-Tools und -Methoden konzentrieren.

Der nächste Schritt besteht darin, praktische Erfahrungen mit Observability-Tools und ‑Plattformen zu sammeln, zum Beispiel als Observability-Ingenieur oder ‑Analyst. In dieser Rolle arbeitet man an der Implementierung, Konfiguration und Verwaltung von Observability-Lösungen in einer IT-Umgebung. Mit zunehmender Erfahrung kann man dann in die Rolle eines Observability-Architekten aufsteigen. Hier gestalten O11y-Spezialisten die gesamte Observability-Strategie eines Unternehmens, entwickeln maßgeschneiderte Lösungen und beraten bei komplexen Observability-Herausforderungen.

Ich schau auf O11y

Observability als Schlüsselkonzept in der IT ermöglicht ein umfassendes Verständnis und die aktive Überwachung von Systemen und Anwendungen. Im Gegensatz zum passiven Monitoring konzentriert sich Observability auf relevante Informationen und unterstützt operative Entscheidungen. Diese Disziplin erstreckt sich über die Infrastruktur hinaus und verbessert das Benutzererlebnis.

Observability-Experten, ausgebildet in IT, Netzwerken und Programmierung, spielen eine wichtige Rolle in verschiedenen Bereichen wie DevOps und Site Reliability Engineering. Sie arbeiten in Unternehmen mit komplexen IT-Systemen und tragen dazu bei, Ausfälle zu reduzieren und die digitale Resilienz zu stärken. Observability ist ein entscheidendes Werkzeug für den Erfolg in der digitalen Ära und ein vielseitiges Arbeitsfeld für analytische Denker.

Nützliche Links