Extract, Transform, Load

Auslesen, umwandeln, speichern

Von Oliver Jendro/Hans Klumbies

Extract, Transform, Load (ETL) ist die Kurzformel für das schrittweise Vorgehen bei der Informationsintegration. ETL sammelt aus verschiedenen Unternehmenssoftwaresystemen und Informationsquellen Daten (Extraktion) und bereitet sie auf (Transformation), so dass sie in einer einheitlichen Form vorliegen, ohne Fehler oder Duplikate; das ermöglicht dann die Ablage im Data Warehouse (Laden). Typischerweise geschieht dies im Verlauf eines Business-Intelligence-Prozesses.

ETL funktioniert immer in drei Schritten:

  1. Extraktion aus den unterschiedlichen Quellen,
  2. Transformation in das einheitliche Schema und Format,
  3. Laden der Daten in die Zieldatenbank.

Von der Qualität und der Geschwindigkeit des ETL-Prozesses hängt die Qualität der Daten ab, die in die BI-Analysen eingehen. In der Regel werden dafür spezielle ETL-Programme eingesetzt, die auf die Infrastruktur des Unternehmens optimiert sind.

Notwendig wird dies, weil am Anfang jeder Geschäftsanalytik die Rohdaten des Unternehmens stehen. Diese müssen erst gesammelt, gespeichert und zur Weiterverarbeitung aufbereitet werden. In der Realität kommen sie auch nicht aus einer einheitlichen Quelle, sondern aus verschiedenen Anwendungen, von verteilten Standorten und in unterschiedlicher Beschaffenheit. Sie kommen aus Excel-Tabellen, gescannten Lieferscheinen, aus Archiven oder Datenbanken jeglicher Form. Alle relevanten Daten müssen daher vor der Speicherung zuerst zusammengeführt, bereinigt und standardisiert werden. Das heißt, dass die wichtigsten Informationen z.B. eines Lieferscheins extrahiert werden müssen, genauso wie aus der Excel-Tabelle, die beispielsweise die Vertriebsumsätze der Mitarbeiter enthält. Oder die ERP-Daten aus einer SAP-Umgebung. Dieser Vorgang erfolgt meist automatisch mittels einer ETL-Anwendung.

Serie: Business Intelligence
Teil 1 ist harm­los. Business Intelli­gence kennt jeder Unter­nehmer, viel­leicht nur unter an­derem Namen. Teil 2 sagt, welche Fort­schritte IT bei der Kenn­zahlen­analyse macht. Teil 3 wird hand­fest: Welche BI-Anbieter es gibt, was sinn­voll ist und wo­mit Sie rech­nen müssen.

Das Schwierige daran: Es gibt unterschiedliche „richtige Informationen“: Daten, die zwar korrekt sind, deren Inhalt aber anders definiert ist. Ein Beispiel: Die Eigenschaft „männlich/weiblich“ wird im CRM-System mit „m“ und „w“ definiert, im ERP-Datensatz hingegen mit „0“ und „1“. Über den ETL-Prozess werden diese Angaben auf einen gemeinsamen Nenner gebracht, also transformiert.

Internationale Konzerne haben beispielsweise meist Dutzende unterschiedlicher Beschaffungsanwendungen im Einsatz (Procurement-Systeme). Damit die Zentrale den Einkauf steuern und optimieren kann, z.B. die günstigsten Lieferanten identifizieren kann, braucht es eine einheitliche Datenbasis.

Per ETL-Prozess werden die Daten ausgelesen, transformiert und in eine Datenbank geladen. Diese Datenbank wird als Data Warehouse bezeichnet. Das ist quasi der Datenkontor, ein Lager mit sehr hoher Verfügbarkeit, gefüllt mit unternehmenskritischen Daten, bereit für Analyse (OLAP, XPS, EUS etc.) und Reporting.

Nützliche Links