Data Warehouse

Im Zentrallager für Firmendaten

Von Oliver Jendro/bw

Ein Data Warehouse ist eine zentrale Sammelstelle für betriebliche Echtdaten – interne wie externe –, die dort erfasst sind und dann Stellen wie Geschäftsführung, Controlling, Buchhaltung etc. für Analysen und Berichte zur Verfügung stehen. Dort liegen alle relevanten Daten als Kennzahlen des Unternehmens sortiert, gereinigt und standardisiert vor. Es ist der Grundstock jeder Business-Intelligence-Anwendung.

Eine sinnvolle Data-Warehouse-Lösung sollte folgende Kriterien erfüllen:

Die Hauptfunktion liegt in der Bereitstellung und Verarbeitung großer Datenmengen. Mit diesen arbeiten die Analysen und Auswertungen (XPS, Data Mining etc.). Ist die Datenbasis im Data Warehouse fehlerhaft, wird auch die Analyse fehlerhaft sein. Falsche Entscheidungen aus dem Management sind die Folge. Es ist also elementar, dass der vorangehende ETL-Prozess das Data Warehouse mit validen, eindeutigen und richtigen Informationen befüllt.

BI-Datenbank im Querschnitt

Das Besondere an einem Data Warehouse ist, dass es unabhängig vom operativen Geschäft eine Analyse ermöglicht, die neue, bislang unbekannte Zusammenhänge offen legen kann. Dank externer Analysetools, die auf ein Data Warehouse zugreifen, kann der Anwender wie in einer Suchmaschine Daten beziehen und in Verbindung setzen – ohne die Substanz zu verändern.

Sieht man sich ein Data Warehouse näher an, so zeigt es einige typische Merkmale: Es ist themenspezifisch aufgebaut, es erfasst einen definierten Zeitraum und es beherbergt Daten in einem definierten Detailgrad. Die Daten sind immer thematisch auf die Informationsbedürfnisse der Nutzergruppe zugeschnitten. Das können Produkte, Produktgruppen, Kunden, Märkte oder andere für das Management relevante Themenbereiche sein.

Serie: Business Intelligence
Teil 1 ist harm­los. Business Intelli­gence kennt jeder Unter­nehmer, viel­leicht nur unter an­derem Namen. Teil 2 sagt, welche Fort­schritte IT bei der Kenn­zahlen­analyse macht. Teil 3 wird hand­fest: Welche BI-Anbieter es gibt, was sinn­voll ist und wo­mit Sie rech­nen müssen.

Als zweites wichtiges Merkmal gilt der zeitliche Bezug: Während z.B. Lagersysteme den Ist-Zustand auslesen („Wie viele Produkte sind derzeit auf Lager?“), befinden sich im Data Warehouse Daten einer längeren Periode, die für eine Zeitraumanalyse geeignet sind, z.B. Tages-, Wochen- oder Monatsanalysen zum Verkauf oder Umsatz der Produkte.

Zudem werden Daten im Data Warehouse dauerhaft abgelegt; das Data Warehouse ist ein schnell verfügbares Datenlager. Die Vorhaltung hat natürlich zur Folge, dass die Informationsmenge im Data Warehouse beständig wächst. Es muss daher bei der Einführung des Business-Intelligence-Systems klar sein, was ins Data Warehouse muss und wie lange es verfügbar sein soll. Nicht benötigte Daten wandern in Archive.

Grob oder fein?
Bei der Granularität gilt der Handwerkerleitspruch: „So genau wie nötig, nicht so genau wie möglich.“ Während das Management die Daten möglichst detailliert vorhalten will, muss die IT-Abteilung die Menge begrenzen. Denn je größer das Volumen, desto teurer die Pflege und Speicherung. Zudem verlangsamt sich der Zugriff – ein nachteiliger Effekt, der dann auch die Arbeit des Managements behindert.

Ein weiteres Data-Warehouse-Merkmal ist die Definition des Detailgrads der Daten, auch Granularität genannt. Sehr detaillierte Daten haben eine niedrige Granularität, sie sind sehr „feinkörnig“. Hoch komprimierte, also stark vereinfachte Daten haben hingegen eine hohe Granularität. Die Vereinfachung erfolgt beispielsweise durch das Zusammenfassen von Daten, durch Bildung eines Mittelwertes oder einer Summe.

Abfragen nach Perspektive

Ein Data Warehouse enthält in der Regel zwei unterschiedliche Strukturen:

  • das Core Data Warehouse und
  • die Data Marts.

Das Core Data Warehouse ist der Kern des Datenlagers; er besteht aus einer Datenbank, die aus dem operativen Geschäft befüllt wird – aus internen und externen Quellen. Es umfasst selbst bei mittelständischen Unternehmen schnell mehrere Terabytes.

Um das Arbeiten mit dem Data Warehouse zu beschleunigen, werden daher so genannte Data Marts angelegt. Man übersetzt das meist mit „Datenzentren“. Gemeint ist Teildatenbestand innerhalb eines Data Warehouses, der ein langfristig gehalten wird, oder die Kopie eines Teilbereichs, die extra für eine bestimmte Abteilung oder Anwendung angelegt wird. Data Marts ermöglichen so eine Teilsicht (View) auf das Data Warehouse.

Die Gründe für die Arbeit mit einem Data Mart sind vielschichtig: Beispielsweise kann es über eine spezielle eigene Datenstruktur verfügen (etwa eine mehrdimensionale). Zudem lassen sich Data Marts auf abteilungsspezifische Anforderungen optimieren. Der wichtigste Grund bleibt für die Einrichtung aber die Beschleunigung der Verarbeitungsgeschwindigkeit von Analyseanfragen.

Nützliche Links