Very Large Database

Aus MittelstandsWiki
Wechseln zu: Navigation, Suche

Wie riesige Tabellen reagieren

Eine Very Large Database (VLDB) ist schlicht und einfach eine „sehr große Datenbank“, also eine mit sehr vielen Datensätzen, die auch beträchtlichen physikalischen Speicher benötigen. Was in Sachen Speicherplatz als „sehr groß“ gilt, ändert sich allerdings rasch. Als VLDB setzt man heute eine Datenbank an, die ein paar Milliarden Zeilen umfasst und dafür 1 Terabyte oder mehr braucht.

Solche Größen sind zwar auch im Mittelstand keineswegs unüblich, doch gibt es bereits Firmensoftware, die Datenbanken mit bis zu 8 Exabyte trägt.

Unter dem Druck der Anfragen

Solche Größen bedeuten außerdem, dass oft sehr viele Benutzer gleichzeitig Zugriff verlangen. VLDBs sind daher schon deshalb interessant, weil bei ihnen die Skalierbarkeit allmählich an ihre Grenzen stößt und besondere Lösungen erforderlich macht. Informatiker und Mathematiker arbeiten ständig daran, die besonderen Anforderungen an Hard- und Software in den Griff zu kriegen und die entsprechende Architektur zu optimieren. Dabei geht es in erster Linie darum, die Daten praktisch verfügbar zu machen, d.h. die Geschwindigkeit des Gesamtsystems zu verbessern.

Serie: Big Data
Teil 1 beginnt mit den sprunghaft ansteigenden Datenströmen – dem Rohstoff der Informationswirtschaft von morgen. Teil 2 schildert Szenarien, in denen Big-Data-Analyse bereits handfeste Ergebnisse in Echtzeit bringt. Teil 3 geht noch einen Schritt weiter und folgt dem Apache-Hadoop-Framework ein Stück in die Zukunft. Ein Extrabeitrag warnt vor Abwarten im Angesicht der Datenlawine. Gerade der Mittelstand könnte Flexibilität als Trumpf ausspielen.

Abläufe der Abarbeitung

Ein weiterer wichtiger Punkt sind die „Verkehrsregeln“ der Datenbearbeitung: Es geht darum, in welche Einheiten man Aufgaben zerlegen kann, so dass sie parallel (und damit schneller) abgearbeitet werden können, anstatt seriell (nacheinander und langsamer). Welcher Prozess hat dann Vorfahrt? Und wie verhindere ich, dass ein Prozess Däumchen dreht, weil er auf die Ergebnisse eines anderen warten muss, bevor er seine eigene Aufgabe erledigen kann?

Nützliche Quellen und Links