Cold Storage: Welchen Wert abgelegte Daten haben

In den Datenarchiven von Unternehmen und Forschungseinrichtungen liegen manchmal Schätze, die lange Zeit kaum beachtet wurden. Doch immer stärker setzt sich gegenwärtig die Erkenntnis durch, welchen enormen Wert ältere Daten besitzen, die im Cold Storage hausen – etwa zum Training von KI-Modellen.

Abgelegt und aufgewertet

Von Roland Freist

Das weltweit pro Jahr erzeugte Volumen an Daten wächst exponentiell an. Schätzungen zufolge lag der Wert im Jahr 2021 bei rund 79 Zettabyte, das entspricht 79 Milliarden Terabyte. Für 2025 hat das Marktforschungsunternehmen IDC ein Volumen von 175 Zettabyte berechnet. Diese Zahlen meinen wohlgemerkt nicht die Gesamtmenge aller vorhandenen Daten, sondern lediglich den jährlichen Zuwachs.

Bereits vor etlichen Jahren haben daher die Industrie und Forschungsorganisationen Strategien entwickelt, wie sich diese Datenmengen sinnvoll und möglichst kostengünstig verarbeiten und aufbewahren lassen. Denn auch ältere, nicht mehr aktuelle Daten dürfen häufig nicht einfach per Delete-Taste ausgesondert werden. Für steuerrechtliche Unterlagen, Verträge, Dokumente zu Garantie und Gewährleistung, den geschäftlichen E-Mail-Verkehr etc. gibt es z.B. Compliance-Regelungen, die lange Aufbewahrungsfristen fordern.

Alle diese Daten zeichnet aus, dass sie normalerweise nur selten abgerufen werden. Außerdem müssen sie nicht in Sekundenschnelle zur Verfügung stehen, sondern können auch in Archiven abgelegt werden, die entweder eine langsamere Verarbeitungsgeschwindigkeit aufweisen oder sogar offline an Remote-Standorten eingerichtet sind.

Heiße und kalte Daten

Für die Unterscheidung zwischen häufig benötigten Daten, die jederzeit schnell zur Verfügung stehen müssen, und den seltener abgerufenen, meist älteren Daten haben sich die Bezeichnungen Hot Data und Cold Data entwickelt. Parallel dazu hat die Storage-Industrie Konzepte entwickelt, wie sich eins vom anderen trennen lässt, und Datenspeicher vorgestellt, mit denen Unternehmen die beiden Datenvarianten unter Berücksichtigung der jeweiligen Anforderungen kostengünstig aufbewahren können.

Das klassische Medium zur Archivierung von Cold Data ist das Tape. Bandspeicher sind mit hohen Kapazitäten verfügbar, robust und – bei richtiger Lagerung – sehr langlebig. Außerdem benötigen sie im Unterschied zu Festplatten keine Energieversorgung und bieten dank hoher Kompressionsraten einen günstigen Preis pro Gigabyte.

StorageServer-Special 2023.jpg

Schwarz auf Weiß
Dieser Beitrag ist zuerst in unserer Themen­strecke „Storage und Server“ erschienen. Einen Über­blick mit freien Down­load-Links zu sämt­lichen Einzel- und Sonder­publikationen be­kommen Sie online im Presse­zentrum des MittelstandsWiki.

Mit dem Aufkommen der SSD hat sich für die Unternehmen eine weitere Möglichkeit der Differenzierung ergeben: schneller, aber vergleichsweise teurer SSD-Speicher für Daten, die ständig schnell bereitstehen müssen, und Systeme mit langsameren, aber preiswerteren mechanischen Festplatten für Cold Data.

Dieses Modell hat sich am Markt immer weiter durchgesetzt. Denn immer mehr Unternehmen erkennen, dass auch ihre älteren und seltener genutzten Daten einen beträchtlichen Wert haben. Während der Abruf dieser Daten von Tape ein vergleichsweise langwieriger Vorgang ist, lassen sich die auf Festplatte gespeicherten Daten mit geringer Verzögerung produktiv nutzen.

Cold Data aufgewärmt

Bei den genannten Datentypen, bei denen Compliance-Regeln längere Aufbewahrungsfristen festlegen, ergibt sich das Problem, dass ihr Volumen einerseits ständig wächst und dass andererseits trotzdem ein schneller Zugriff möglich sein muss. Unternehmen müssen gemäß den Anforderungen der Behörden eine Vielzahl von Protokollen, Aufzeichnungen, Berichten und anderen Daten aufbewahren; auch E-Mails, Chat-Nachrichten und andere digitale Unterlagen müssen auf Verlangen binnen kurzer Zeit vorgezeigt werden können.

Normalweise sind solche Compliance-Daten für das Business uninteressant und bleiben daher über lange Zeiträume ungenutzt und unverändert. Wenn sie aber, etwa im Fall einer juristischen Auseinandersetzung, plötzlich benötigt werden, müssen sie leicht zugänglich sein. Unternehmen müssen daher heute berücksichtigen, dass bei Auseinandersetzungen über steuerliche Fragen oder bei Gewährleistungsansprüchen die gesamte interne und externe Kommunikation der Firma relevant sein kann. Das gilt für die oft sehr umfangreichen E-Mail-Archive genauso wie für Nachrichten, die über Social-Media-Kanäle wie WhatsApp oder LinkedIn ausgetauscht wurden. Die Behörden können im Rahmen ihrer Ermittlungsarbeit eine Einsicht in diese Nachrichten ebenso verlangen wie die Herausgabe interner Geschäftsunterlagen. Dabei werden in der Regel auch Fristen gesetzt. Kann das Unternehmen diese Fristen nicht einhalten oder hat es seine Kommunikation nicht archiviert, kann das empfindliche finanzielle Folgen haben.

In der Vergangenheit wurden solche Daten auf Magnetbändern oder optischen Datenträgern archiviert. Diese Speichersysteme waren akzeptabel, wenn es darum ging, die klassischen Regulierungs- und Datenverwaltungsanforderungen zu erfüllen, und wenn für die Datenwiederherstellung auch eine Dauer von mehreren Tagen und Wochen noch im Rahmen lag. Für den heutigen Einsatz von kalten Daten sind diese historischen Archivierungsmethoden nicht mehr praktikabel. Daten, deren Wiederherstellungszeiten in Tagen oder Wochen gemessen werden muss, sind quasi unbrauchbar.

Verborgene Schätze

Parallel dazu gibt es eine Menge von Cold Data, die für die Unternehmen selbst unverzichtbar ist. So stecken in den Archiven z.B. oft digitale Rohdaten, deren Kopien auch in neueren Dokumenten noch Verwendung finden. Und in vielen Fällen ist es erforderlich, gesammelte Daten über einen längeren Zeitraum aufzubewahren, damit sich Analysen über mehrere Jahre oder gar Jahrzehnte hinweg vornehmen lassen. In diesem Zusammenhang sind z.B. Daten zur Geschäftsentwicklung, aber auch Wetter- und Klimadaten, Daten zur Bevölkerungs- und Verkehrsentwicklung sowie astronomische und andere Forschungsdaten zu nennen. In der biomedizinischen Forschung etwa fallen immer größere Volumen an Genom-Daten an. Wenn einige Jahre später ein anderes Forschungsprojekt diese Daten benötigt, ist es kostengünstiger, die bereits erhobenen Daten aus dem Archiv zu holen anstatt sie neu zu erfassen.

Auch andere kalte Daten werden wertvoller. Das hängt u.a. damit zusammen, dass es heute dank höherer Rechenleistung, Cloud-Computing und leistungsfähiger Software möglich ist, größere Volumen an Daten als jemals zuvor zu verarbeiten und zu analysieren. Der momentane Boom von künstlicher Intelligenz und maschinellem Lernen wäre ohne diese technischen Entwicklungen nicht denkbar.

Serie: Software-defined Storage
Teil 1 erklärt, was SDS von der bloßen Speichervirtualisierung unterscheidet und wo die Vorteile liegen. Teil 2 versucht eine kommentierte Marktübersicht.

Archive im KI-Training

Momentan steigt der Bedarf an Daten zum Training von KI-Systemen und zur Ausführung ihrer Analysefunktionen. In diesem Zusammenhang erhalten kalte Daten eine ganz neue Wertigkeit. Das betrifft zum einen die Unternehmen, bei denen diese Daten lagern. Ihnen eröffnen sich mit diesen bislang meist ungenutzten Datenpools in Verbindung mit moderner Technik neue Geschäftsmöglichkeiten, sowohl intern wie auch extern.

Intern lassen sich geschäftliche Entscheidungen durch eine Analyse (mit KI-Systemen) auf ein solideres Datenfundament setzen. Für den externen Geschäftsbetrieb bieten die gesammelten Daten die Möglichkeit, sie zu vermieten.

Gleichzeitig zeichnet sich ein Trend ab, dass urheberrechtlich geschützte Daten nicht mehr einfach ins Web gestellt werden. In den USA haben einzelne Medien wie etwa die New York Times damit begonnen, ihren im Web veröffentlichten Content für die Nutzung durch die Bots der KI-Systeme zu sperren. Gleichzeitig haben die ersten Prozesse begonnen, in denen die Urheber von den KI-Betreibern Tantiemen verlangen. Wie diese juristischen Auseinandersetzungen auch ausgehen mögen – es ist absehbar, dass urheberrechtlich geschützte Inhalte zukünftig noch stärker hinter Bezahlschranken verschwinden, als es heute bereits der Fall ist. Texte, Bilder, Videos etc. werden dadurch an Wert gewinnen, was wiederum die Auswertung kalter Daten für die Unternehmen noch attraktiver macht.

Kalte Daten werden wieder heiß – so lässt sich die Entwicklung der letzten Jahre zusammenfassen. Vor allem durch den Boom von KI-Systemen gewinnen sie momentan massiv an Wert, da sie für das Training der Software benötigt werden. Aber auch für die Nachverfolgung und Beurteilung historischer Entwicklungen sind sie unverzichtbar. Die Storage-Hersteller wird es freuen.

Roland-Freist.jpg

Roland Freist, Jahrgang 1962, begann nach einem Studium der Kommunikations­­wissenschaft ein Volontariat beim IWT Verlag in Vater­­stetten bei München. Anschließend wechselte er zur Zeitschrift WIN aus dem Vogel Verlag, wo er zum stell­­vertretenden Chef­­redakteur aufstieg. Seit 1999 arbeitet er als freier Autor für Computer­­zeitschriften und PR-Agenturen. Seine Spezial­­gebiete sind Security, Mobile, Internet-Technologien und Netz­­werke, mit Fokus auf Endanwender und KMU.


Redaktionsbüro Roland Freist, Fritz-Winter-Str. 3, 80807 München, Tel.: (089) 62 14 65 84, roland@freist.de

Nützliche Links