AI Storage: Welche Flash-Speicher klug genug für KI sind

Klug genug für künstliche Intelligenz

Die meisten Unternehmen verfügen über ein riesiges Datenarchiv – und wissen oft gar nicht, welche nützlichen Informationen darin enthalten sind. Die jüngsten Fortschritte im Bereich der künstlichen Intelligenz (KI), des maschinellen Lernens (ML) und der Big-Data-Analytik machen es möglich, sich die Daten zunutze zu machen. Diese Innovationen haben bereits erhebliche Auswirkungen auf die Wirtschaftswelt. Laut Gartner werden 80 % der Unternehmen bis 2020 in ihren Geschäftsprozessen auf KI zurückgreifen. Das hat heftige Auswirkungen auf das Marktgefüge: Von KI unterstützte Unternehmen werden bis 2020 jährlich 1,2 Billionen US-Dollar Geschäft von Wettbewerbern an sich ziehen, davon gehen die Marktforscher von Forrester aus.

Die Daten, um die es geht, liegen jedoch überwiegend in unstrukturierter Form vor, was die Unternehmen vor erhebliche Herausforderungen stellt. Geeignete Datenmanagement– und Speicherlösungen gibt es aber bereits. Die neuen Datenplattformen der beginnenden KI-Ära basieren auf objektorientierter Speicherung und Verwaltung – ein zeitgemäßer Ansatz, der sich in der Praxis in anspruchsvollen Anwendungen schon vielfach bewährt hat.

Lauter unstrukturierte Daten

Doch was sind eigentlich „unstrukturierte Daten“? Gängige Definitionen verweisen darauf, dass unstrukturierte Daten nicht gut für die Verwaltung in einer relationalen Datenbank geeignet sind, womit die Herausforderungen für Unternehmen beginnen, die Ambitionen in Richtung KI und Big Data verfolgen. Meist handelt es sich um Text- und Multimediainhalte, wie E-Mail-Verkehr, Textverarbeitungsdokumente, Präsentationen, Web Content, aber auch Grafik-, Video- und Audiodateien. Diese können intern durchaus in gewisser Weise strukturiert sein, die enthaltenen Informationen lassen sich aber nur schwer in einer Datenbank zugänglich machen.

Schwarz auf Weiß
Dieser Beitrag erschien zuerst in unserer Magazinreihe „Rechenzentren und Infrastruktur“. Einen Überblick mit freien Download-Links zu sämtlichen Einzelheften bekommen Sie online im Pressezentrum des MittelstandsWiki.

Wurden unstrukturierte Daten jahrzehntelang als Nebenprodukt zunehmend durchdigitalisierter Geschäftsprozesse betrachtet, gewinnen sie neuerdings immens an Bedeutung. Generell dreht sich heute alles um Daten. Hierbei ist zwangsläufig auch der riesige Anteil der unstrukturierten Daten ins Visier der Unternehmen gelangt.

Das Volumen der unstrukturierten Daten nimmt wesentlich schneller – nämlich exponentiell – zu als die Menge in der geordneten Welt der strukturierten Daten. Da Speicherplatz immer günstiger wird, werden unstrukturierte Daten großzügig archiviert, was sich mit zunehmendem Interesse für den potenziellen Wert der Daten kaum ändern wird. Jetzt gilt es, daraus neue, wertvolle Erkenntnisse zu gewinnen, um besser fundierte Geschäftsentscheidungen zu unterstützen und künftig vorausschauender zu agieren. Es geht darum, in einem durch zunehmende Digitalisierung und Globalisierung verschärften Wettbewerbsumfeld immer den entscheidenden Schritt voraus zu sein – mithilfe von Daten.

Innovationen auf Speicherseite

Moderne Datenanalytik setzt jedoch moderne Speichertechnologie voraus. Die erste Goldgräberstimmung (analog zum schon länger gebräuchlichen Begriff des Data Mining) wird derzeit jedoch in vielen Unternehmen getrübt. Dies liegt daran, dass sich unstrukturierte Daten gegen eine Analyse sträuben, zumindest mit Speichertechnologie von gestern. Herkömmliche Speicherlösungen, die auf serieller Blockarchitektur basieren, können schlicht nicht genügend Daten in der benötigten Geschwindigkeit zur parallelen Berechnung an die heute verfügbaren, durchaus KI-fähigen Hochleistungsprozessoren liefern.

Während das Interesse an KI in den letzten Jahren zugenommen hat und das Volumen der unstrukturierten Daten explodiert, ließ die Innovation bei den gebräuchlichen Speichertechnologien weitgehend auf sich warten. Die wesentlichen Grundprinzipien haben sich seit Jahrzehnten nicht verändert. Fakt ist: Die meisten Speichertechnologien wurden in der vergangenen Ära der seriellen Verarbeitung konzipiert, was die Performancelücke zwischen Rechen- und Speicherressourcen immer größer werden ließ.

Im März 2018 kam die AI-ready-Infrastruktur AIRI für skalierbare KI-Anwendungen auf den Markt: Pure Storage FlashBlade plus Nvidia DGX-1. (Bild: Quelle: Pure Storage)

Der Durchbruch in Sachen KI gelang erst durch die jüngsten Fortschritte in den Bereichen DL (Deep Learning), GPU (Graphics Processing Unit) und insbesondere bei der Speichertechnologie. Deep Learning ist ein Rechenmodell mit massiv parallelen neuronalen Netzwerken, inspiriert von der Funktionsweise des menschlichen Gehirns. Das DL-Modell arbeitet nach dem Prinzip des Lernens aus vielen Beispielen. Zugleich ermöglichen es heute modernste GPUs, also Grafikprozessoren mit Tausenden von Kernen, diese DL-Algorithmen auszuführen, die die parallele Natur der menschlichen Gehirntätigkeit nachahmen.

Hinzu kommt die maßgebliche neue, zuvor bisweilen unterschätzte Rolle der Speichertechnologie. KI stellt unterschiedliche Anforderungen an die zugrundeliegende Storage-Architektur. Um KI-Algorithmen weiterzuentwickeln und zu verbessern, muss der Speicher eine umfassende Leistung für alle Arten von Zugriffsmustern bieten – von kleinen bis großen Dateien, von zufälligen bis sequenziellen Zugriffsmustern, von niedriger bis hoher Parallelität. Entscheidend ist darüber hinaus die Fähigkeit, einfach linear und unterbrechungsfrei zu skalieren, um die Kapazität und Leistung zu steigern.

„Massively parallel“ lautet die Grundanforderung für jede KI-taugliche IT. (Bild: Pure Storage)

Neue Speicher für KI-Workloads

Daher sind heute Speicherlösungen gefragt, die von Grund auf für moderne, unstrukturierte Workloads entwickelt wurden. Erst damit gelingt es, unstrukturierte Daten effizient zu speichern, einfach zu verwalten und besser nutzbar zu machen.

In den letzten zwei Jahren sind erste vollständig Flash-basierte Objektspeicherplattformen auf den Markt gekommen. Solche Lösungen sind aufgebaut auf einer breit gefassten parallelen End-to-End-Architektur. Sie stellen ein flexibles Scale-out-System bereit, das Benutzern die erforderlichen Ressourcen für die Verarbeitung vieler Petabytes an unstrukturierten Datensätzen bietet – auf einem ähnlichen Preisniveau wie Hybrid-Arrays. Die modernen Objektspeicherlösungen sind jedoch optimiert für hohe Parallelität, hohe Bandbreite, hohe IOPS-Raten, enorme Metadatenperformance und eine konstant niedrige Latenz, bei geringem Platzbedarf im Rechenzentrum. Typische Workloads in heutigen Hochleistungsanwendungen – KI, ML, DL, Big-Data-Analytik, aufwendige Simulationen oder Genomforschung etc. – können damit problemlos bewältigt werden.

Der jüngste Trend geht zu einer Infrastruktur, die „AI ready“ ist, also zu einer speziell für KI konzipierten Rechen- und Speicherumgebung. Diese wird Unternehmen in die Lage versetzen, ohne großen Implementierungsaufwand Daten in bisher unerreichter Geschwindigkeit in Innovationen umzusetzen. Eine derartige integrierte Software- und Hardwarekombination löst die oft komplexen Infrastrukturprobleme, die Unternehmen bislang davon abgehalten haben, eine KI-Lösung zu implementieren. Der Ausweg ist eine „schlüsselfertige“ Kombination aus Flash-basiertem Objektspeicher mit mehreren GPU-basierten Hochleistungscomputern, die eine Performance im PetaFLOP-Bereich versprechen.

Thema: Künstliche Intelligenz

Momentan dreht sich alles um ChatGTP. Für die Zeit davor gibt eine Einführung einen ersten Überblick über den Stand der Technologien, die Fortsetzungen skizzieren praktische Einsatzgebiete für KI, insbesondere in der Industrie. Für den Lebenslauf könnten die Ratgeber zur KI-Studienstrategie bzw. zum KI-Studium (auch in Kombination mit Robotik) sowie zum Berufsbild Machine Learning Engineer und zum KI-Manager nützlich sein – aber auch die Übersicht zu den Jobs, die KI wohl ersetzen wird.

Extrabeiträge untersuchen, wie erfolgreich Computer Computer hacken, ob und wann Vorbehalte gegen KI begründet sind und warum deshalb die Erklärbarkeit der Ergebnisse (Stichwort: Explainable AI bzw. Erklärbare KI) so wichtig ist. Hierher gehört außerdem der Seitenblick auf Maschinenethik und Münchhausen-Maschinen. Als weitere Aspekte beleuchten wir das Verhältnis von KI und Vorratsdatenspeicherung sowie die Rolle von KI in der IT-Sicherheit (KI-Security), fragen nach, wie Versicherungen mit künstlicher Intelligenz funktionieren, hören uns bei den Münchner KI-Start-ups um und sehen nach, was das AIR-Projekt in Regensburg vorhat. Ein Abstecher führt außerdem zu KI-Unternehmen in Österreich.

Auf der rein technischen Seite gibt es Berichte zu den speziellen Anforderungen an AI Storage und Speicherkonzepte bzw. generell an die IT-Infrastruktur für KI-Anwendungen. Außerdem erklären wir, was es mit AIOps auf sich hat, und im Pressezentrum des MittelstandsWiki gibt es außerdem die komplette KI-Strecke aus dem Heise-Sonderheft c’t innovate 2020 als freies PDF zum Download.

Das datenzentrische Unternehmen

Mit dem Aufkommen von KI und Machine Learning sind die Daten vom Informationsgut zum Kern der Innovation geworden. Es reicht nicht mehr aus, nur datengetrieben zu sein. Unternehmen müssen datenzentrisch werden. Die Daten befinden sich mittlerweile in einer Multi-Cloud-Umgebung, wo sie gespeichert, ausgetauscht und analysiert werden. Die Entwicklung hin zu webbasierten Anwendungsarchitekturen hat die Anforderungen an die Speicherung ebenso erheblich verändert.

Neue Technologien wie Flash-basierte Objektspeicher und KI-Infrastrukturlösungen ermöglichen es, das Rechenzentrum neu zu konzipieren. Bisherige Speichersilos im Rechenzentrum werden aufgebrochen, um einen breiten Datenaustausch zu ermöglichen. Die dadurch weitaus effizientere und leistungsfähigere Datenspeicherung und -verarbeitung ermöglicht es Unternehmen, mehr aus ihrem Datenpool herauszuholen – insbesondere aus den bislang schwer nutzbaren unstrukturierten Daten.

Optimierte Ansätze für die Kommunikation zwischen Datenverarbeitung und Speicher, namentlich die modernen Speicherklassenprotokolle NVMe (Non-volatile Memory Express) und NVMe-oF (NVMe over Fabrics), haben ein neues Potenzial erschlossen. Das Rechenzentrum kann um die Daten herum gestaltet werden – im Sinne einer datenzentrischen Architektur. Ein schnelles Netzwerk bietet dabei flexibel skalierbaren Zugriff auf Shared-Accelerated-Storage-Ressourcen. Speicher- und Rechenressourcen sind entkoppelt, woraus flexiblere Skalierbarkeit resultiert, während die erforderliche Performance gewährleistet bleibt. Dies ist ein überzeugender Ansatz für moderne, massiv parallele, datengesteuerte Cloud-Anwendungen. Riesige Datensätze können latenzarm verarbeitet werden, worauf es bei KI- und ML-Szenarien, Echtzeitanalytik und Anwendungen im rapide wachsenden (Industrial) Internet of Things ankommt. Die gesamte datenzentrische Infrastruktur ist ausgelegt auf agilen Datenaustausch zwischen Anwendungen untereinander und dem Datenspeicher. Die neuen vollständig Flash-basierten Objektspeicherlösungen spielen dabei eine entscheidende Rolle – als uneingeschränkt KI-fähige Datendrehschreibe auf Höhe der Zeit.

Markus Grau ist Principal Systems Engineer bei Pure Storage. Mit Pure Storage können Unternehmen die Grenzen des Möglichen überschreiten. Die Kombination aus All-Flash-Technologie und Benutzerfreundlichkeit unterstützt die Business- und IT-Transformation mit Smart Storage und verspricht einen mühelosen, effizienten und nachhaltigen Einsatz. Pure Storage hat zwei Kernprodukte im Angebot: FlashArray//M, optimiert für strukturierte Workloads, und FlashBlade, ideal für unstrukturierte Daten.

Pure Storage, Inc., Konrad-Zuse-Platz 8, 81829 München, Tel.: 089-120895072, dach@purestorage.com, www.purestorage.com

Klug genug für künstliche Intelligenz

Lauter unstrukturierte Daten

Innovationen auf Speicherseite

Neue Speicher für KI-Workloads

Das datenzentrische Unternehmen

Nützliche Links