Data Science: Was Data Science fürs Ge­schäft leistet

Data Scientists sind nicht einfach Sta­tistiker mit zeit­gemäßer Soft­ware. Auch die Größe des Daten­pools ist kein Kri­te­rium. Ent­schei­dend ist, dass Data Science un­struk­tu­rier­te Daten aus un­ter­schied­li­chen Quellen zu ver­wert­baren Er­kennt­nissen macht. Mit anderen Worten: Hinter­her ist man schlauer.

Entscheidungsfindung aus Big Data

Von Christian Friedrich

Data Science (oder Datenwissenschaft) ist ein interdisziplinäres Feld der Wissenschaft, das mit verschiedenen Methoden Wissen aus großen Datenmengen generiert. Dabei werden sowohl strukturierte als auch unstrukturierte Daten einer zweckorientierten Analyse unterzogen. Der Gegenstand der Datenwissenschaft ist nicht das Datenmaterial selbst, der Schwerpunkt liegt vielmehr in der Art und Weise der Verarbeitung, Aufbereitung und Analyse. Data Science verbindet unter anderem Informationstechnik mit Statistik und Mathematik. Das beinhaltet zum Beispiel künstliche Intelligenz und Machine Learning, statistisches Lernen, Programmierung, Datentechnik und Prognostik.

Geschichte des Begriffs „Data Science“

Den Begriff Data Science hat ursprünglich der Informatikpionier Peter Naur als Ersatz für den Fachausdruck Informatik vorgeschlagen. Das setzte sich aber in diesem Sinne zunächst nicht durch. 1997 hielt Chien-Fu Jeff Wu die Antrittsvorlesung seiner Statistikprofessur an der University of Michigan mit dem Titel „Statistics = Data Science?“. Darin beschrieb er seine Vision für die Zukunft des Fachbereichs Statistik: Sie müsse die Bereiche Datenerfassung, -modellierung und -analyse zusammenführen und letztlich zu einer Entscheidungsfindung führen. Wu wollte den bestehenden Fachbereich Statistik weiterentwickeln zu einer neuartigen Datenwissenschaft.

Der Informatiker William S. Cleveland verfolgte einen anderen Ansatz und führte die Datenwissenschaft 2001 in einem Fachartikel als eigenständige Disziplin ein. Im April 2002 erschien mit dem Data Science Journal das erste Fachmagazin. Mit dem Bedeutungsgewinn von Big Data rückte dieses Forschungsgebiet weiter ins Zentrum der Aufmerksamkeit. Triebfeder der Entwicklung war aber vor allem die freie Wirtschaft, denn in der Praxis wurde die Notwendigkeit erkannt, große Datenmengen einer systematischen Analyse zu unterziehen. Heute bewegt sich der Fachbereich Data Science im Grenzbereich von Informatik, Statistik, Mathematik und Ökonomie.

Ausbildung zum Data Scientist

Data Scientists sind hochqualifizierte Experten. Die Wirtschaft leidet weltweit unter einem Fachkräftemangel in diesem Bereich. Deshalb setzen viele Unternehmen auf Quereinsteiger. Die haben ihre Fähigkeiten häufig im Selbststudium erworben, nicht selten im Rahmen von Massive Open Online Courses (MOOC). Diese Kurse sind allerdings zum großen Teil mit dem Niveau von Hochschulen vergleichbar oder werden sogar direkt von Universitäten bereitgestellt.

Die akademische Lehre zieht inzwischen nach. Mittlerweile wird der Studiengang Data Science an einer wachsenden Zahl von Hochschulen im deutschsprachigen Raum als Bachelor- und teilweise auch Master-Studium angeboten. Verschiedene Institute haben Lehrstühle eingerichtet. An der Paris Lodron Universität in Salzburg gibt es bereits die Möglichkeit einer Promotion in Data Science.

Aufgabenfelder im Berufsleben

Doch nicht jeder Statistiker ist ein Data Scientist. Im Tagesgeschäft der meisten Firmen spielt die klassische Auswertung von Tabellen weiterhin eine wichtige Rolle. Ein großer Teil der Prozesse lässt sich auch heute noch mit einfacher Mathematik und Tabellenkalkulation erfassen. Das trifft zum Beispiel auf einfache Prognosen zu.

Der professionelle Data Scientist kommt erst dann ins Spiel, wenn es darum geht, Erkenntnisse aus großen Mengen unstrukturierter Daten zu gewinnen. Dazu müssen in der Regel neue Infrastrukturen und Lösungen geschaffen werden, die mit künstlicher Intelligenz arbeiten. In der Praxis umfasst das Arbeitsfeld den Umgang mit einer großen Zahl von spezialisierten Programmiersprachen und Softwaretools wie R, R Shiny, Python, TensorFlow, H₂O, Apache Hadoop oder Spark. Außerdem leiten Data Scientists aus dem gewonnenen Wissen auch unmittelbare Handlungsempfehlungen für Unternehmensstrategie ab.

Anwendungsbeispiele aus der Praxis

Im Gesundheitswesen etwa gehört die systematische Auswertung von Patientendaten bereits zum Alltag. Klinische Daten aus den Informationssystemen von Krankenhäusern und anderen medizinischen oder pflegerischen Einrichtungen werden analysiert, um Behandlungsmethoden und interne Abläufe zu verbessern.

Auch in der Logistik spielt Data Science eine wachsende Rolle. Speditionen nutzen ihre Analysemethoden etwa zur Optimierung der Planung von Lagerbeständen oder bei der Standortentwicklung. Data Scientists werden zudem im Rahmen der rasant fortschreitenden Entwicklung des Bereichs Internet of Things und für digitale Großprojekte wie Smart Cities benötigt.

Nicht zuletzt gibt es immer mehr Anbieter, die sich auf Data Science as a Service spezialisiert haben. Unternehmen ohne entsprechende Ressourcen können somit die Planung und Durchführung von Big Data Projekten auslagern oder sich zumindest professionell dabei beraten lassen.

Nützliche Links