Data Science

Data Science (Datenwissenschaft)

„Every company has Big Data in its future and every company will eventually be in the data business.” (Thomas H. Davenport)

Unternehmen, die heute nicht beginnen, aus den eigenen Daten zu lernen, werden morgen Existenzprobleme bekommen. Erfahren Sie in unserem Artikel, warum jedes Unternehmen Data Science anwenden kann und welche Erfolgsfaktoren nötig sind.

Data Science bedeutet Lernen aus Transaktions- und Unternehmensdaten

Data Science ist die Kunst, mit Daten Zusammenhänge zu sehen, die anderen Menschen verborgen bleiben. Das Lernen aus Daten bezeichnet man als Data Science. Es ist ein interdisziplinäres Wissenschaftsfeld, welches technische Systeme, wie etwa Algorithmen, zur Ableitung von Mustern aus strukturierten als auch unstrukturierten Daten ermöglicht. Für Unternehmen repräsentiert Data Science die angewandte wissenschaftliche Methode, um aus den Datenspuren der Unternehmen Ideen zu generieren. Es sind Ideen zur Verbesserung der internen Prozesse oder Hinweise auf strategische Entscheidungen. Data Science bedeutet, mit der Hilfe von Analysewerkzeugen Auffälligkeiten in Big Data zu entdecken, die dem menschlichen Auge verborgen bleiben würden.

Sinnvoll anwenden lässt sich Data Science in allen Unternehmensbereichen entlang der Wertschöpfungskette. So lassen sich etwa

Data Science

Machine Learning ermöglicht Problemlösung durch Mustererkennung

Machine Learning und Künstliche Intelligenz sind die Schlüsseltechnologien dazu. Einfach gesagt bedeutet maschinelles Lernen, dass der Computer sinnvolle Dinge tut, ohne explizit darauf programmiert worden zu sein. Im Falle von Machine Learning hat der Computer keine Logik einprogrammiert. Stattdessen erfasst er die Umweltdaten und versucht dann in den Daten bestimmte Muster und Gesetzmäßigkeiten zu erkennen. Das Ziel ist es, Daten intelligent miteinander zu verknüpfen, Zusammenhänge zu erkennen, Rückschlüsse zu ziehen und Vorhersagen zu treffen – und jetzt kommt es: zunächst mal ohne die Logik dahinter zu kennen. Verkürzt gesagt, kommt Mustererkennung immer dann zum Zug, wenn es schwierig ist, mit analytischen Formeln aus einem Ereignis ein anderes Ereignis vorherzusagen und Reaktionsmuster abzuleiten.

Für konkrete Probleme können wir mathematische Modelle entwickeln und den Algorithmus etwa mit allen verfügbaren Prozessdaten füttern. Je mehr Daten, umso besser. Der Algorithmus stellt dann Millionen von Rechenoperationen an und sucht im Datenmeer (Data Lake) nach „starken Regeln“ – also Zusammenhängen zwischen einzelnen Variablen. Das Schürfen von Informationen im Datenmeer wird deswegen auch als Data Mining bezeichnet: Der große Vorteil: aus Daten lernen kann man von überall – auch über Remote. Algorithmen zur Mustererkennung tun sich dann besonders leicht, wenn wir Menschen uns besonders schwertun: Wenn die Anzahl der zu berücksichtigenden Variablen und die Datenmengen riesig sind. Das Lernen aus den Datenmustern lässt sich in allen Branchen und an allen Stellen der Wertschöpfungskette anwenden.

Video abspielen

Erfolgsfaktor Datenkonsolidierung

Allein das Zusammenführen und Verknüpfen verteilter Datenbestände birgt bereits enorme Potenziale. Häufig kommt es etwa vor, dass verschiedene Unternehmensbereiche vollkommen isoliert voneinander bei den gleichen Lieferanten einkaufen oder die gleichen Kunden bedienen – zu unterschiedlichen Konditionen und ohne voneinander zu lernen. Das ließe sich ändern, wenn man alle Daten an zentraler Stelle zusammenführen würde.

Anwenden lässt dich dieser integrative Datenansatz auch für produzierende Unternehmen. Viele Unternehmen betreiben mehrere Werke mit ähnlichen Maschinen und Produkten. Im gesammelten Datenmeer der Sensor- und Transaktionsdaten steckt das Wissen, Qualitätsfehler zu vermeiden und von den besseren Ergebnissen der Vorzeigewerke zu lernen. Das Ziel von Data Science ist es, Muster in Daten aufzudecken und Ideen zur Produktivitätssteigerung anhand statistischer Zusammenhänge zu erkennen.

Produktivität steigern und Kosten senken in der Produktion über Advanced Analytics

Mit Advanced Analytics nutzen Unternehmen alle verfügbaren Daten, um in die Zukunft zu schauen, um Ereignisse zu prognostizieren, mögliche Szenarien zu simulieren oder um Zusammenhänge zu erkennen, die dem menschlichen Betrachter verborgen bleiben. Advanced Analytics heißt also: wir finden Antworten auf Fragen, von denen wir nicht wussten, dass wir sie stellen müssen! Mit Advanced Analytics decken wir betriebswirtschaftliche Probleme auf, die im Dickicht der Massendaten verborgen sind, aber mit den Instrumenten der statistischen Datenanalyse ans Licht gebracht werden können!

Nehmen wir an, ein Unternehmen betreibt 30 Werke, aber nicht alle Werke laufen auf dem gleichen Niveau. Die Qualitäten der Produkte und die Stabilität des Outputs unterscheiden sich meistens. Wenn es nun das Ziel ist, alle Werke auf das gleiche Level zu hieven, hieß das bisher: Vor-Ort-Audits, Workshops zur Ideenfindung und eine mühsame – da händische – Ursachen-Wirkungs-Analyse. Das kann funktionieren. Aber wenn mehr als 100 Einflussfaktoren die Produktqualität bedingen und die Produktionsprogramme in diesen Werken auch noch alle unterschiedlich sind, wird wohl jedem klar, dass die Trennung von wichtigen und unwichtigen Stellschrauben das menschliche Logikverständnis schnell überfordert.

Data Science steht für das Erweitern des Erfahrungswissens von Menschen durch das Lernen aus Daten. Funktionieren kann das, weil betriebswirtschaftliche oder technische Probleme in mathematische Probleme verwandelt werden können und über Algorithmen lösbar werden.

Welche Kompetenzen muss ein Data Scientist haben?

Ein Data Scientist (Datenwissenschaftler) ist jedoch mehr als ein datenaffiner IT-Nerd. Er vereinigt verschiedene Kompetenzfelder.

Einerseits muss er die entsprechenden Tools für eine IT-gestützte Analyse beherrschen. Data Science fängt in der Regel da an, wo einfache Excel-Funktionen nicht mehr zu ausreichender Ergebnisqualität führen, entweder weil die Datenmenge zu groß ist oder die Algorithmen – also die Techniken zur mathematischen Analyse von Daten – fehlen. Viele technische und betriebswirtschaftliche Probleme im Unternehmen lassen sich durch mathematische Probleme darstellen. Ein Data Scientist muss also auch die Transferleistung erbringen können, operative oder strategische Management-Entscheidungen durch analytische Probleme ausdrücken zu können.

Data Science

Dies geschieht im Sinne von Ursache-Wirkungsprinzipien. Eine wichtige Fähigkeit wird häufig unterschätzt: ein Data Scientist muss auch das nötige Domain-Knowledge (oder auch Domänenwissen) der Branche oder der Unternehmensfunktion mitbringen, für die er Hypothesen aufstellen will oder Antworten sucht. Dömanenwissen ist das im Unternehmen und in den Produkten kumulierte, übergeordnete Anwendungswissen, das den Erfolg des Unternehmens in einem Geschäftsfeld ausmacht.

Ein Data Scientist verbindet IT-Kompetenzen und Branchenerfahrung

Es sind die Erfahrung, die Fertigkeiten und die Kompetenzfelder, die für den Erfolg Unternehmens maßgeblich sind. Domänenwissen kann auch auf völlig andere Produkte, ja sogar Branchen übertragen werden. Ein Beispiel: Auf Basis des Domänenwissens ließe sich argumentieren, dass der Staubsaugerhersteller Dyson auch Atemgeräte herstellen könnte, denn das Unternehmen hat die Kompetenz, hochwertige und präzise Geräte im Bereich Luftströmung mit einer exzellenten Filtertechnik herzustellen.

Der Datenwissenschaftler (Data Scientist) muss also wissen, wie das Unternehmen funktioniert und welche Besonderheiten zu berücksichtigen sind und vor allem – wo die Werthebel liegen! Das heißt beispielsweise zu wissen, wie der Vertriebsprozess funktioniert. Was sind die Erfolgsfaktoren in der Logistik? Welche Parameter kommen überhaupt in Frage, wenn ich eine statistische Untersuchung der Qualität im Produktionsnetz durchführen will? Die Paarung aus menschlichem Erfahrungswissen und algorithmischer Analyse-Kraft ist also die Grundvoraussetzung für die Generierung von neuen Erkenntnissen.

Schließlich baut man auf das Verständnis der Schmerzpunkte im Unternehmen auf. Data Science ist kein Selbstzweck, sondern muss da ansetzen, wo durch bessere Entscheidungen auch Kosten gespart oder Umsätze gesteigert werden können. Werthaltig wird ein Optimierungsansatz erst, wenn die Datenanalyse mit menschlichem Erfahrungswissen kombiniert wird, denn dann können daraus die richtigen Schlussfolgerungen gezogen werden und das beschreibt das Domain-Wissen.

Die Verarbeitung und Analyse großer Datenmengen ist in vielen Bereichen ein dringendes Problem und erfordert auch neue Studiengänge an den Universitäten. Der Trend zu “Data Analytics” wird durch eine Reihe von Entwicklungen begünstigt: Zunächst wird es immer einfacher, große Datenmengen zu erzeugen und zu speichern. Zudem können diese großen Datenmengen auch durch technologische Fortschritte wie schnelle Mehrkernsysteme und Cloud Computing in großem Maßstab verarbeitet werden. Auch werden diese Datenmengen nicht mehr nur durch Anwendungsbereiche wie Geschäftsdaten erzeugt, sondern finden sich heute in vielen Lebensbereichen. Auch immer mehr Fahrzeuge erzeugen mit Hilfe von Sensoren und intelligenter Vernetzung große Datenmengen, die dann für die Modellentwicklung oder für Diagnosezwecke genutzt werden können. Auch die intelligente Steuerung von Energienetzen ist derzeit ein wichtiges Anwendungsgebiet.

Die steigende Bedeutung von Data Science in der Berufsausbildung haben viele Universitäten erkannt und das eigene Lehrangebot darauf ausgerichtet. Studenten können sich mittlerweile gezielt zum Data Engineer ausbilden lassen, wie das Beispiel der Technischen Universität München zeigt.

Data Science ist für alle Unternehmen anwendbar

Kritiker kommen häufig mit dem Einwand, dass sich das im eigenen Unternehmen nicht umsetzen ließe, weil die Datenlage schlecht sei. Aber: Data Science ist kein theoretisches Konzept, dass nur einigen High-Tech-Unternehmen vorbehalten ist. Anwenden lässt sich das in jedem Unternehmen, weil jedes Unternehmen ausreichend Daten erzeugt. Das gilt vielleicht nicht für jeden Bereich, allerdings gibt es heute erfahrungsgemäß schon in jedem Unternehmen 3-4 Bereiche, für die eine Anwendung Sinn macht.

Ein Beispiel ist Predictive Maintenance (Prädiktive Instandhaltung). Diese ist in der Umsetzung nicht so komplex, wie viele vermuten, denn der Vorteil ist, dass in sehr vielen Branchen ausreichend Prozess- und Betriebsdaten zur Verfügung stehen. In der Windindustrie besteht etwa die Schwierigkeit für einen Betreiber von Windkraftanlagen darin, die Standfestigkeit aller installierten Anlagen im Blick zu haben. Darüber hinaus muss er die Service-Teams möglichst effizient koordinieren, also immer dahin schicken, wo ein hohes Risiko herrscht. Hier lässt sich die Mustererkennung anwenden: Anlagenausfälle sind keine Zufälle, sondern lassen sich an statistischen Grenzwerten der Betriebs- und Sensordaten festmachen. Das bedeutet, dass sich zukünftige Anlagenausfälle sehr gut anhand von historischen Daten prognostizieren lassen.

Das Rezept für nachhaltigen Erfolg: Lernen aus Daten + Controllinginstrumente

Für den erfolgreichen Einsatz im Unternehmen sind aber auch die richtigen Controllinginstrumente notwendig! Es zeigt sich, dass der Wert der Datenanalyse steigt, wenn Transparenz über Echtzeitdaten herrscht. Über Management-Cockpits können Unternehmen dann zum Beispiel jederzeit den Zustand der eigenen Produktionsanlagen überwachen. Geo- und Risiko-Daten sind für Instandhaltungsteams die ideale Richtlinie, um die eigenen Instandhaltungseinsätze effizienter zu planen und gleichzeitig Kosten zu senken. Für die Anlagenüberwachung in der produzierenden Industrie lassen sich auch Risiko-Kennzahlen ermitteln, welche auf Ausfallwahrscheinlichkeiten hinweisen können.

Data Science

Mut zur Anwendung von Data Science im Unternehmen

Selbst schlechte Daten lassen sich durch die richtigen Tools aufbereiten. Mit erprobten Algorithmen können große Datenmengen mittlerweile automatisiert nach Datenlücken oder Datenfehlern durchsucht werden. Ausreißer, völlig unplausible Datenreihen oder gar Formatierungsfehler können so schnell identifiziert werden. Sicher muss die Menge an verfügbaren Daten aber ausreichend hoch sein, um statistische Signifikanz zu ermöglichen. So können etwa mit nur 4 Werten beispielsweise keine guten Prognosen erstellt werden.

Allerdings ist eine zu geringe Datenmenge durch die fast durchgängige Verwendung von Datenerfassungssystemen in den Unternehmen in der Regel selten das Problem. Die Daten liegen aber häufig unstrukturiert in den unterschiedlichsten Bereichen im Unternehmen vor. Auch dies ist aber kein Problem, denn mit den verfügbaren Tools lassen sich verteilte Datenstämme mittlerweile sehr effizient zusammenführen.

Die Ausreden der Unternehmen, Data Science Projekte zu verschieben, sollten sich also in Zukunft ausdünnen lassen. Was noch fehlt, ist der Mut der Unternehmen, die Projekte auch anzugehen, denn eine magische KI-Black-Box, die mit Daten befüllt wird und dann automatische Antworten ausspuckt, die gibt es nicht. Data Science heißt: Modelle entwickeln, Daten nutzen und Muster erkennen oder Prognosen erstellen und dann mit dem Erfahrungswissen des Menschen die Ergebnisse interpretieren und konkrete Maßnahmen ableiten. Genauso wie in normalen Projekten zur Produktivitätssteigerung nur jetzt eben mit algorithmischer Analysestärke.

Dieser Beitrag hat Ihnen gefallen? Informieren Sie sich auch über unsere Tagungen zu den folgenden Themen:

Horst Wildemann

Univ.-Prof. Dr. Dr. h.c. mult. Horst Wildemann

Logo TCW

Dr. Sebastian Eckert

Dr. Sebastian Eckert

Logo TCW