Data Science

Data Science (Datenwissenschaft)

Data Science ist der richtige Ansatz, um das Lernen aus den eigenen Transaktions- und Maschinendaten zu systematisieren. Genutzt werden kann der Ansatz mittlerweile von allen Unternehmen, denn Data Science ist längst keine Geheimwissenschaft für digitale Pioniere mehr.

Data Science bedeutet Lernen aus Transaktions- und Unternehmensdaten

Das Lernen aus Daten bezeichnet man als Data Science. Es ist ein interdisziplinäres Wissenschaftsfeld, welches technische Systeme, wie etwa Algorithmen, zur Ableitung von Mustern aus strukturierten als auch unstrukturierten Daten ermöglicht. Für Unternehmen repräsentiert Data Science die angewandte wissenschaftliche Methode, um aus den Datenspuren der Unternehmen Ideen zu generieren. Es sind Ideen zur Verbesserung der internen Prozesse oder Hinweise auf strategische Entscheidungen. Data Science bedeutet, mit der Hilfe von Analysewerkzeugen Auffälligkeiten im Datenmeer zu entdecken, die dem menschlichen Auge verborgen bleiben würden.

Für konkrete Probleme können wir mathematische Modelle entwickeln und den Algorithmus etwa mit allen verfügbaren Prozessdaten füttern. Je mehr Daten, umso besser. Der Algorithmus stellt dann Millionen von Rechenoperationen an und sucht im Datenmeer nach „starken Regeln“ – also Zusammenhängen zwischen einzelnen Variablen. Der große Vorteil: aus Daten lernen kann man von überall – auch über Remote. Algorithmen zur Mustererkennung tun sich dann besonders leicht, wenn wir Menschen uns besonders schwertun: Wenn die Anzahl der zu berücksichtigenden Variablen und die Datenmengen riesig sind. Das Lernen aus den Datenmustern lässt sich in allen Branchen und an allen Stellen der Wertschöpfungskette anwenden, z.B. im Einkauf, in der Produktion oder im Vertrieb.

Allein das Zusammenführen und Verknüpfen verteilter Datenbestände birgt bereits enorme Potenziale. Häufig kommt es etwa vor, dass verschiedene Unternehmensbereiche vollkommen isoliert voneinander bei den gleichen Lieferanten einkaufen oder die gleichen Kunden bedienen – zu unterschiedlichen Konditionen und ohne voneinander zu lernen. Das ließe sich ändern, wenn man alle Daten an zentraler Stelle zusammenführen würde.

Anwenden lässt dich dieser integrative Datenansatz auch für produzierende Unternehmen. Viele Unternehmen betreiben mehrere Werke mit ähnlichen Maschinen und Produkten. Im gesammelten Datenmeer der Sensor- und Transaktionsdaten steckt das Wissen, Qualitätsfehler zu vermeiden und von den besseren Ergebnissen der Vorzeigewerke zu lernen. Das Ziel von Data Science ist es, Muster in Daten aufzudecken und Ideen zur Produktivitätssteigerung anhand statistischer Zusammenhänge zu erkennen.

Nehmen wir an, ein Unternehmen betreibt 30 Werke, aber nicht alle Werke laufen auf dem gleichen Niveau. Die Qualitäten der Produkte und die Stabilität des Outputs unterscheiden sich meistens. Wenn es nun das Ziel ist, alle Werke auf das gleiche Level zu hieven, hieß das bisher: Vor-Ort-Audits, Workshops zur Ideenfindung und eine mühsame – da händische – Ursachen-Wirkungs-Analyse. Das kann funktionieren, aber wenn mehr als 100 Einflussfaktoren die Produktqualität bedingen und die Produktionsprogramme in diesen Werken auch noch alle unterschiedlich sind, wird wohl jedem klar, dass die Trennung von wichtigen und unwichtigen Stellschrauben das menschliche Logikverständnis schnell überfordert.

Data Science steht für das Erweitern des Erfahrungswissens von Menschen durch das Lernen aus Daten. Funktionieren kann das, weil betriebswirtschaftliche oder technische Probleme in mathematische Probleme verwandelt werden können und über Algorithmen lösbar werden.

Welche Kompetenzen muss ein Data Scientist haben?

Ein Data Scientist (Datenwissenschaftler) ist jedoch mehr als ein datenaffiner IT-Nerd. Er vereinigt verschiedene Kompetenzfelder.

Einerseits muss er die entsprechenden Tools für eine IT-gestützte Analyse beherrschen. Data Science fängt in der Regel da an, wo einfache Excel-Funktionen nicht mehr zu ausreichender Ergebnisqualität führen, entweder weil die Datenmenge zu groß ist oder die Algorithmen – also die Techniken zur mathematischen Analyse von Daten – fehlen. Viele technische und betriebswirtschaftliche Probleme im Unternehmen lassen sich durch mathematische Probleme darstellen. Ein Data Scientist muss also auch die Transferleistung erbringen können, operative oder strategische Management-Entscheidungen durch analytische Probleme ausdrücken zu können.

Data Science

Dies geschieht im Sinne von Ursache-Wirkungsprinzipien. Eine wichtige Fähigkeit wird häufig unterschätzt: ein Data Scientist muss auch das nötige Domain-Knowledge (oder auch Domänenwissen) der Branche oder der Unternehmensfunktion mitbringen, für die er Hypothesen aufstellen will oder Antworten sucht. Dömanenwissen ist das im Unternehmen und in den Produkten kumulierte, übergeordnete Anwendungswissen, das den Erfolg des Unternehmens in einem Geschäftsfeld ausmacht.

Es sind die Erfahrung, die Fertigkeiten, die Kompetenzfelder, die für den Erfolg Unternehmens maßgeblich sind. Domänenwissen kann auch auf völlig andere Produkte, ja sogar Branchen übertragen werden. Ein Beispiel: Auf Basis des Domänenwissens ließe sich argumentieren, dass der Staubsaugerhersteller Dyson auch Atemgeräte herstellen könnte, denn das Unternehmen hat die Kompetenz, hochwertige und präzise Geräte im Bereich Luftströmung mit einer exzellenten Filtertechnik herzustellen.

Der Datenwissenschaftler (Data Scientist) muss also wissen, wie das Unternehmen funktioniert und welche Besonderheiten zu berücksichtigen sind und vor allem – wo die Werthebel liegen! Das heißt beispielsweise zu wissen, wie der Vertriebsprozess funktioniert. Was sind die Erfolgsfaktoren in der Logistik? Welche Parameter kommen überhaupt in Frage, wenn ich eine statistische Untersuchung der Qualität im Produktionsnetz durchführen will? Die Paarung aus menschlichem Erfahrungswissen und algorithmischer Analyse-Kraft ist also die Grundvoraussetzung für die Generierung von neuen Erkenntnissen.

Schließlich baut man auf das Verständnis der Pain-Points im Unternehmen auf. Data Science ist kein Selbstzweck, sondern muss da ansetzen, wo durch bessere Entscheidungen auch Kosten gespart oder Umsätze gesteigert werden können. Werthaltig wird ein Optimierungsansatz erst, wenn die Datenanalyse mit menschlichem Erfahrungswissen kombiniert wird, denn dann können daraus die richtigen Schlussfolgerungen gezogen werden und das beschreibt das Domain-Wissen.

Data Science ist für alle Unternehmen anwendbar

Kritiker kommen häufig mit dem Einwand, dass sich das im eigenen Unternehmen nicht umsetzen ließe, weil die Datenlage schlecht sei. Aber: Data Science ist kein theoretisches Konzept, dass nur einigen High-Tech-Unternehmen vorbehalten ist. Anwenden lässt sich das in jedem Unternehmen, weil jedes Unternehmen ausreichend Daten erzeugt. Das gilt vielleicht nicht für jeden Bereich, allerdings gibt es heute erfahrungsgemäß schon in jedem Unternehmen 3-4 Bereiche, für die eine Anwendung Sinn macht.

Ein Beispiel ist Predictive Maintenance (Prädiktive Instandhaltung). Dies ist in der Umsetzung nicht so komplex, wie viele vermuten, denn der Vorteil ist, dass in sehr vielen Branchen ausreichend Prozess- und Betriebsdaten zur Verfügung stehen. In der Windindustrie besteht etwa die Schwierigkeit für einen Betreiber von Windkraftanlagen darin, die Standfestigkeit aller installierten Anlagen im Blick zu haben. Darüber hinaus muss er die Service-Teams möglichst effizient koordinieren, also immer dahin schicken, wo ein hohes Risiko herrscht. Hier lässt sich die Mustererkennung anwenden: Anlagenausfälle sind keine Zufälle, sondern lassen sich an statistischen Grenzwerten der Betriebs- und Sensordaten festmachen. Das bedeutet, dass sich zukünftige Anlagenausfälle sehr gut anhand von historischen Daten prognostizieren lassen. Selbst schlechte Daten lassen sich durch die richtigen Tools aufbereiten.

Mit erprobten Algorithmen können große Datenmengen mittlerweile automatisiert nach Datenlücken oder Datenfehlern durchsucht werden. Ausreißer, völlig unplausible Datenreihen oder gar Formatierungsfehler können so schnell identifiziert werden. Sicher muss die Menge an verfügbaren Daten aber ausreichend hoch sein, um statistische Signifikanz zu ermöglichen. So können etwa mit nur 4 Werten beispielsweise keine guten Prognosen erstellt werden.

Allerdings ist eine zu geringe Datenmenge durch die fast durchgängige Verwendung von Datenerfassungssystemen in den Unternehmen in der Regel selten das Problem. Die Daten liegen aber häufig unstrukturiert in den unterschiedlichsten Bereichen im Unternehmen vor. Auch dies ist aber kein Problem, denn mit den verfügbaren Tools lassen sich verteilte Datenstämme mittlerweile sehr effizient zusammenführen.

Die Ausreden der Unternehmen, Data Science Projekte zu verschieben, sollten sich also in Zukunft ausdünnen lassen. Was noch fehlt, ist der Mut der Unternehmen, die Projekte auch anzugehen, denn eine magische KI-Black-Box, die mit Daten befüllt wird und dann automatische Antworten ausspuckt, die gibt es nicht. Data Science heißt: Modelle entwickeln, Daten nutzen und Muster erkennen oder Prognosen erstellen und dann mit dem Erfahrungswissen des Menschen die Ergebnisse interpretieren und konkrete Maßnahmen ableiten. Genauso wie in normalen Projekten zur Produktivitätssteigerung nur jetzt eben mit algorithmischer Analysestärke.

Horst Wildemann

Univ.-Prof. Dr. Dr. h.c. mult. Horst Wildemann

Logo TCW

Dr. Sebastian Eckert

Dr. Sebastian Eckert

Logo TCW

Ihre Meinung ist uns wichtig

Bitte nehmen Sie an unserer Umfrage teil