Vom Prototypen zur Lösung
Raus aus der Proof-of-Concept-Hölle
Bild: ©metamorworks/stock.adobe.com
Viele Unternehmen scheitern daran, die Prototypen ihrer Data-Analytics-Projekte in eine produktive, skalierbare Lösung zu überführen. Entscheidend dafür sind gute Planung und ein langer Atem, meint Danny Claus von DoubleSlash.
Machine Learning (ML) lebt davon, dass Daten in ausreichender Menge und Qualität zur Verfügung stehen, um die Algorithmen zu füttern, die dann Muster und Gesetzmäßigkeiten erkennen. Dies wiederum bildet die Basis dafür, dass Maschinen tatsächlich selbstständig lernen und ihre Funktion den Gegebenheiten anpassen können. Der Mangel an Daten – die auch in der erforderlichen Qualität vorliegen müssen – gilt als einer der größten Stolpersteine auf dem Weg zu einer ML-Lösung. Dabei gilt: Was als Proof of Concept funktioniert, ist noch lange nicht reif für den Einsatz in der Produktion. Die Herausforderungen und die Komplexität bei der Umsetzung von Data-Analytics-Projekten werden oft unterschätzt. Deshalb schaffen es bislang nur wenige Projekte tatsächlich in den produktiven Betrieb. Wer die Hürden nehmen will, muss gut und vor allem frühzeitig planen.
80 Prozent Datenintegration
Stehen die benötigten Daten gar nicht oder in nicht ausreichender Menge zur Verfügung, kann es sein, dass Maschinen und Anlagen entweder noch nicht mit den notwendigen Sensoren und Funktionen ausgestattet sind oder sie liefern nicht alle benötigten Informationen. Doch selbst wenn die Daten verfügbar sind, verteilen sie sich oft auf unterschiedliche Fachbereiche – isolierte Datensilos aber machen eine übergreifende Auswertung der Daten unmöglich. Für die Datenintegration sollten daher etwa 80 Prozent des Gesamtaufwands bei Data-Analytics-Projekten eingeplant werden. Bereits in einer sehr frühen Phase des Produktdesigns sollten die datentechnischen Voraussetzungen für Machine Learning betrachtet sowie anhand eines konkreten Use Cases definiert werden, welche Daten später benötigt werden. Im Anschluss empfiehlt es sich, möglichst viele Informationen zu übermitteln bzw. parallel zu klären, welche Technologien zum Einsatz kommen sollen. Beispielsweise stellt sich die Frage, ob der Einsatz von Cloud- und Big-Data-Technologien sinnvoll ist. Viele Anwendungen lassen sich auch mit einfacheren Methoden und Technologien umsetzen. So kommt man beispielsweise über den Einsatz simpler regel- oder schwellwertbasierter Verfahren und Visualisierungen mit BI-Dashboards schnell und deutlich günstiger ans Ziel.
Durchdachte Datenverwaltung
Für größere Unternehmen kann es sinnvoll sein, einen Data Lake zu schaffen, in dem Daten kontinuierlich zusammengeführt werden. Aufwand und Kosten dieser Herangehensweise sollten jedoch gegen den möglichen Mehrwert abgewogen werden. Allzu oft allerdings reichen Menge und Qualität der verfügbaren Daten – zumindest am Anfang – nicht aus, um das Projekt wirklich erfolgreich zu machen. Entweder sind Datenbestände unvollständig bzw. fehlerhaft oder sie decken nur einen kurzen Zeitraum ab. Daher sollte bereits in einer sehr frühen Projektphase geprüft werden, ob Datenqualität und -quantität ausreichen, um einen Use Case aufzubauen und die gesetzten Ziele zu erreichen. Reichen sie nicht, muss zunächst sichergestellt werden, ob, wie und bis wann die benötigten Daten zur Verfügung stehen. Es genügt nicht, mit dem Sammeln der Daten erst zu beginnen, wenn ein Machine Learning Projekt gestartet wird.