Fundament für KI-Applikationen

Wie sammelt man Rohdaten im Data Lake?

Eine Voraussetzung bei der Entwicklung von industriellen KI-Anwendungen sind ausreichende Daten. Diese sind jedoch nicht immer in der benötigten Menge, Qualität oder Struktur vorhanden. Anhand eines konkreten Beispiels erläutert dieser Beitrag, wie sich ein Data Lake anlegen und mit Daten füllen lässt, bis er ein Fundament für quasi beliebige KI-Applikationen bildet.

Die AIM Agile IT Management hat sich darauf spezialisiert, Data Lakes zur Sammlung von historischen und Rohdaten anzulegen und in Betrieb zu nehmen, wie sie zur Entwicklung von industriellen KI-Anwendungen benötigt werden. Ein Data Lake hat die Aufgabe, Daten aus einer Datenquelle unstrukturiert und ohne eine Transformation zu speichern. So wird jede Änderung an Datensätzen roh abgelegt. Im späteren Verlauf entsteht eine Datenbasis, die sich zur Lösung von Problemstellungen analysiert lässt. Das illustriert folgendes Beispiel. Für die Softwarefirma MediFox sollte mit industrieller KI eine Anwendung erstellt werden, die die Kündigungswahrscheinlichkeit ihrer Kunden vorhersagen kann. Mit Hilfe einer solchen Vorhersage (Churn Prediction) sollte auf ein eventuelles Kündigungsrisiko reagiert werden können. Die Churn Prediction sollte aufgrund der vorhandenen Daten des Kundeninformationssystems (KIS), des Customer-Relationship-Management-Systems (CRM) und des Servicedesks des Kunden realisiert werden. Im Fall einer Churn-Prediction-Anwendung kann man durch eine nachträgliche Transformation auf die notwendigen Daten zugreifen:

Jira Extractor: Datensätze aus Jira werden im Parquet-Format in den Data Lake geschrieben. Das 
erlaubt eine Referenz auf die gültige Schema Version in der Registry.
Jira Extractor: Datensätze aus Jira werden im Parquet-Format in den Data Lake geschrieben. Das erlaubt eine Referenz auf die gültige Schema Version in der Registry. Bild: AIM – Agile IT Management GmbH
  • Wann hat sich ein Ansprechpartner beim Endkunden geändert?
  • Wann hat der Endkunde neue Lizenzen erworben bzw. wann wurde eine Lizenz verändert oder abbestellt?
  • Wie ist die Zahlungsmoral des Kunden über die Zeit hinweg?
  • Hierzu werden die Rohdaten aus drei verschiedenen Systemen benötigt:
  • Endkundeninformationen aus dem Kundeninformationssystem (KIS)
  • Rohdaten zu Service Requests und Incidents aus dem Jira Servicedesk
  • Lizenzinformationen aus einer Lizenzdatenbank.

Asynchrone Datenverarbeitung

Zunächst werden die Rohdaten aus den Systemen extrahiert. Dazu muss für jedes System eine geeignete Schnittstelle identifiziert werden. Generell können Daten aus Systemen per Push- oder Pull-Mechanismus extrahiert werden und werden dann mithilfe eines Service in einen Kafka Topic geschrieben. Nun können die Daten asynchron verarbeitet werden, somit wird auch das eventuelle Risiko eines Rückstaus bei der Extraktion minimiert. Gleichzeitig stellt Kafka sicher, dass ein transaktionaler Kontext die Konsistenz aller zu speichernden Daten sicherstellt. Die zu speichernden Daten können ebenso binäre Formate enthalten, da die Transformation in weiterführende Daten bei der Ablage noch keine Rolle spielt. „Da wir in einer privaten Cloud beginnen und später in eine AWS- oder Microsoft-Azure- basierte Umgebung zur Speicherung der Daten im Data Lake wechseln können müssen, nutzen wir MinIO als Abstraktion des Dateisystems. MinIO stellt aus Sicht der Applikation immer einen S3-Bucket zur Verfügung. Auf diese Weise sind auch hybride Umgebungen oder Umzüge der Datenbasis kein Problem für den Data Lake“, sagt Carsten Hilber, AIM Co-Founder & DevOps Engineer.

Der KIS Extractor wird zeitgesteuert alle Daten aus dem KIS anfordern und bekommt so Batches aus der Schnittstelle zurück.
Der KIS Extractor wird zeitgesteuert alle Daten aus dem KIS anfordern und bekommt so Batches aus der Schnittstelle zurück. Bild: AIM – Agile IT Management GmbH

Jira Extraktion

Im konkreten Beispiel des Jira Servicedesk geschieht das durch ein Plugin, das neu angelegte und geänderte Service Requests erkennt und zur Ablage an den Data Lake sendet. Gleichzeitig überprüft der Service, der die Daten ablegt, ob sich die Struktur der Datensätze geändert hat. Dies kann bedeuten, dass ein neues Feld hinzugefügt wurde. Diese Änderungen werden in einer Avro Schema Registry gespeichert, sodass die Veränderung der Struktur von Data Scientists ebenso zur Lösungsentwicklung in Betracht gezogen werden kann. Änderungen oder Neuanlagen von Service Requests werden vom Jira Extractor erkannt und im JSON-Format in einen Topic geschrieben. Dort wird die Schemaänderung vom Exporter abgeholt und ebenfalls in den Data Lake geschrieben. Datensätze aus Jira werden im Parquet-Format in den Data Lake geschrieben, was ebenfalls eine Referenz auf die gültige Schema Version in der Registry erlaubt.

Von der Datenerfassung zur KI-Applikation.
Von der Datenerfassung zur KI-Applikation.Bild: AIM – Agile IT Management GmbH

KIS Extraktor

Die Kundendaten liegen in diesem Fall in einer kundenseitigen Applikation auf FileMaker-Basis. FileMaker bietet eine REST-Schnittstelle, um die Daten zu extrahieren, zurückgegeben werden sie im JSON-Format. FileMaker bietet außerdem eine Schnittstelle zum Extrahieren der verwendeten Datenformate aller Felder, was die Extraktion des Schemas erleichtert. Die Daten werden jede Nacht abgerufen und als Batch verarbeitet. Dabei wird der KIS Extraktor zeitgesteuert alle Daten aus dem KIS anfordern und bekommt so Batches aus der Schnittstelle zurück. Diese werden nun in die einzelnen Objekte aufgeteilt und in einen Topic geschrieben. Hierdurch wird ebenfalls der Schema Extractor aufgefordert, das aktuelle Schema für den jeweiligen Datensatz zu prüfen. Der Schema Extractor nutzt eine Avro Schema Registry, um das Schema abzugleichen und gegebenenfalls fortzuschreiben. Alle einzelnen Objekte aus dem ursprünglichen Batch werden jetzt zu einem richtigen Objekt zusammengesetzt, welches im Avro-Format serialisiert wird. Das eigentliche Objekt wird dann im Parquet-Format in den Data Lake geschrieben.

Seiten: 1 2Auf einer Seite lesen

AIM - Agile IT Management GmbH

Das könnte Sie auch Interessieren

Anzeige

Anzeige

Bild: ©NicoElNino/stock.adobe.com
Bild: ©NicoElNino/stock.adobe.com
Strukturierter Beratungsansatz für KI-Einsatzbereiche im Unternehmen

Strukturierter Beratungsansatz für KI-Einsatzbereiche im Unternehmen

„Künstliche Intelligenz ist eine, wenn nicht die wichtigste Zukunftstechnologie für Unternehmen.“ Diese Aussage bejahen 70 Prozent der Befragten der jüngsten Bitkom-Studie zu KI. Aber nur 10 Prozent aller Unternehmen haben KI-Technologie aktiv im Einsatz, lediglich 30 Prozent planen und diskutieren deren Anwendung. Was ist der Grund für diese große Diskrepanz?

Bild: Blue Yonder, Inc.
Bild: Blue Yonder, Inc.
Künstliche Intelligenz – mehr als eine Wissenschaft

Künstliche Intelligenz – mehr als eine Wissenschaft

Data Science ist mittlerweile ein fester Bestandteil der strategischen Planung in vielen Unternehmen. Um künftige Entwicklungen realistisch zu planen, brauchen wir Künstliche Intelligenz (KI) und Maschinelles Lernen (ML). Insbesondere im Einzelhandel vertrauen immer mehr große Player auf KI-Lösungen, die präzise Prognosen ermöglichen und zum Beispiel Bestände oder Preise optimieren. Doch viele Entscheidungsträger glauben noch nicht daran, dass KI in den Lieferketten der Zukunft eine tragende Rolle spielen wird. Der Grund hierfür liegt in einer falschen Sicht auf die Wissenschaft.

Bild: ©Stock57/stock.adobe.com
Bild: ©Stock57/stock.adobe.com
KI-Verfahren für die Produktion

KI-Verfahren für die Produktion

Mathematiker der Hochschule Darmstadt (h_da) entwickeln gemeinsam mit dem Hanauer Simulationsdienstleister und Softwareunternehmen SimPlan und dem Automationsexperten Fibro Läpple Technology neue KI-Technologien. Im Rahmen des Loewe-Projekts ‚KISPo‘ will das Konsortium eine autonome, selbstlernende Steuerungssoftware für Produktionsanlagen entwickeln, wie sie z.B. bei der Herstellung von Komponenten für Windräder oder Elektromotoren zum Einsatz kommen. Es wäre die erste KI-Software dieser Art. Damit würde eine von Industrieverbänden und Forschung lange bemängelte Technologielücke geschlossen. Das Land Hessen fördert das Projekt für zwei Jahre mit 320.000 Euro. Konsortialführerin ist die Hochschule Darmstadt.

Bild: ©NicoElNino/stock.adobe.com
Bild: ©NicoElNino/stock.adobe.com
Chancen und Herausforderungen von Machine Learning in der Fertigung

Chancen und Herausforderungen von Machine Learning in der Fertigung

Automatisierung, künstliche Intelligenz (KI), Internet of Things (IoT) und Machine Learning (ML) sind heutzutage bekannte Technologien und kommen bereits in vielen Unternehmen zum Einsatz. Mit Hilfe von Machine Learning wird es IT-Systemen ermöglicht, Muster und Zusammenhänge aus Daten zu lernen und sich selbst zu verbessern. Dabei ist keine explizite Programmierung notwendig. Die Bearbeitung von Kundenanfragen, die Erkennung möglicher Störfälle sowie unerwarteter Ereignisse wie z.B. Cyberangriffe sind klassische Anwendungsfelder von ML. Aber auch die Unterstützung bei einer rein datengestützten Entscheidungsfindung und die Interpretation großer Datenmengen gehören dazu.

Bild: ©Shuo/stock.adobe.com
Bild: ©Shuo/stock.adobe.com
Sensoren lernen das Denken

Sensoren lernen das Denken

Im Fraunhofer-Leitprojekt NeurOSmart forscht das Fraunhofer IPMS zusammen mit vier weiteren Instituten (ISIT, IMS, IWU, IAIS) unter Leitung des Fraunhofer ISIT gemeinsam an energieeffizienten und intelligenten Sensoren für die nächste Generation autonomer Systeme. Dabei sollen die Brücken zwischen Wahrnehmung und Informationsverarbeitung durch innovative Elektronik neu definiert werden.

Bild: ©ipopba/stock.adobe.com
Bild: ©ipopba/stock.adobe.com
Wie KI 2022 praktikabel wird

Wie KI 2022 praktikabel wird

Künstliche Intelligenz war bereits in der Vergangenheit in aller Munde, schaffte es aber doch oft nicht bis in die Anwendung. Das wird sich 2022 ändern – auch weil sich langsam Standards etablieren und sich neue, konkrete Einsatzmöglichkeiten ergeben. In welchen Bereichen Business-Implementierungen zu erwarten sind, erläutert Bernhard Niedermayer, Head of AI bei Cloudflight.

Anzeige

Anzeige

Anzeige