Bessere Zeichenerkennung dank Deep Learning

OCR neu gedacht

OCR spielt eine wichtige Rolle bei der Identifikation von Objekten in industriellen Produktions- und Logistikprozessen. In der neuen Halcon-Version steht nun mit Deep OCR ein neues Feature zur Verfügung, das die Zeichenerkennung mit Hilfe von Deep Learning optimiert. Durch die automatische Gruppierung von Zeichen können auch ganze Wörter identifiziert werden.
Bild: MVTec Software GmbH

Die optische Zeichenerkennung (OCR: Optical Character Recognition) ist nicht nur in der Bürokommunikation, wie etwa bei der textlichen Erfassung gescannter Dokumente, von Bedeutung. Auch im industriellen Umfeld spielt die Technologie eine wichtige Rolle. Beispielsweise lassen sich aufgedruckte Seriennummern erfassen und automatisch auslesen, um Produkte im Warenfluss sicher zu identifizieren und nachzuverfolgen. Dabei muss die OCR-Software auch unter rauen Industriebedingungen Zahlen- oder Buchstaben-Codes präzise lesen, um die Objekte eindeutig zuordnen zu können. So müssen auch schwer leserliche, verzerrte, verschwommene, unscharfe oder schräg gestellte Zeichen zuverlässig erkannt werden, auch auf stark reflektierenden Hintergründen. Mit modernen Machine-Vision-Technologien lassen sich diese hohen Anforderungen sehr gut abdecken. Dank integrierter Funktionen auf Basis von künstlicher Intelligenz (KI) werden hiermit passable Erkennungsraten erreicht. Dabei bietet sich insbesondere Deep Learning an, um anspruchsvolle OCR-Aufgaben anzugehen. Durch ein umfassendes Training anhand großer Mengen von Bilddaten lernen die Software-Algorithmen eigenständig, eine große Bandbreite an Schriftzeichen unter verschiedensten Bedingungen sicher zu erkennen. OCR-Klassifikatoren sorgen dafür, dass sich zahlreiche, vortrainierte Schriftarten wie Dot-Print-, SEMI-, industrielle und dokumentenbasierte Fonts präzise lesen lassen. Allerdings haben herkömmliche, regelbasierte OCR-Technologien einige Schwächen. So gibt es zahlreiche Parameter, mit denen vor allem die Segmentierung einzelner Buchstaben der jeweiligen Applikation angepasst werden muss. Im Nachgang müssen die dann gefundenen und einzeln gelesenen Buchstaben bestimmten Wörtern zugeordnet werden. Kein einfaches Unterfangen, wenn der Kontext des zu lesenden Textes nicht bekannt ist. So liefern konventionelle Lösungen noch nicht die Erkennungsergebnisse, die mit KI möglich wären.

OCR unabhängig von Schrifttyp & Rotation

 Deep OCR liest Dot-Print und gruppiert zusammengehörende Zeichen automatisch.
Deep OCR liest Dot-Print und gruppiert zusammengehörende Zeichen automatisch.Bild: MVTec Software GmbH

Mit dem Feature Deep OCR, das in die aktuelle Version 20.11 der Machine-Vision-Standardsoftware Halcon integriert ist, bedarf es keiner Segmentierung einzelner Zeichen mehr. Die Technologie nutzt zwei spezifisch vortrainierte Deep-Learning-Netze: Eines dient dazu, komplette Wörter anstatt einzelne Buchstaben im Bild zu finden. Als Ergebnis wird die genaue Position des jeweiligen Wortes mit einem umschließenden Rechteck (Bounding Box) gekennzeichnet. Das zweite Netz hingegen ist speziell auf das Lesen des Wortes trainiert. Der wesentliche Unterschied zu herkömmlichen Verfahren besteht darin, dass beide Schritte der Zeichenerkennung – also das Finden sowie das Lesen der Wörter – auf Deep-Learning-Algorithmen basieren und ganze Wörter anstatt einzelner Buchstaben gelesen werden. Der große Vorteil dieses dualen Ansatzes: Es müssen nur wenige Parameter an die jeweilige Applikation angepasst werden. So arbeitet die Technologie völlig unabhängig vom Schrifttyp, gleich ob Dot-Print-, Kursivschrift oder Schlagzahlen. Auch die Rotation und Ausrichtung des Textes im Bild sowie die Polarität – also ob schwarze Zeichen auf weißem Hintergrund oder umgekehrt – spielen keine Rolle. Denn hinsichtlich dieser Parameter wurde das Netz bereits trainiert, sodass keine entsprechenden Einstellungen mehr manuell vorzunehmen sind. Dabei lassen sich die beiden Netze auch unabhängig voneinander nutzen. Dies macht beispielsweise Sinn, wenn die genaue Position des jeweiligen Wortes im Bild bereits bekannt ist. Dann kann Deep Learning ausschließlich für das Lesen des Textes verwendet werden, womit sich massiv Rechenkapazität einsparen lässt. Dies ist insbesondere dann von Bedeutung, wenn Deep OCR auf einer weniger performanten Hardware läuft. Kann aufgrund von Vorinformation auf das Finden des Textes verzichtet werden, lässt sich auf einer Standard-CPU eine Ausführungszeit von etwa 10ms realisieren. Auf einer Midrange-GPU beträgt die Laufzeit sogar nur 5ms, was für eine Deep-Learning-Anwendung sehr schnell ist.

MVTec Software GmbH

Das könnte Sie auch Interessieren

Bild: Fraunhofer IGD
Bild: Fraunhofer IGD
Software Arrange beschleunigt Absortierprozesse

Software Arrange beschleunigt Absortierprozesse

In Kombination mit einer Augmented-Reality-Brille bietet eine neue Software des Fraunhofer IGD digitale Unterstützung von Absortiervorgängen. Zusammengehörige Bauteile werden direkt im Sichtfeld der Beschäftigten an der Produktionslinie farblich überlagert. Anwender im Automotive-Bereich können so etwa durch beschleunigte Prozesse und eine minimierte Fehleranfälligkeit Kosten reduzieren.

Bild: Coscom Computer GmbH
Bild: Coscom Computer GmbH
Software-Plattform für KI und maschinelles Lernen

Software-Plattform für KI und maschinelles Lernen

Vermehrt interessieren sich Unternehmen dafür, auf Basis ihrer Fertigungsinformationen Verbesserungspotenziale in der Produktionsplanung und -steuerung zu heben. Maschinelles Lernen und künstliche Intelligenz (KI) kann aber nur dann wirtschaftlich sinnvoll eingesetzt werden, wenn alle relevanten Daten im Zugriff sind und deren Struktur zu den Anwendungen passen. Das Coscom-ECO-System soll eine Plattformökonomie als Basis für Business Intelligence (BI) bieten.

Bild: Benteler International AG
Bild: Benteler International AG
Produktionsfehler: KI findet die Nadel im Heuhaufen

Produktionsfehler: KI findet die Nadel im Heuhaufen

In der Qualitätsprüfung ist Zeit ein wichtiger Faktor: Wer Fehler rechtzeitig findet, kann sie effektiv und kostensparend beheben. Gemeinsam mit dem Fraunhofer IEM setzt der Automobilzulieferer Benteler dafür in der Warmumformung von Fahrzeugteilen auf Echtzeit-Sensordaten und Künstliche Intelligenz. Damit können Produktionsfehler schneller erkannt, behoben und zukünftig sogar vermieden werden.

Bild: ©NicoElNino/stock.adobe.com
Bild: ©NicoElNino/stock.adobe.com
Strukturierter Beratungsansatz für KI-Einsatzbereiche im Unternehmen

Strukturierter Beratungsansatz für KI-Einsatzbereiche im Unternehmen

„Künstliche Intelligenz ist eine, wenn nicht die wichtigste Zukunftstechnologie für Unternehmen.“ Diese Aussage bejahen 70 Prozent der Befragten der jüngsten Bitkom-Studie zu KI. Aber nur 10 Prozent aller Unternehmen haben KI-Technologie aktiv im Einsatz, lediglich 30 Prozent planen und diskutieren deren Anwendung. Was ist der Grund für diese große Diskrepanz?

Bild: Blue Yonder, Inc.
Bild: Blue Yonder, Inc.
Künstliche Intelligenz – mehr als eine Wissenschaft

Künstliche Intelligenz – mehr als eine Wissenschaft

Data Science ist mittlerweile ein fester Bestandteil der strategischen Planung in vielen Unternehmen. Um künftige Entwicklungen realistisch zu planen, brauchen wir Künstliche Intelligenz (KI) und Maschinelles Lernen (ML). Insbesondere im Einzelhandel vertrauen immer mehr große Player auf KI-Lösungen, die präzise Prognosen ermöglichen und zum Beispiel Bestände oder Preise optimieren. Doch viele Entscheidungsträger glauben noch nicht daran, dass KI in den Lieferketten der Zukunft eine tragende Rolle spielen wird. Der Grund hierfür liegt in einer falschen Sicht auf die Wissenschaft.

Bild: ©Stock57/stock.adobe.com
Bild: ©Stock57/stock.adobe.com
KI-Verfahren für die Produktion

KI-Verfahren für die Produktion

Mathematiker der Hochschule Darmstadt (h_da) entwickeln gemeinsam mit dem Hanauer Simulationsdienstleister und Softwareunternehmen SimPlan und dem Automationsexperten Fibro Läpple Technology neue KI-Technologien. Im Rahmen des Loewe-Projekts ‚KISPo‘ will das Konsortium eine autonome, selbstlernende Steuerungssoftware für Produktionsanlagen entwickeln, wie sie z.B. bei der Herstellung von Komponenten für Windräder oder Elektromotoren zum Einsatz kommen. Es wäre die erste KI-Software dieser Art. Damit würde eine von Industrieverbänden und Forschung lange bemängelte Technologielücke geschlossen. Das Land Hessen fördert das Projekt für zwei Jahre mit 320.000 Euro. Konsortialführerin ist die Hochschule Darmstadt.