On-Sensor-KI

Image 1 | The Triton smart camera from Lucid has a dual ISP design that enables simultaneous image and AI processing. The integrated ISP of the IMX501 image sensor prepares the captured images as an input sensor for the AI engine.
The Triton smart camera from Lucid has a dual ISP design that enables simultaneous image and AI processing. The integrated ISP of the IMX501 image sensor prepares the captured images as an input sensor for the AI engine.Image: Lucid Vision Labs Inc

Herkömmliche Bildverarbeitungssensoren erfassen meist Rohbilddaten und übertragen diese zur Analyse an externe Systeme wie PCs oder Cloud-Server. Zwar erlaubt dieser Ansatz den Einsatz komplexer KI-Modelle und erweiterte Vor- und Nachverarbeitung, er geht jedoch oft über das hinaus, was für viele Anwendungen nötig ist. Zudem entstehen zusätzliche Latenzen, ein höherer Energie- und Bandbreitenbedarf sowie eine gesteigerte Systemkomplexität und höhere Kosten. Im Gegensatz dazu verbessert die direkte Integration von KI-Verarbeitung im Sensor selbst die Verarbeitungseffizienz und Reaktionsgeschwindigkeit, während die Rechenressourcen des Host-PCs für andere Aufgaben zur Verfügung stehen. Auf dem Gerät ausgeführte Machine-Learning-Algorithmen ermöglichen eine unmittelbare Inferenz und reduzieren den Bedarf an großen Datenübertragungen an zentrale Systeme deutlich. Trotz geringerer Rechenleistung bietet diese Architektur eine effiziente und praktikable Lösung für viele Anwendungen – mit schnelleren Reaktionen, reduziertem Bandbreitenbedarf und kompakteren, kostengünstigeren Systemen.

Der IMX501 Image Sensor von Sony ist ein Paradebeispiel für diese neue Generation intelligenter Sensoren. Der 12,3MP CMOS-Rolling-Shutter-Sensor (4.056×3.040 Pixel) verfügt über integrierte KI-Verarbeitung durch einen eingebetteten ISP (Image Signal Processor), DSP (Digital Signal Processor) und 8MB On-Chip-SRAM. Durch das Sensor-Design erfolgt die KI-Inferenz vollständig offline, eine Internet- oder Cloud-Verbindung ist nicht erforderlich. Dies ist ideal für Automatisierungsumgebungen, in denen abgeschottete Netzwerke ohne externe Abhängigkeiten bevorzugt werden. Um das volle Potenzial der On-Sensor-KI-Funktion des IMX501 zu nutzen, ist eine optimal abgestimmte Softwarepipeline entscheidend – insbesondere angesichts der begrenzten Speicherkapazitäten. Die Triton Smart-Kamera verwendet Neuralas Brain Builder, um KI-Modelle zu erstellen, ohne dass manuelle Anpassungen wie Modellverkleinerung oder Architektur-Tuning erforderlich sind. Bereits mit nur 50 Bildern pro Klasse lassen sich präzise Klassifikations- und Objekterkennungsmodelle erstellen. Die Software übernimmt die Modelloptimierung automatisch, wählt geeignete neuronale Netzwerke aus und sorgt für nahtlose Integration – auch für Nutzer ohne tiefgreifende KI-Kenntnisse.

Image 2 | Workflow of the Triton smart camera
Workflow of the Triton smart cameraImage: Lucid Vision Labs Inc

Dual-Path-Verarbeitung

Die Triton Smart-Kamera von Lucid Vision integriert den IMX501 in ein kompaktes industrielles Gehäuse (29x29mm, 68g), in dem M12- und M8-Anschlüsse integriert sind, die eine sichere Ethernet- und GPIO-Verbindung gewährleisten. Optional ist auch ein IP67-geschützter Objektiv-Tubus erhältlich. Die Kamera ist für einen Betriebstemperaturbereich von -20 bis +55°C ausgelegt und resistent gegenüber Erschütterungen und Vibrationen, also ideal für den Dauereinsatz in der Produktion, im Lager oder im Außenbereich.

Die Kamera verfügt über ein Dual-ISP-Design, das gleichzeitige Bild- und KI-Verarbeitung ermöglicht. Der integrierte ISP des IMX501 bereitet die aufgenommenen Bilder als Eingabetensor für die KI-Engine auf. Unterschiedliche KI-Modelle benötigen unterschiedliche Eingabeformate wie Klassifikation (256×256 Pixel), Objekterkennung (320×320 Pixel) oder Anomalie-Erkennung (512×512 Pixel). Nach der Inferenz wird der Ausgabetensor generiert, beide Tensoren enthalten die Ergebnisse der KI-Analyse. Parallel dazu wird das Rohbildmaterial an einen zweiten ISP im FPGA der Kamera weitergeleitet, der wie bei herkömmlichen Bildverarbeitungskameras arbeitet.

Die KI-Ergebnisse werden als Chunk-Daten eingebettet und mit dem finalen Bild kombiniert, d.h. visuelle Ausgabe und Metadaten erfolgen in einem einzigen Datenstrom an den Host-PC. Die Kamera bietet drei Ausgabeoptionen: das reguläre Bild, den Eingabetensor (vom KI-Modul verarbeitetes Bild) und den Ausgabetensor (Inferenz-Ergebnisse). Für Anwendungen mit höheren Bildraten oder Datenschutzanforderungen kann das reguläre Bild auf 4×4 Pixel reduziert werden, bei gleichzeitiger Übertragung der Inferenzdaten. Im Vollbildmodus (4.056×3.040 Pixel) mit KI-Inferenz beträgt die Bildrate 8fps. Durch Reduktion des regulären Bildes auf 4×4 Pixel sind bis zu 30fps möglich. Die Dual-Pfad-Architektur stellt sicher, dass hochwertige Bildverarbeitung und Echtzeit-KI-Inferenz parallel möglich sind – ohne Einschränkungen bei typischen Kamerafunktionen wie Gain, Gamma, Black Level, Weißabgleich, LUT, CCM, Pixelkorrektur, Farbton, Sättigung, Farbraumkonvertierung oder ROI.