Computer Vision für vernetzte Paketstation

Das Paketchaos im Office beseitigen, indem unsere Crewies automatisiert über Post benachrichtigt werden. Klingt gut? Finden wir auch! Die OAK–D und ihre depthAI-API machen es möglich: Luxonis’ Computer-Vision-Kamera kombiniert Tiefen- und RGB-Informationen und kann onboard neuronale Netze auf die gewonnen Bilddaten anwenden.

Use Case_

Unser Shared-Working-Space (auch t-8.space genannt) lebt von einer Kultur des Miteinanders. Alles kann, nur weniges muss. Was im ersten Moment super klingt, – ist es auch! Nur manchmal, ganz selten, regiert das Chaos ohne Sinn und ohne Verstand. In diesen Momenten ist es besonders wertvoll, dass wir bei formigas keine Probleme kennen – sondern nur Herausforderungen, für die es auch immer eine Lösung gibt. Manche Lösungen fallen eher pragmatisch aus, andere dagegen hoch technologisiert. So passiert beim Chaos in der hauseigenen Paketstation.

Bild eines Paketstapels

Statt zu jammern, dass sich die Pakete schlimmer stapeln als bei der Poststation des Vertrauens, haben wir uns den (bis dato nicht existenten) internen Distributionsprozess zur Brust genommen. Denn wie wir alle wissen: Dem menschlichen Chaos kann man nur mit Prozesstransformation, Computer Vision und Machine Learning begegnen. Logisch, oder? Ganz konkret bedeutet das: Statt in die Ecke geworfen, werden die Pakete fix unter einer stationären OAK–D Kamera gescannt und die Attribute der Sendung mittels der depthAI-API und verschiedener CV-Frameworks erkannt. Die adressierten Crewies werden von unserem freundlichen Slack-Bot "flik" benachrichtigt und erhalten dazu Informationen über ihr Paket, wie die Größe und den Absender.

Technology in a nutshell_

In unserem Use Case werden im ersten Schritt die Breite und Tiefe des Paketes im RGB-Bild bestimmt. Danach berechnen wir die Höhe im Tiefen-Bild der Stereo-Kameras. Ein YOLOv5-Algorithmus für Objektdetektion, trainiert mit einem Datensatz an Paketbildern, erkennt sowohl das Paket als auch den Aufkleber des Paketzulieferers. Durch Optical Character Recognition mit der Tesseract Engine identifizieren wir die Empfänger:innen des Paketes.

Alle Algorithmik läuft dank der depthAI-API und der einfachen Anbindung von Drittanbieter-Frameworks auf dem Prozessor der Kamera. Paketgröße berechnen, Customized Neural Networks bereitstellen oder Optical Character Recognition – kein Problem für die OAK-D. Zuletzt gleicht unser Chatbot den Empfänger:innennamen mit unseren Crewies ab und sendet der glücklichen Person eine Slack-Nachricht.

Die OAK–D kombiniert Informationen von zwei Stereo-Kameras und einer RGB-Kamera und verrechnet die Bild- und Tiefendaten lokal in neuronalen Netzen. Dank einem niedrigen Einkaufspreis und der Open-Source-Programmierschnittstelle depthAI ist sie ein wahrer Gamechanger für edgeAI-Anwendungen.

Fields of Application_

Durch die Qualität der Hardware und das breite Spektrum an integrierbarer Drittanbieter-Software sind alleine mit der OAK–D eine Vielzahl an Use Cases abbildbar. Neben der OAK–D bietet Luxonis aber noch weitere Kamera-Modelle an. Das Tolle daran: Alle Kameras basieren auf dem gleichen Tech-Stack – sind also grundlegend identisch – und werden für die jeweiligen Spezialisierungen erweitert. Von Embedded-Devices, über Miniatur-Kameras bis hin zum aktiven Infrarot-Laserscanner findet man für jeden Anwendungsfall die passende Hardware.

OAK—D: KI × räumliches Sehen

Stereo-Tiefen-Kamera:
Framerate: 120 fps
Resolution: 1 MP (1280×800px)
FOV: 81° diagonal, 72° horizontal

4K RGB Kamera
Framerate: 60 fps
Resolution: 12 MP (4056×3040px)
FOV: 81° diagonal, 69° horizontal

Processing Unit
→ Vector Processors 
→ Vision Accelerators
→ 2× Neural Compute Engines

Vor allem im Bereich der Robotik bieten die OAK-Kameras großes Potenzial. Gerade KMU können davon profitieren, kostengünstige und auf ihre Anwendungsfälle perfekt zugeschnittene Computer Vision-Lösungen zu kreieren. Zum Beispiel kann Object Detection & Localization für Pick-and-place-Anwendungen genutzt werden, Image Processing zur Qualitätskontrolle oder 3D-Shape-Estimation für räumliche Anwendungen.

Eigene Computer Vision-Lösungen ermöglichen sowohl eine hohe Flexibilität in den eigenen Prozessen, als auch eine Unabhängigkeit von großen Herstellern. Aber auch im Bereich Smart Assistance oder Smart Office können OAK-basierte Lösungen spürbare Mehrwerte schaffen.

Alle Anwendungen können untereinander kombiniert und mit Computer Vision-Algorithmik beliebig erweitert werden – beispielsweise durch die Einbindung der OpenCV-Bibliothek. Für jeden Anwendungsfall kann die Software-Lösung individuell angepasst werden.

Das Experiment wurde bei formigas · Tech-driven Innovation Studio durchgeführt. Beteiligt waren insbesondere: Julian Zellner, Maximilian Schmitt.