Interpretation von 3D-Bilder, Bild: Lunghammer/TU Graz

Zusammen mit dem Unternehmen Qualcomm Technologies arbeiten die Forscher an der TU Graz an einer Beschreibung von 3D-Bildern. Bild: Lunghammer/TU Graz

Roboter sehen aufgrund heutiger Technik nur in 2D-Bildern. Die richtige Interpretation des Gesehenen lässt auf zweidimensionaler Ebene allerdings zu wünschen übrig, wie Vincent Lepetit vom Institut für Maschinelles Sehen und Darstellen der TU Graz erklärt: „2D-Bilder geben lediglich Informationen darüber, wo sich ein Objekt ungefähr befindet. Es ist eine flache Information ohne Angaben zur Tiefe von Objekten oder zu deren Position in Relation zu anderen Objekten. Ein Roboter weiß so zum Beispiel nicht genau, wohin er greifen soll“.

Zudem können Bilder zahlreichen Abweichungen unterliegen: Verzerrungen, Unschärfe, ungeplante Bewegungen oder die Ähnlichkeit zu anderen Objekten machen es der Maschine schwer, richtig zu sehen und zu interpretieren. Für eine Umgebungsbeschreibung in 3D reichte die verfügbare Rechenkapazität bislang nicht. „Erfreulicherweise ist die Rechnerleistung in den letzten Jahren aber rasant gestiegen, und das eröffnet uns neue Möglichkeiten in der Computer Vision“, sagt Lepetit.

Der gebürtige Franzose ist der Leiter des neuen „Christian Doppler (CD-)Labors für semantische 3D Computer Vision“, das an der TU Graz eröffnet wurde. In den kommenden sieben Jahren wird er mit seinem Team der TU Graz und gemeinsam mit dem Unternehmenspartner Qualcomm Technologies an einer Bildbeschreibung in 3D arbeiten. Das Ziel: Roboter sollen sich selbstständig in einer reellen, unkontrollierten Umgebung zurechtfinden.

Einsatz von Roboter immer wichtiger

„Der Einsatz von Robotern wird im täglichen Leben sowie der industriellen Produktion immer wichtiger“, so Wissenschafts-, Forschungs- und Wirtschaftsminister Vizekanzler Reinhold Mitterlehner. „Die Forschung in diesem CD-Labor wird dazu beitragen, dass Roboter ihre Umwelt besser visuell wahrnehmen und auf Objekte reagieren können. Die hier erarbeiteten Lösungen sind ein weiterer Schritt zur Industrie 4.0 und können vielfältig genutzt werden, vom selbstfahrenden Auto bis zur Anwendung in Fabriken. Von Forschung und Innovation in diesem Bereich profitieren alle beteiligten Partner und langfristig auch der Standort Österreich, der nur durch Produkte am Puls der Zeit wettbewerbsfähig bleibt“.

Wie Maschinen lernen

Egal ob autonome Fahrzeuge oder roboterunterstützte Fabriken: Maschinen lernen durch Wiederholungen. Werden sie mit Daten gefüttert, können sie Muster erkennen, sich merken und entsprechend handeln. Das bedeutet im Umkehrschluss: Um einer Maschine etwas beizubringen, braucht es bekannte Daten. Dazu Lepetit: „Viele Dinge funktionieren heute, weil im Vorfeld eine Menge Daten generiert wurde, aus deren Wiederholung ein Roboter lernt. Sind keine Daten vorhanden, bleibt nur das mühsame händische Programmieren. Das macht Anwendungen sehr fehleranfällig und wenig flexibel.“

Statistische Methoden reichen für das dreidimensionale Sehen von Computern nicht aus. Im Rahmen des CD-Labors will die Grazer Gruppe auf maschinellem Lernen basierende Ansätze als fundamentale Bausteine für Anwendungen der 3D Computer Vision entwickeln. Nach vielversprechenden Anwendungen von 3D Computer Vision muss nicht lange gesucht werden: die roboterunterstütze Wartung in Fabriken, weit genauere Positionserkennung im Außenbereich oder weiterentwickelte Interaktionsmöglichkeiten zwischen Mensch und Maschine sind nur drei Beispiele.

Lernen von Drohnen, Bild: Lunghammer/TU Graz
Die Forscher an der TU Graz arbeiten auch mit Drohnen im Innen- und Außeneinsatz. Bild: Lunghammer/TU Graz

Roboter brauchen eine möglichst vielfältige Datenquelle um ihre Position auch bei hoher Geschwindigkeit exakt feststellen zu können. Die Forschungsarbeit im CD-Labor für semantische 3D Computer Vision wird daher auf verschiedene Kameratypen und Sensoren zur Umgebungs- und Lageerkennung sowie auf Bewegungs- und Beschleunigungssensoren und Kompasse setzen.

„Wir suchen außerdem nach Wegen einer automatisierten Positionserkennung auf Basis verfügbarer Bilddatenbanken wie Google Street View und durch Nutzung zweidimensionaler Quellen wie Landkarten und Stadtpläne“, so Lepetit. Am Ende des siebenjährigen CD-Labors sollen Roboter ihre vielfältigen Möglichkeiten auch in einer unkontrollierten Umgebung mit unvorhergesehenen bildhaften Situationen besser entfalten.