Roboter lernen schneller: Mit 3D-Geometrie in 10 Minuten zum Erfolg
Roboter sind heute schon in der Lage, dem Menschen viele Tätigkeiten abzunehmen. Bislang waren dafür umfangreiche Lernschritte nötig. Forschende vom MIT haben nun eine Variante entwickelt, mit der ein Roboter in 10 bis 15 Minuten in der Lage ist, eine neue Aufgabe zu erledigen.
Roboter gehören zu unserer Lebens- und Arbeitswelt inzwischen ganz selbstverständlich dazu. Beispiel Lagerarbeit: Hier sind hauptsächlich Roboter zwischen den einzelnen Regalen am Werk. Sie nehmen Produkte heraus und legen sie in Kartons. Das funktioniert reibungslos, solange der Roboter sich auf ein Produkt konzentrieren kann. Sobald ein anderes hinzukommt – und dabei reicht es schon aus, dass dieses Produkt eine leicht andere Form aufweist – wird es komplizierter. Denn dann muss der Roboter neu lernen, wie er zu greifen hat, um adäquat damit umgehen zu können. Und genau dabei spielt der Faktor Zeit bisher eine große Rolle. Denn das Anlernen ist in der Regel sehr zeitintensiv. Forschenden des Massachusetts Institute of Technology (MIT) ist es nun gelungen, einen Roboter innerhalb von 10 bis 15 Minuten für eine neue Aufgabe zu trainieren. Ihre Technik: ein neuronales Netzwerk.
Das neuronale Netzwerk, dass die MIT-Forschenden einsetzen, wurde speziell für diese Aufgabe entwickelt. Das Besondere: Es kann Formen von 3D-Objekten rekonstruieren. Einer der Forschenden beschreibt es so: „Unser Hauptbeitrag ist die allgemeine Fähigkeit, Robotern, die in unstrukturierten Umgebungen mit viel Schwankungen arbeiten müssen, viel effizienter neue Fähigkeiten zu vermitteln. Das Konzept der Verallgemeinerung durch Konstruktion ist eine faszinierende Fähigkeit, weil dieses Problem normalerweise so viel schwieriger ist“, sagt Anthony Simeonov.
Roboter lernen schneller und können nach zehn Demonstrationen Gegenstände erkennen
Getestet haben die Forschenden ihr neues System in Simulationen und mit einem echten Roboterarm. Die Ergebnisse: Der Arm griff Becher, Schalen und Flaschen, die er nie zuvor gesehen hatte. Sie waren zudem noch zufällig sortiert und wurden zwischendurch sogar umgestellt. Für dieses Ergebnis waren nur zehn Demonstrationen notwendig, damit der Roboter entsprechend trainiert war. Das ist ein Durchbruch für die Forschung, denn bislang konnte ein Roboter angelernt werden, einen Gegenstand aufzuheben. Sobald dieser aber plötzlich anders lag, deutete der Roboter dies als neues Szenario und konnte damit nicht umgehen, ohne nochmals auf diese neue Situation trainiert zu werden. Es war bislang für maschinelle Lernsysteme schwierig, neue Objektorientierungen zu verallgemeinern.
Genau dieser Herausforderung stellten sich die Forschenden und entwickelten als Lösung eine neue Art des neuronalen Netzwerkmodells, ein sogenanntes Neural Descriptor Field (NDF). Es sollte in der Lage sein, die 3D-Geometrie einer Klasse von Gegenständen zu erlernen. Dafür berechne das Modell die geometrische Darstellung mithilfe einer 3D-Punktwolke. Es handelt sich dabei um einen Satz von Datenpunkten oder Koordinaten in drei Dimensionen. Eine spezielle Tiefenkamera könne die Datenpunkte festhalten und so die Informationen über die Entfernung hin zur Verfügung stellen. Zuvor habe man das Netzwerk in einer Simulation umfassend und aufwendig zu synthetischen 3D-Formen trainiert. Das reiche aus, damit es nun bei Objekten in der realen Welt funktioniere.
Roboter lernen schneller dank der Methode der Äquivarianz
Basis des NFD ist die Methode der Äquivarianz. Das bedeutet: Wenn dem Modell ein Bild eines Bechers gezeigt wird, der aufrecht steht, und danach eines vom selben Becher, der auf der Seite liegt, könne das System daraus schlussfolgern, dass es sich bei dem zweiten Becher um dasselbe Objekt handle, sich nur eben in einer anderen Perspektive darstelle. „Diese Äquivarianz ermöglicht es uns, Fälle effektiver zu handhaben, in denen das beobachtete Objekt eine willkürliche Ausrichtung hat“, erklärt Simeonov.
Dahinter steckt die Idee, dass das NDF lernt, Formen ähnlicher Objekte zu rekonstruieren und dabei zugleich auch verwandte Teile dieser Objekte zu assoziieren. Bleiben wir bei dem Beispiel des Bechers: Es gibt flache Becher, hohe, welche mit kleinem oder mit größerem Henkel. All das kann das System erkennen und weiß dabei immer, dass es sich grundsätzlich um ein Objekt handelt. Würde man eine andere Methode wählen, müsste man die verschiedenen Becher beschriften und die Unterschiede herausstellen. So kann man dagegen auf die Formenrekonstruktion zurückgreifen.
Roboter lernen schneller und sollen ihr „Wissen“ künftig übertragen können
Für ihre Studie verwendeten die Forschenden nur wenige physische Beispiele, um den Roboter anzulernen. Dafür bewegten sie die Hand des Roboters auf den Teil des Objekts, das er greifen soll, zum Beispiel den Griff des Bechers. Zeitgleich zeichneten sie dabei die Positionen der Fingerspitzen auf. Das NDF kann durch diese Form des Trainings die Struktur einer neuen Form ableiten und damit die Demonstrationen auf neue Objekte übertragen.
Für die Zukunft wollen die Forschenden die Kategorien erweitern oder es eventuell sogar erreichen, die Kategorie gänzlich aufzuheben. Denn dann könne der Roboter möglicherweise sein erlerntes „Wissen“ über Becher auch auf andere Objekte, wie Kisten oder Kopfhörer, übertragen.
Mehr zum Thema Roboter:
Ein Beitrag von: