Neue Trainingsmethode macht Roboter zur Allzweckwaffe
Noch gibt es keine Roboter, die alles können. Forschende des MIT möchten das ändern. Sie haben eine neue Methode entwickelt, mit der das Training effizienter wird.
In der berühmten Zeichentrickserie „The Jetsons“ beeindruckt das Roboter-Hausmädchen Rosie durch seine Vielseitigkeit. Es bügelt, bringt den Müll raus und kocht das Abendessen. Im realen Leben bleibt jedoch die Entwicklung eines flexiblen Allzweckroboters eine Herausforderung. Das zeigte sich kürzlich wieder bei der letzten Musk-Show. Dort wurde sein humanoider Roboter Optimus von Menschen ferngesteuert. Forschende am MIT möchten dies ändern. Sie entwickelten einen neuen Ansatz, mit dem sich Allzweckroboter schneller trainieren lassen und anpassungsfähiger werden.
Inhaltsverzeichnis
Der klassische Trainingsprozess ist aufwändig und teuer
Üblicherweise basieren Trainingsmethoden für Roboter auf spezifischen Daten, die für bestimmte Maschinen und Aufgaben erhoben wurden. Diese Prozesse sind jedoch oft kostspielig und zeitaufwendig. Zudem sind die Roboter meist schlecht auf unbekannte Aufgaben oder Umgebungen vorbereitet.
Die Forschenden am MIT setzen auf einen anderen Ansatz. Sie kombinieren große Mengen verschiedenartiger Daten – sogenannte heterogene Daten – in einem einzigen System. Durch den Einsatz eines generativen KI-Modells lässt sich diese Datensammlung nutzen, um Allzweckrobotern eine Vielzahl von Aufgaben beizubringen.
Verschiedene Quellen – eine gemeinsame Sprache
Die neue Methode ermöglicht es, Daten aus unterschiedlichen Quellen und Modalitäten, wie Kamerabildern oder Sensordaten, in eine gemeinsame „Sprache“ zu übersetzen, die das KI-Modell versteht. Diese „Datenfusion“ vereinfacht den Trainingsprozess und steigert die Flexibilität der Roboter.
„In der Robotik wird oft behauptet, dass wir nicht über genügend Trainingsdaten verfügen. Meiner Meinung nach besteht ein weiteres großes Problem darin, dass die Daten aus so vielen verschiedenen Bereichen, Modalitäten und Roboterhardware stammen. Unsere Arbeit zeigt, wie man einen Roboter mit all diesen Daten zusammen trainieren kann,“ sagt Lirui Wang, Hauptautor und Masterstudent am MIT.
Von Sprachmodellen inspiriert: Lernen wie GPT-4
Große Sprachmodelle wie GPT-4 haben den Forschenden als Inspiration gedient. Solche Modelle lernen durch Vorab-Training auf enormen Sprachdatensätzen und werden dann für spezifische Aufgaben optimiert. Dieser Ansatz ermöglicht eine flexible Anwendung auf verschiedene Themen und Aufgaben. In der Robotik ist der Datentyp jedoch viel komplexer und umfasst visuelle, propriozeptive und mechanische Informationen. Dies erforderte eine spezielle Architektur.
Die MIT-Forschenden entwickelten daher die Architektur „Heterogeneous Pretrained Transformers“ (HPT). Ein zentrales maschinelles Lernmodell, bekannt als Transformator, verarbeitet alle Dateneingaben – von visuellen über propriozeptive Informationen bis hin zu Sensordaten. Der Transformator, der das Herzstück vieler großer Sprachmodelle bildet, ist in der Lage, die Daten in eine einheitliche Darstellungsform zu übersetzen und so die vielfältigen Informationen zu verarbeiten.
Die Technik funktioniert so, dass jede Eingabe in Form von sogenannten „Tokens“ übersetzt wird. Der Transformator ordnet dann alle Eingaben in einem gemeinsamen Raum an, wodurch das Modell zunehmend lernt und wächst. Je mehr Daten verarbeitet werden, desto leistungsfähiger wird der Transformator.
Flexible und kostengünstige Trainingsmethode
HPT ist laut Forschungsteam nicht nur flexibler, sondern auch kostengünstiger als herkömmliche Trainingsmethoden. Es benötigt weniger aufgabenspezifische Daten, um einem Roboter neue Aufgaben beizubringen. Studien und Experimente zeigen, dass HPT die Leistung eines Roboters bei verschiedenen Aufgaben um mehr als 20 % verbessern kann – ein bedeutender Fortschritt im Vergleich zum Training „ab null“.
Ein zentrales Element ist das Vorab-Training des Transformators. Hierfür wurde ein umfangreicher Datensatz erstellt, der 52 Datensätze mit mehr als 200.000 Roboterbahnen umfasst. Dazu zählen auch menschliche Demonstrationsvideos und Simulationen. Diese enorme Datengrundlage ermöglicht es HPT, Roboter mit einer Vielzahl von Aufgaben vertraut zu machen, ohne das Training jedes Mal von Grund auf zu starten.
„Im Bereich der Sprache bestehen die Daten ausschließlich aus Sätzen. In der Robotik benötigen wir angesichts der Heterogenität der Daten eine andere Architektur, wenn wir auf ähnliche Weise vorlernen wollen,“ erklärt Lirui Wang.
Flexibilität durch propriozeptive Daten
Für die Schulung geschickter Bewegungen ist propriozeptives Feedback entscheidend, also Informationen über die Position und Geschwindigkeit der Gliedmaßen. Die Forschenden entwickelten eine Methode, um die Rohdaten der propriozeptiven Sensoren in verarbeitbare Informationen für den Transformator umzuwandeln. Wang erklärt: „Die Propriozeption ist der Schlüssel zu vielen geschickten Bewegungen. Da die Anzahl der Tokens in unserer Architektur immer gleich ist, messen wir der Propriozeption und dem Sehen die gleiche Bedeutung bei.“
Durch die Gleichgewichtung dieser Datenquellen kann HPT präzise und flexible Bewegungen lernen. Tests zeigten, dass der Roboter selbst bei neuen Aufgaben die gewünschten Aktionen korrekt ausführt.
Ein Blick in die Zukunft
Die Forschenden am MIT möchten den HPT-Ansatz weiterentwickeln und durch noch vielfältigere Datensätze bereichern. Langfristig ist das Ziel, dass HPT wie ein „universelles Robotergedächtnis“ funktioniert. In Zukunft könnte man eine Art Grundmodell für Roboterfähigkeiten herunterladen und an den eigenen Roboter anpassen – eine Vision, die für die Robotik revolutionär wäre.
„Unser Traum ist es, ein universelles Robotergedächtnis zu haben, das man herunterladen und für seinen Roboter verwenden kann, ohne dass dieser überhaupt trainiert werden muss. Wir befinden uns zwar noch in einem frühen Stadium, aber wir werden weiter hart daran arbeiten und hoffen, dass die Skalierung zu einem Durchbruch in der Roboterpolitik führt, wie es bei großen Sprachmodellen der Fall war,“ erläutert Wang abschließend.
Hier geht es zur Originalpublikation
Web-Panel: Cobot oder humanoider Roboter – wem gehört die Zukunft? |
Leichtbauroboter, sogenannte Cobots, werden immer beliebter. Gleichzeitig kündigt sich mit humanoiden Robotern bereits eine neue Generation an Universalmaschinen an. Was Unternehmen jetzt wissen müssen, ist Thema des nächsten hochkarätigen Web-Panels der VDI nachrichten. |
Mit dabei sind Neura-Robotics-CEO David Reger, Dominik Bösl, Professor für Wirtschaftsinformatik an der HDBW (Hochschule der Bayerischen Wirtschaft) , Synapticon-Geschäftsführer Nicolai Ensslen und Pero Mićić, Gründer und Vorstand der FutureManagementGroup. |
Weitere Informationen zum Web-Panel am 7.11.24, 16:00 – 17:30 Uhr finden Sie hier. |
Ein Beitrag von: