Lernen wie GPT-4 29.10.2024, 12:14 Uhr

Neue Trainingsmethode macht Roboter zur Allzweckwaffe

Noch gibt es keine Roboter, die alles können. Forschende des MIT möchten das ändern. Sie haben eine neue Methode entwickelt, mit der das Training effizienter wird.

Roboter nutzt KI

Noch tun sich Roboter schwer damit verschiedenste Aufgaben zuverlässig zu erledigen. Mit Hilfe von KI und effizienterem Training soll sich das aber ändern.

Foto: PantherMedia / phonlamai

In der berühmten Zeichentrickserie „The Jetsons“ beeindruckt das Roboter-Hausmädchen Rosie durch seine Vielseitigkeit. Es bügelt, bringt den Müll raus und kocht das Abendessen. Im realen Leben bleibt jedoch die Entwicklung eines flexiblen Allzweckroboters eine Herausforderung. Das zeigte sich kürzlich wieder bei der letzten Musk-Show. Dort wurde sein humanoider Roboter Optimus von Menschen ferngesteuert. Forschende am MIT möchten dies ändern. Sie entwickelten einen neuen Ansatz, mit dem sich Allzweckroboter schneller trainieren lassen und anpassungsfähiger werden.

Der klassische Trainingsprozess ist aufwändig und teuer

Üblicherweise basieren Trainingsmethoden für Roboter auf spezifischen Daten, die für bestimmte Maschinen und Aufgaben erhoben wurden. Diese Prozesse sind jedoch oft kostspielig und zeitaufwendig. Zudem sind die Roboter meist schlecht auf unbekannte Aufgaben oder Umgebungen vorbereitet.

Die Forschenden am MIT setzen auf einen anderen Ansatz. Sie kombinieren große Mengen verschiedenartiger Daten – sogenannte heterogene Daten – in einem einzigen System. Durch den Einsatz eines generativen KI-Modells lässt sich diese Datensammlung nutzen, um Allzweckrobotern eine Vielzahl von Aufgaben beizubringen.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
fbw | Fernwärmegesellschaft Baden-Württemberg mbH-Firmenlogo
Elektroingenieur (m/w/d) (Ingenieur für Elektrotechnik, Energie- oder Versorgungstechnik o. ä.) fbw | Fernwärmegesellschaft Baden-Württemberg mbH
Stuttgart Zum Job 
Varex Imaging Deutschland AG-Firmenlogo
Elektroniker ( m/w/d) oder Mechatroniker (m/w/d) als Teamleitung im Bereich Messtechnik Varex Imaging Deutschland AG
B. Braun Melsungen AG-Firmenlogo
Head of (w/m/d) Portfolio Development Team Pain Therapy B. Braun Melsungen AG
Melsungen Zum Job 
STAWAG - Stadt und Städteregionswerke Aachen AG-Firmenlogo
Betriebsingenieur:in Wärmeanlagen (m/w/d) STAWAG - Stadt und Städteregionswerke Aachen AG
Wirtgen GmbH-Firmenlogo
Software-Testingenieur (m/w/d) Testautomatisierung -Steuerungssoftware für mobile Arbeitsmaschinen Wirtgen GmbH
Windhagen Zum Job 
B. Braun Melsungen AG-Firmenlogo
Projektingenieur (w/m/d) Global Quality Systems B. Braun Melsungen AG
Melsungen Zum Job 
B. Braun Melsungen AG-Firmenlogo
R&D Manager (w/m/d) Process Design B. Braun Melsungen AG
Melsungen Zum Job 
Safran Data Systems GmbH-Firmenlogo
Embedded Software Engineer (m/w/d) Safran Data Systems GmbH
Bergisch Gladbach Zum Job 
naturenergie netze GmbH-Firmenlogo
Meister / Techniker - Steuerungstechnik (m/w/d) naturenergie netze GmbH
Rheinfelden, Donaueschingen Zum Job 
THOST Projektmanagement GmbH-Firmenlogo
Ingenieur*in / Architekt*in / Bauleiter*in (m/w/d) für Großprojekte der Bereiche Infrastruktur (Freileitung, Kabeltiefbau, Bahn) THOST Projektmanagement GmbH
verschiedene Standorte Zum Job 
BG ETEM-Firmenlogo
Ingenieur/in (m/w/d) als Referent/in für die Branche Elektrotechnische Industrie BG ETEM
BG ETEM-Firmenlogo
Ingenieur/in (m/w/d) als Referent/in für die Branche Elektrohandwerk BG ETEM
Neoperl GmbH-Firmenlogo
Ingenieur / Meister / Techniker (m/w/d) Prozess-, Automatisierungs- und Elektrotechnik Neoperl GmbH
Müllheim Zum Job 
Verwaltungs-Berufsgenossenschaft (VBG)-Firmenlogo
Aufsichtspersonen im Sinne des § 18 SGB VII (m/w/d) mit abgeschlossenem Master- oder Diplomstudium in Ingenieurwissenschaften Verwaltungs-Berufsgenossenschaft (VBG)
Hamburg Zum Job 
BG ETEM-Firmenlogo
Ingenieur/in (m/w/d) als Referent/in für die Branche Feinmechanik BG ETEM
Deutsches Elektronen-Synchrotron DESY-Firmenlogo
Entwicklungsingenieur (w/m/d) Deutsches Elektronen-Synchrotron DESY
Hamburg Zum Job 
Prognost Systems GmbH-Firmenlogo
Technischer Kundenbetreuer / Elektroingenieur (m/w/d) im Customer Support Prognost Systems GmbH
Die Autobahn GmbH des Bundes-Firmenlogo
Ingenieur (w/m/d) C-ITS Entwicklung Die Autobahn GmbH des Bundes
Frankfurt am Main Zum Job 
Stadt Freiburg-Firmenlogo
Techniker / Meister /Ingenieur (a) im Tunnelbetrieb Stadt Freiburg
Freiburg Zum Job 
Staatliches Baumanagement Hannover-Firmenlogo
Ingenieure (m/w/d) für Technische Gebäudeplanung und -ausrüstung der Fachrichtungen Elektrotechnik, Heizung, Lüftung, Sanitär, Kältetechnik sowie Gebäudeautomation Staatliches Baumanagement Hannover
Hannover Zum Job 

Verschiedene Quellen – eine gemeinsame Sprache

Die neue Methode ermöglicht es, Daten aus unterschiedlichen Quellen und Modalitäten, wie Kamerabildern oder Sensordaten, in eine gemeinsame „Sprache“ zu übersetzen, die das KI-Modell versteht. Diese „Datenfusion“ vereinfacht den Trainingsprozess und steigert die Flexibilität der Roboter.

„In der Robotik wird oft behauptet, dass wir nicht über genügend Trainingsdaten verfügen. Meiner Meinung nach besteht ein weiteres großes Problem darin, dass die Daten aus so vielen verschiedenen Bereichen, Modalitäten und Roboterhardware stammen. Unsere Arbeit zeigt, wie man einen Roboter mit all diesen Daten zusammen trainieren kann,“ sagt Lirui Wang, Hauptautor und Masterstudent am MIT.

Von Sprachmodellen inspiriert: Lernen wie GPT-4

Große Sprachmodelle wie GPT-4 haben den Forschenden als Inspiration gedient. Solche Modelle lernen durch Vorab-Training auf enormen Sprachdatensätzen und werden dann für spezifische Aufgaben optimiert. Dieser Ansatz ermöglicht eine flexible Anwendung auf verschiedene Themen und Aufgaben. In der Robotik ist der Datentyp jedoch viel komplexer und umfasst visuelle, propriozeptive und mechanische Informationen. Dies erforderte eine spezielle Architektur.

Die MIT-Forschenden entwickelten daher die Architektur „Heterogeneous Pretrained Transformers“ (HPT). Ein zentrales maschinelles Lernmodell, bekannt als Transformator, verarbeitet alle Dateneingaben – von visuellen über propriozeptive Informationen bis hin zu Sensordaten. Der Transformator, der das Herzstück vieler großer Sprachmodelle bildet, ist in der Lage, die Daten in eine einheitliche Darstellungsform zu übersetzen und so die vielfältigen Informationen zu verarbeiten.

Die Technik funktioniert so, dass jede Eingabe in Form von sogenannten „Tokens“ übersetzt wird. Der Transformator ordnet dann alle Eingaben in einem gemeinsamen Raum an, wodurch das Modell zunehmend lernt und wächst. Je mehr Daten verarbeitet werden, desto leistungsfähiger wird der Transformator.

Flexible und kostengünstige Trainingsmethode

HPT ist laut Forschungsteam nicht nur flexibler, sondern auch kostengünstiger als herkömmliche Trainingsmethoden. Es benötigt weniger aufgabenspezifische Daten, um einem Roboter neue Aufgaben beizubringen. Studien und Experimente zeigen, dass HPT die Leistung eines Roboters bei verschiedenen Aufgaben um mehr als 20 % verbessern kann – ein bedeutender Fortschritt im Vergleich zum Training „ab null“.

Ein zentrales Element ist das Vorab-Training des Transformators. Hierfür wurde ein umfangreicher Datensatz erstellt, der 52 Datensätze mit mehr als 200.000 Roboterbahnen umfasst. Dazu zählen auch menschliche Demonstrationsvideos und Simulationen. Diese enorme Datengrundlage ermöglicht es HPT, Roboter mit einer Vielzahl von Aufgaben vertraut zu machen, ohne das Training jedes Mal von Grund auf zu starten.

„Im Bereich der Sprache bestehen die Daten ausschließlich aus Sätzen. In der Robotik benötigen wir angesichts der Heterogenität der Daten eine andere Architektur, wenn wir auf ähnliche Weise vorlernen wollen,“ erklärt Lirui Wang.

Flexibilität durch propriozeptive Daten

Für die Schulung geschickter Bewegungen ist propriozeptives Feedback entscheidend, also Informationen über die Position und Geschwindigkeit der Gliedmaßen. Die Forschenden entwickelten eine Methode, um die Rohdaten der propriozeptiven Sensoren in verarbeitbare Informationen für den Transformator umzuwandeln. Wang erklärt: „Die Propriozeption ist der Schlüssel zu vielen geschickten Bewegungen. Da die Anzahl der Tokens in unserer Architektur immer gleich ist, messen wir der Propriozeption und dem Sehen die gleiche Bedeutung bei.“

Durch die Gleichgewichtung dieser Datenquellen kann HPT präzise und flexible Bewegungen lernen. Tests zeigten, dass der Roboter selbst bei neuen Aufgaben die gewünschten Aktionen korrekt ausführt.

Ein Blick in die Zukunft

Die Forschenden am MIT möchten den HPT-Ansatz weiterentwickeln und durch noch vielfältigere Datensätze bereichern. Langfristig ist das Ziel, dass HPT wie ein „universelles Robotergedächtnis“ funktioniert. In Zukunft könnte man eine Art Grundmodell für Roboterfähigkeiten herunterladen und an den eigenen Roboter anpassen – eine Vision, die für die Robotik revolutionär wäre.

„Unser Traum ist es, ein universelles Robotergedächtnis zu haben, das man herunterladen und für seinen Roboter verwenden kann, ohne dass dieser überhaupt trainiert werden muss. Wir befinden uns zwar noch in einem frühen Stadium, aber wir werden weiter hart daran arbeiten und hoffen, dass die Skalierung zu einem Durchbruch in der Roboterpolitik führt, wie es bei großen Sprachmodellen der Fall war,“ erläutert Wang abschließend.

Hier geht es zur Originalpublikation

Web-Panel: Cobot oder humanoider Roboter – wem gehört die Zukunft?
Leichtbauroboter, sogenannte Cobots, werden immer beliebter. Gleichzeitig kündigt sich mit humanoiden Robotern bereits eine neue Generation an Universalmaschinen an. Was Unternehmen jetzt wissen müssen, ist Thema des nächsten hochkarätigen Web-Panels der VDI nachrichten.
Mit dabei sind Neura-Robotics-CEO David Reger, Dominik Bösl, Professor für Wirtschaftsinformatik an der HDBW (Hochschule der Bayerischen Wirtschaft) , Synapticon-Geschäftsführer Nicolai Ensslen und Pero Mićić, Gründer und Vorstand der FutureManagementGroup.
Weitere Informationen zum Web-Panel am 7.11.24, 16:00 – 17:30 Uhr finden Sie hier.

Ein Beitrag von:

  • Dominik Hochwarth

    Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.

Themen im Artikel

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.