Lernen wie GPT-4 29.10.2024, 12:14 Uhr

Neue Trainingsmethode macht Roboter zur Allzweckwaffe

Noch gibt es keine Roboter, die alles können. Forschende des MIT möchten das ändern. Sie haben eine neue Methode entwickelt, mit der das Training effizienter wird.

Roboter nutzt KI

Noch tun sich Roboter schwer damit verschiedenste Aufgaben zuverlässig zu erledigen. Mit Hilfe von KI und effizienterem Training soll sich das aber ändern.

Foto: PantherMedia / phonlamai

In der berühmten Zeichentrickserie „The Jetsons“ beeindruckt das Roboter-Hausmädchen Rosie durch seine Vielseitigkeit. Es bügelt, bringt den Müll raus und kocht das Abendessen. Im realen Leben bleibt jedoch die Entwicklung eines flexiblen Allzweckroboters eine Herausforderung. Das zeigte sich kürzlich wieder bei der letzten Musk-Show. Dort wurde sein humanoider Roboter Optimus von Menschen ferngesteuert. Forschende am MIT möchten dies ändern. Sie entwickelten einen neuen Ansatz, mit dem sich Allzweckroboter schneller trainieren lassen und anpassungsfähiger werden.

Der klassische Trainingsprozess ist aufwändig und teuer

Üblicherweise basieren Trainingsmethoden für Roboter auf spezifischen Daten, die für bestimmte Maschinen und Aufgaben erhoben wurden. Diese Prozesse sind jedoch oft kostspielig und zeitaufwendig. Zudem sind die Roboter meist schlecht auf unbekannte Aufgaben oder Umgebungen vorbereitet.

Die Forschenden am MIT setzen auf einen anderen Ansatz. Sie kombinieren große Mengen verschiedenartiger Daten – sogenannte heterogene Daten – in einem einzigen System. Durch den Einsatz eines generativen KI-Modells lässt sich diese Datensammlung nutzen, um Allzweckrobotern eine Vielzahl von Aufgaben beizubringen.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
FlowChief GmbH-Firmenlogo
Techniker:in Automatisierung (SCADA) (m/w/d) FlowChief GmbH
Wendelstein Zum Job 
Wirtgen GmbH-Firmenlogo
Software-Ingenieur (m/w/d) Elektrotechnik im Bereich Steuerungssoftware für mobile Arbeitsmaschinen Wirtgen GmbH
Windhagen Zum Job 
WBS Training AG-Firmenlogo
Technische:r Trainer:in für EPLAN (m/w/d) WBS Training AG
deutschlandweit (remote) Zum Job 
Hochschule Esslingen - University of Applied Sciences-Firmenlogo
Professor:in (W2) für das Lehrgebiet "Automatisierungssysteme in Gebäude-, Energie- und Umwelttechnik" Hochschule Esslingen - University of Applied Sciences
Esslingen am Neckar Zum Job 
Christian-Albrechts-Universität zu Kiel-Firmenlogo
Ingenieur*in der Fachrichtung Versorgungstechnik/ Maschinenbau oder Elektrotechnik Christian-Albrechts-Universität zu Kiel
Broadcast Solutions GmbH-Firmenlogo
Elektroingenieur* in Vollzeit (m/w/d) Broadcast Solutions GmbH
Frankfurt University of Applied Sciences-Firmenlogo
Professur "Software Engineering - Moderne Verfahren" (w/m/d) Frankfurt University of Applied Sciences
Frankfurt am Main Zum Job 
Steinmeyer Mechatronik GmbH-Firmenlogo
Entwicklungsingenieur (m/w/d) Steinmeyer Mechatronik GmbH
Dresden Zum Job 
AbbVie Deutschland GmbH & Co. KG-Firmenlogo
Senior Project Engineer - Capital Investments (all genders) AbbVie Deutschland GmbH & Co. KG
Ludwigshafen am Rhein Zum Job 
Stadtreinigung Hamburg Anstalt des öffentlichen Rechts-Firmenlogo
Ingenieurin (m/w/d) TGA Elektrotechnik Stadtreinigung Hamburg Anstalt des öffentlichen Rechts
Hamburg Zum Job 
Vermögen und Bau Baden-Württemberg - Amt Ulm-Firmenlogo
Diplom-Ingenieur (FH/DH) bzw. Bachelor (w/m/d) der Fachrichtung Elektrotechnik, Versorgungstechnik, Gebäudeklimatik, Gebäude- und Energietechnik Vermögen und Bau Baden-Württemberg - Amt Ulm
Stadt Karlsruhe-Firmenlogo
Elektroingenieur*in - Fachbereichsleitung Elektro- und Maschinentechnik Stadt Karlsruhe
Karlsruhe Zum Job 
Stadtwerke Potsdam GmbH-Firmenlogo
Bauleiter (m/w/d) Realisierung Stadtwerke Potsdam GmbH
Potsdam Zum Job 
degewo AG-Firmenlogo
TGA-Ingenieur / Projektmanager Technische Gebäudeausrüstung Sanierung (w/m/d) degewo AG
Schleifring GmbH-Firmenlogo
Ingenieur / Vertriebsingenieur (m/w/d) für den Bereich Key Account Schleifring GmbH
Fürstenfeldbruck Zum Job 
Universität Augsburg-Firmenlogo
Betriebsingenieurin / Betriebsingenieur (m/w/d) Universität Augsburg
Augsburg Zum Job 
HENN GmbH-Firmenlogo
Ingenieur*in | Technische Ausrüstung Elektrotechnik / HLSK HENN GmbH
München Zum Job 
Duale Hochschule Baden-Württemberg Mosbach-Firmenlogo
Ingenieur*in / Informatiker*in für Laborbetreuung und Laborübungen mit Studierenden (m/w/d) Duale Hochschule Baden-Württemberg Mosbach
Bad Mergentheim Zum Job 
Universität Augsburg-Firmenlogo
Projekt- und Inbetriebnahme-Ingenieurin / -Ingenieur (m/w/d) Universität Augsburg
Augsburg Zum Job 
TÜV Hessen-Firmenlogo
Sachverständiger Elektrotechnik (m/w/d) TÜV Hessen
Frankfurt am Main Zum Job 

Verschiedene Quellen – eine gemeinsame Sprache

Die neue Methode ermöglicht es, Daten aus unterschiedlichen Quellen und Modalitäten, wie Kamerabildern oder Sensordaten, in eine gemeinsame „Sprache“ zu übersetzen, die das KI-Modell versteht. Diese „Datenfusion“ vereinfacht den Trainingsprozess und steigert die Flexibilität der Roboter.

„In der Robotik wird oft behauptet, dass wir nicht über genügend Trainingsdaten verfügen. Meiner Meinung nach besteht ein weiteres großes Problem darin, dass die Daten aus so vielen verschiedenen Bereichen, Modalitäten und Roboterhardware stammen. Unsere Arbeit zeigt, wie man einen Roboter mit all diesen Daten zusammen trainieren kann,“ sagt Lirui Wang, Hauptautor und Masterstudent am MIT.

Von Sprachmodellen inspiriert: Lernen wie GPT-4

Große Sprachmodelle wie GPT-4 haben den Forschenden als Inspiration gedient. Solche Modelle lernen durch Vorab-Training auf enormen Sprachdatensätzen und werden dann für spezifische Aufgaben optimiert. Dieser Ansatz ermöglicht eine flexible Anwendung auf verschiedene Themen und Aufgaben. In der Robotik ist der Datentyp jedoch viel komplexer und umfasst visuelle, propriozeptive und mechanische Informationen. Dies erforderte eine spezielle Architektur.

Die MIT-Forschenden entwickelten daher die Architektur „Heterogeneous Pretrained Transformers“ (HPT). Ein zentrales maschinelles Lernmodell, bekannt als Transformator, verarbeitet alle Dateneingaben – von visuellen über propriozeptive Informationen bis hin zu Sensordaten. Der Transformator, der das Herzstück vieler großer Sprachmodelle bildet, ist in der Lage, die Daten in eine einheitliche Darstellungsform zu übersetzen und so die vielfältigen Informationen zu verarbeiten.

Die Technik funktioniert so, dass jede Eingabe in Form von sogenannten „Tokens“ übersetzt wird. Der Transformator ordnet dann alle Eingaben in einem gemeinsamen Raum an, wodurch das Modell zunehmend lernt und wächst. Je mehr Daten verarbeitet werden, desto leistungsfähiger wird der Transformator.

Flexible und kostengünstige Trainingsmethode

HPT ist laut Forschungsteam nicht nur flexibler, sondern auch kostengünstiger als herkömmliche Trainingsmethoden. Es benötigt weniger aufgabenspezifische Daten, um einem Roboter neue Aufgaben beizubringen. Studien und Experimente zeigen, dass HPT die Leistung eines Roboters bei verschiedenen Aufgaben um mehr als 20 % verbessern kann – ein bedeutender Fortschritt im Vergleich zum Training „ab null“.

Ein zentrales Element ist das Vorab-Training des Transformators. Hierfür wurde ein umfangreicher Datensatz erstellt, der 52 Datensätze mit mehr als 200.000 Roboterbahnen umfasst. Dazu zählen auch menschliche Demonstrationsvideos und Simulationen. Diese enorme Datengrundlage ermöglicht es HPT, Roboter mit einer Vielzahl von Aufgaben vertraut zu machen, ohne das Training jedes Mal von Grund auf zu starten.

„Im Bereich der Sprache bestehen die Daten ausschließlich aus Sätzen. In der Robotik benötigen wir angesichts der Heterogenität der Daten eine andere Architektur, wenn wir auf ähnliche Weise vorlernen wollen,“ erklärt Lirui Wang.

Flexibilität durch propriozeptive Daten

Für die Schulung geschickter Bewegungen ist propriozeptives Feedback entscheidend, also Informationen über die Position und Geschwindigkeit der Gliedmaßen. Die Forschenden entwickelten eine Methode, um die Rohdaten der propriozeptiven Sensoren in verarbeitbare Informationen für den Transformator umzuwandeln. Wang erklärt: „Die Propriozeption ist der Schlüssel zu vielen geschickten Bewegungen. Da die Anzahl der Tokens in unserer Architektur immer gleich ist, messen wir der Propriozeption und dem Sehen die gleiche Bedeutung bei.“

Durch die Gleichgewichtung dieser Datenquellen kann HPT präzise und flexible Bewegungen lernen. Tests zeigten, dass der Roboter selbst bei neuen Aufgaben die gewünschten Aktionen korrekt ausführt.

Ein Blick in die Zukunft

Die Forschenden am MIT möchten den HPT-Ansatz weiterentwickeln und durch noch vielfältigere Datensätze bereichern. Langfristig ist das Ziel, dass HPT wie ein „universelles Robotergedächtnis“ funktioniert. In Zukunft könnte man eine Art Grundmodell für Roboterfähigkeiten herunterladen und an den eigenen Roboter anpassen – eine Vision, die für die Robotik revolutionär wäre.

„Unser Traum ist es, ein universelles Robotergedächtnis zu haben, das man herunterladen und für seinen Roboter verwenden kann, ohne dass dieser überhaupt trainiert werden muss. Wir befinden uns zwar noch in einem frühen Stadium, aber wir werden weiter hart daran arbeiten und hoffen, dass die Skalierung zu einem Durchbruch in der Roboterpolitik führt, wie es bei großen Sprachmodellen der Fall war,“ erläutert Wang abschließend.

Hier geht es zur Originalpublikation

Web-Panel: Cobot oder humanoider Roboter – wem gehört die Zukunft?
Leichtbauroboter, sogenannte Cobots, werden immer beliebter. Gleichzeitig kündigt sich mit humanoiden Robotern bereits eine neue Generation an Universalmaschinen an. Was Unternehmen jetzt wissen müssen, ist Thema des nächsten hochkarätigen Web-Panels der VDI nachrichten.
Mit dabei sind Neura-Robotics-CEO David Reger, Dominik Bösl, Professor für Wirtschaftsinformatik an der HDBW (Hochschule der Bayerischen Wirtschaft) , Synapticon-Geschäftsführer Nicolai Ensslen und Pero Mićić, Gründer und Vorstand der FutureManagementGroup.
Weitere Informationen zum Web-Panel am 7.11.24, 16:00 – 17:30 Uhr finden Sie hier.

Ein Beitrag von:

  • Dominik Hochwarth

    Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.

Themen im Artikel

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.