Neues KI-Tool 21.03.2025, 11:00 Uhr

Dank NVIDIA und MIT geht Bildgenerierung rasend schnell

Neues KI-Modell HART kombiniert zwei Ansätze zur schnellen und ressourcenschonenden Bildgenerierung auf hohem Qualitätsniveau.

KI-generiertes Bild

Die Forscher kombinierten zwei Arten generativer KI-Modelle, ein autoregressives Modell und ein Diffusionsmodell, um ein Tool zu erstellen, das das Beste aus jedem Modell nutzt, um schnell hochwertige Bilder zu erzeugen.

Foto: Christine Daniloff, MIT

Die schnelle und realistische Erzeugung von Bildern durch Künstliche Intelligenz (KI) gewinnt zunehmend an Bedeutung – etwa beim Training autonomer Fahrzeuge. Solche Fahrzeuge benötigen realitätsnahe Szenarien, um potenziellen Gefahren besser begegnen zu können. Doch die gängigen Verfahren zur Generierung dieser Bildwelten stehen vor einem Dilemma: Sie sind entweder zu langsam oder liefern Bilder mit zu vielen Fehlern.

Forschende des MIT und von NVIDIA haben nun eine Lösung entwickelt, die beide Probleme adressiert. Ihr neues Modell namens HART (Hybrid Autoregressive Transformer) kombiniert zwei bekannte Ansätze zur Bildgenerierung – und schafft damit eine Balance aus Geschwindigkeit und Qualität.

Diffusion trifft Autoregression

Aktuelle Bild-KI wie Stable Diffusion oder DALL-E erzeugen ihre Bilder durch sogenannte Diffusionsmodelle. Diese bauen Bilder Schritt für Schritt aus einer verrauschten Ausgangsversion auf, indem sie bei jedem Durchlauf Rauschen entfernen. Das Ergebnis ist beeindruckend detailliert – aber der Prozess ist langsam und benötigt viel Rechenleistung. Ein einziges Bild erfordert oft mehr als 30 solcher Schritte.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
Narda Safety Test Solutions GmbH-Firmenlogo
Entwicklungsingenieur für Antennen- und HF-Design (m/w/d) Narda Safety Test Solutions GmbH
Pfullingen Zum Job 
BRUNATA-METRONA GmbH & Co. KG-Firmenlogo
Referent (m/w/d) Technische Gremien BRUNATA-METRONA GmbH & Co. KG
Köln, Hamburg, München Zum Job 
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
FCP Ingenieure Deutschland GmbH-Firmenlogo
BIM-Modeller Infrastruktur (m/w/d) FCP Ingenieure Deutschland GmbH
IMS Röntgensysteme GmbH-Firmenlogo
Entwicklungsingenieur (m/w/i) für digitale Inspektionssysteme IMS Röntgensysteme GmbH
Heiligenhaus Zum Job 
TGM Kanis Turbinen GmbH-Firmenlogo
Vertriebsingenieur (m/w/d) Bereich Service TGM Kanis Turbinen GmbH
Nürnberg Zum Job 
Griesemann Gruppe-Firmenlogo
Lead Ingenieur Elektrotechnik (m/w/d) Griesemann Gruppe
Leuna, Leipzig Zum Job 
Griesemann Gruppe-Firmenlogo
Lead Ingenieur Prozessleittechnik (m/w/d) Griesemann Gruppe
Leipzig Zum Job 
Deutsche Rentenversicherung Bund-Firmenlogo
Projektingenieur*in/ Teilprojektverantwortliche*r Elektrotechnik (m/w/div) Deutsche Rentenversicherung Bund
Sauer Compressors-Firmenlogo
LSA-Engineer (m/w/d) Sauer Compressors
SWR Südwestrundfunk Anstalt des öffentlichen Rechts-Firmenlogo
Ingenieur / Ingenieurin (w/m/d) im Bereich Elektrotechnik/Sicherheit und Netze SWR Südwestrundfunk Anstalt des öffentlichen Rechts
Stuttgart Zum Job 
J.P. Sauer & Sohn Maschinenbau GmbH-Firmenlogo
Elektroingenieur (m/w/d) J.P. Sauer & Sohn Maschinenbau GmbH
Griesemann Gruppe-Firmenlogo
Lead Ingenieur MSR (m/w/d) Griesemann Gruppe
Leuna, Leipzig Zum Job 
Griesemann Gruppe-Firmenlogo
Ingenieur / Techniker / Planer EMSR (m/w/d) Griesemann Gruppe
Berlin, Schwedt Zum Job 
Energieversorgung Halle Netz GmbH-Firmenlogo
Fachingenieur Netzleitsystem (m/w/d) Energieversorgung Halle Netz GmbH
Halle (Saale) Zum Job 
Iqony Solutions GmbH-Firmenlogo
Projektingenieur (m/w/d) Prozesssimulation/Verfahrenstechnik Iqony Solutions GmbH
Berliner Stadtreinigung (BSR)-Firmenlogo
Projektingenieur:innen Elektrotechnik (w/m/d) Berliner Stadtreinigung (BSR)
ILF CONSULTING ENGINEERS GERMANY GMBH-Firmenlogo
Projektingenieur Trassierung & Konstruktion Freileitungsplanung (m/w/d) ILF CONSULTING ENGINEERS GERMANY GMBH
Bremen, Hannover, Berlin, Hamburg, Essen, München Zum Job 
HygroMatik GmbH-Firmenlogo
Entwicklungsingenieur für Hard- und Softwarelösungen (m/w/d) HygroMatik GmbH
Henstedt-Ulzburg Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Ingenieur / Techniker als Teamleitung Planung / Bau / Betrieb (w/m/d) Die Autobahn GmbH des Bundes
Narda Safety Test Solutions GmbH-Firmenlogo
Entwicklungsingenieur für Antennen- und HF-Design (m/w/d) Narda Safety Test Solutions GmbH
Pfullingen Zum Job 
BRUNATA-METRONA GmbH & Co. KG-Firmenlogo
Referent (m/w/d) Technische Gremien BRUNATA-METRONA GmbH & Co. KG
Köln, Hamburg, München Zum Job 
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
FCP Ingenieure Deutschland GmbH-Firmenlogo
BIM-Modeller Infrastruktur (m/w/d) FCP Ingenieure Deutschland GmbH

Im Gegensatz dazu arbeiten autoregressive Modelle, wie sie bei Sprachmodellen wie ChatGPT zum Einsatz kommen, viel schneller. Sie sagen Bildinformationen sequentiell vorher – meist in Form sogenannter Token. Diese stellen kleine Bildausschnitte dar, die dann zusammengesetzt werden. Fehlerkorrektur ist in diesem Prozess kaum möglich. Die Folge: Die Bildqualität leidet. Dennoch ist die Methode deutlich effizienter und für viele Anwendungen praktikabler.

So funktioniert das hybride Modell

Das neue Modell HART nutzt den schnellen Charakter autoregressiver Modelle, um das Grundgerüst eines Bildes zu erzeugen. Anschließend verfeinert ein kleineres Diffusionsmodell die Details. Diese Kombination erlaubt es, die Geschwindigkeit des ersten Verfahrens mit der Präzision des zweiten zu verknüpfen.

„Wenn man eine Landschaft malt und die gesamte Leinwand nur einmal bemalt, sieht das Ergebnis möglicherweise nicht besonders gut aus. Wenn man jedoch das große Ganze malt und das Bild dann mit kleineren Pinselstrichen verfeinert, könnte das Gemälde viel besser aussehen. Das ist die Grundidee von HART“, erklärt Haotian Tang, Doktorand am MIT und Mitautor der Studie.

Konkret sagt HART zunächst sogenannte diskrete Bild-Token vorher, also eine komprimierte Darstellung des Bildes. Im Anschluss erzeugt das Diffusionsmodell sogenannte Rest-Token, um verlorene Details wiederherzustellen. Diese konzentrieren sich vor allem auf feine Strukturen wie Kanten, Haare oder Gesichtszüge.

Effizient und mobil einsetzbar

Durch diese geschickte Aufgabenteilung benötigt HART deutlich weniger Rechenleistung als herkömmliche Verfahren. Laut den Entwicklerinnen und Entwicklern kann das Tool Bilder etwa neunmal schneller erzeugen als ein klassisches Diffusionsmodell – bei vergleichbarer oder sogar höherer Qualität. Auch der Energiebedarf ist um rund 31 % geringer.

Ein weiterer Vorteil: HART lässt sich lokal betreiben. Statt Hochleistungsrechner zu nutzen, kann das Modell auf einem handelsüblichen Laptop oder sogar Smartphone laufen. Dadurch eröffnen sich vielfältige Anwendungsmöglichkeiten in Forschung, Industrie und Unterhaltung.

Beispiele reichen von der Simulation komplexer Umgebungen für Robotertrainings bis hin zur Erstellung von Game-Designs in Echtzeit. Nutzende müssen lediglich eine Beschreibung in natürlicher Sprache eingeben, um ein entsprechendes Bild zu generieren.

Warum HART besser integriert werden kann

Ein wichtiger Aspekt ist die Kompatibilität von HART mit sogenannten „vereinigten Bild-Sprach-Modellen“. Diese neuen multimodalen Systeme können Bild- und Textinformationen gleichzeitig verarbeiten und interpretieren. HARTs autoregressive Basis erleichtert die Integration in solche Systeme.

„LLMs sind eine gute Schnittstelle für alle Arten von Modellen, wie multimodale Modelle und Modelle, die logisch denken können. Auf diese Weise kann die Intelligenz auf eine neue Ebene gehoben werden. Ein effizientes Bildgenerierungsmodell würde viele Möglichkeiten eröffnen“, sagt Tang.

Herausforderungen bei der Entwicklung

Die Entwicklung des HART-Modells war nicht frei von Hürden. Zunächst versuchten die Forschenden, das Diffusionsmodell direkt in den Anfang des autoregressiven Prozesses einzubinden. Doch das führte zu fehlerhaften Vorhersagen. Erst als das Diffusionsmodell ausschließlich am Ende zur Feinkorrektur eingesetzt wurde, stimmten Qualität und Effizienz.

Das finale Modell besteht aus einem autoregressiven Transformer mit 700 Millionen Parametern und einem leichten Diffusionsmodell mit 37 Millionen Parametern. Damit erreicht HART die Qualität eines Systems mit zwei Milliarden Parametern – bei deutlich höherer Geschwindigkeit.

Hier geht es zur Originalpublikation

Ein Beitrag von:

  • Dominik Hochwarth

    Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.