Sora von OpenAI – so mächtig ist die generative Text-to-Video-KI

Mitte Februar 2024 hat OpenAI mit Sora ein neues KI-System vorgestellt, das kurze Videos aus Textanweisungen erstellen kann. Die veröffentlichten Beispielvideos aufgrund ihrer beeindruckenden Qualität eine Mischung aus Begeisterung und Besorgnis ausgelöst. Nun gibt es auch den ersten Kurzfilm.

Mithilfe von Sora lassen sich aus einfachen Texteingaben Videos mit beindruckender Qualität generieren.

Foto: PantherMedia / alphaspirit

ChatGPT hat vor etwas mehr als einem Jahr die Welt in Aufregung versetzt, so neu und außergewöhnlich waren die Leistungen, die das Sprachmodell mithilfe künstlicher Intelligenz vollbrachte. Wer einmal den Dall-E2 aus dem gleichen Hause ausprobiert hat, wird ebenfalls staunen, wenn es um die Erzeugung von Bildern durch Texteingabe geht. Nun zum nächsten großen Ding von OpenAI. Mithilfe von Texteingabe lassen sich ganze Videos generieren, die absolut ruckelfrei ablaufen und fast wie ein Original aussehen. Man merkt kaum, dass sie von einer künstlichen Intelligenz erstellt wurden. Schauen wir uns einmal an, wie mächtig das Tool ist und wie erschreckend, was man damit alles anstellen kann.

Aus einfachen Eingaben werden beeindruckende Videos

OpenAI hat Beispielvideos veröffentlicht, die von seiner KI Sora erstellt wurden. Diese Videos entstanden durch einfache Texteingaben wie „fotorealistisches Nahaufnahmevideo zweier kämpfender Piratenschiffe in einer Tasse Kaffee“ und „historisches Filmmaterial aus Kalifornien während des Goldrauschs“. Auf den ersten Blick wirken sie täuschend echt.

Die hochwertige Darstellung der Texturen, die Dynamik der Szenen und die flüssigen Kamerabewegungen lassen die Videos fast wie echte Aufnahmen erscheinen und zeugen von einer beeindruckenden Konsistenz. Es ist schwer zu glauben, dass die einmütigen Videos nur aufgrund einer einfachen Zeile Text generiert wurden. OpenAI beteuert jedoch, dass nichts nachbearbeitet wurde.

Wie funktioniert Sora?

Sora kombiniert die Eigenschaften von Text- und Bildgenerierungswerkzeugen in einem sogenannten Diffusionstransformatormodell. Transformatoren, eine Art neuronales Netz, wurden 2017 von Google eingeführt und sind vor allem für ihre Rolle in großen Sprachmodellen wie ChatGPT und Google Gemini bekannt.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs

Hingegen bilden Diffusionsmodelle, die mit zufälligem Rauschen beginnen und sich allmählich zu einem klaren Bild entwickeln, das einer Eingabeaufforderung entspricht, die Grundlage vieler bildgenerierender KIs. Aus einer Reihe solcher Bilder kann ein Video erzeugt werden, wobei die Kohärenz und Konsistenz zwischen den Bildern für Videos von entscheidender Bedeutung ist.

Sora verwendet die Transformator-Architektur, um die Beziehungen zwischen den Bildern zu steuern. Während Transformatoren ursprünglich für die Mustererkennung in Text-Token entwickelt wurden, verwendet Sora Token, die kleine Segmente im Raum-Zeit-Kontinuum darstellen.

Im folgenden Video werden die beeindruckenden Fähigkeiten von Sora demonstriert:

Kann man Sora schon in Deutschland nutzen?

Sora ist noch nicht offiziell zugänglich, da sich das Tool noch in der Entwicklungsphase befindet. Ein ausgewählter Kreis von Fachleuten, darunter Designer, Filmemacher, Visual Artists und Personen, die beruflich regelmäßig mit Video arbeiten, hat jedoch bereits einen Vorabzugang erhalten. Ziel dieser Maßnahme ist es, durch deren Erfahrungen die Weiterentwicklung der Video-KI voranzutreiben.

Ähnlich wie bei anderen KI-Diensten planen die Entwickler, Sicherheitssysteme einzurichten, um die Erstellung schädlicher Inhalte zu verhindern. Laut OpenAI weist das Tool derzeit noch Zuverlässigkeitsprobleme auf, die zu Missverständnissen bei der Eingabe und unerwünschten Ergebnissen führen können. Informationen darüber, wann Sora einem breiteren Nutzerkreis zur Verfügung stehen wird und welche Bedingungen für die Nutzung der Text-to-Video-KI gelten werden, wurden noch nicht veröffentlicht.

Sora nicht das erste Text-zu-Video-Modell

Sora ist nicht das erste Modell, das Text in Video umwandelt. Zu seinen Vorgängern zählen Metas Emu, Runways Gen-2, Stable Video Diffusion und Googles Lumiere, das erst kürzlich auf den Markt kam. Lumiere erhob Anspruch auf eine höhere Videoqualität als seine Vorgänger, aber Sora übertrifft Lumiere in einigen Aspekten.

Sora erzeugt Videos mit einer Auflösung von bis zu 1920 × 1080 Pixel und unterstützt verschiedene Seitenverhältnisse, während Lumiere auf 512 × 512 Pixel beschränkt ist. Außerdem kann Sora Videos mit einer Länge von bis zu 60 Sekunden produzieren, während Lumiere auf etwa 5 Sekunden beschränkt ist.

Ein weiterer Vorteil von Sora ist die Möglichkeit, Videos aus mehreren Szenen zusammenzusetzen, was bei Lumiere nicht möglich ist. Wie die anderen Modelle verfügt auch Sora über Videobearbeitungsfunktionen, einschließlich der Erstellung von Videos aus Bildern oder anderen Videos, der Kombination verschiedener Videoelemente und der Verlängerung von Videos.

Auch interessant:

Anlass zur Freude oder Furcht?

ChatGPT – was kann die künstliche Intelligenz, was kann sie nicht?

Entwicklung eines Sprachmodells

ChatGPT: Wie konnte das Sprachmodell so gut werden?

Obwohl beide Modelle im Allgemeinen realistische Videos erzeugen, können sie dennoch Halluzinationen aufweisen. Die Videos von Lumiere sind leichter als KI-generiert zu erkennen, während die Videos von Sora dynamischer erscheinen und mehr Interaktionen zwischen den Elementen zeigen. Bei genauerer Betrachtung werden jedoch häufig Unstimmigkeiten in den Beispielvideos deutlich.

Air Head: Sora erschafft Kurzfilm

Ein kleine kanadisches Produktionsstudio hat mit Sora einen Kurzfilm mit dem Titel „Air Head“ erstellt, der komplett aus KI-generierten Clips zusammengeschnitten wurde. In Air Head geht es um die Geschichte eines Mannes, der anstelle eines Kopfes einen gelben Luftballon hat. Im Film sehen wir den Mann in verschiedenen Phasen seines Lebens mit all seinen Freuden und Herausforderungen, die solch ein „Luftkopf“ mit sich bringt.

Der Clip ist in viele kurze Abschnitte unterteilt, was nicht verwundert, da Sora nur Videos von einer Minute Länge produzieren kann. Trotz der scheinbar unübersichtlichen Montage der Einblicke in das Leben des „Air Head“ entsteht ein faszinierendes Gesamtbild. Es bietet nicht nur einen interessanten Einblick, sondern auch eine Vorschau auf das, was Sora in Zukunft in der Filmindustrie möglich machen könnte.

„Obwohl Sora sehr gut darin ist, realistische Kreationen zu schaffen, fasziniert uns vor allem das Potenzial, völlig surreale Dinge zu erschaffen“, erklären Shy Kids, die kreativen Köpfe hinter dem Kurzfilm. Die Multimedia-Produktionsfirma aus Toronto sieht große Chancen für alle kreativen Köpfe – und solche, die es werden wollen. Die Zukunft verspricht, dass man nur eine Idee haben muss; mit den richtigen Anweisungen kann Sora die visuelle Umsetzung übernehmen. Nachfolgend können Sie sich den Kurzfilm anschauen.

Stellt Sora nicht nur die Filmindustrie auf den Kopf?

Videoinhalte werden derzeit entweder durch Aufnahmen aus der realen Welt oder durch Spezialeffekte erzeugt, was jedoch mit einem hohen Kosten- und Zeitaufwand verbunden ist. Sora könnte, wenn es zu einem vernünftigen Preis erhältlich wäre, als Prototyping-Werkzeug für die Visualisierung von Ideen dienen und so die Kosten erheblich senken.

Aufgrund der bekannten Fähigkeiten von Sora könnte die Software auch zur Produktion von kurzen Videoclips für Unterhaltung, Werbung und Bildung eingesetzt werden. Das von OpenAI veröffentlichte technische Papier zu Sora mit dem Titel „Video generation models as world simulators“ weist darauf hin, dass erweiterte Versionen von Videogeneratoren wie Sora in der Lage sein könnten, als leistungsfähige Simulatoren der realen und digitalen Welt und der darin enthaltenen Objekte, Tiere und Menschen zu fungieren.

Sollte sich dies bewahrheiten, könnten zukünftige Versionen von Sora wissenschaftliche Experimente in den Bereichen Physik, Chemie und Sozialwissenschaften ermöglichen. So könnten beispielsweise die Auswirkungen von Tsunamis unterschiedlicher Stärke auf verschiedene Infrastrukturen und deren Folgen für die physische und psychische Gesundheit der betroffenen Menschen simuliert werden.

Sind Simulationen wirklich möglich?

Das eben beschriebene Simulationsniveau zu erreichen, stellt eine große Herausforderung dar. Einige Experten glauben sogar, dass ein System wie Sora prinzipiell ungeeignet ist. Für eine vollständige Simulation müssten physikalische und chemische Reaktionen auf den feinsten Ebenen des Universums berechnet werden.

Eine grobe Annäherung an die Welt und realistische Videos für das menschliche Auge könnten jedoch in den nächsten Jahren möglich werden. Vor einigen Jahren war aber auch noch undenkbar, dass eine künstliche Intelligenz wie Sora überhaupt solche Videos generieren kann. Es bleibt daher spannend, was die Zukunft bringen wird – auch in Bezug auf Simulationen.

Deepfakes: Große ethische Bedenken

Die größten Bedenken in Bezug auf Technologien wie Sora betreffen ihre sozialen und ethischen Auswirkungen. In einer Welt, die bereits von Falschmeldungen heimgesucht wird, könnten solche Technologien das Problem noch verschärfen. Die Möglichkeit, überzeugende Fake-Videos zu jedem beliebigen Szenario zu erstellen, birgt das Risiko, dass Falschmeldungen verbreitet werden oder die Glaubwürdigkeit echter Aufnahmen untergraben wird.

Dies könnte die öffentliche Gesundheit gefährden, Wahlen beeinflussen oder die Justiz durch gefälschte Beweise belasten. Darüber hinaus ermöglichen Videogeneratoren die Erstellung gezielter Deepfakes, einschließlich solcher mit pornografischem Inhalt, was verheerende Auswirkungen auf die Betroffenen und ihre Familien haben kann. Zuletzt musste Taylor Swift gegen von künstlicher Intelligenz erstellte Nacktfotos vorgehen.

Wie sieht es mit dem Urheberrecht aus?

Neben Bedenken des Missbrauchs von Sora gibt es auch Fragen des Urheberrechts und des geistigen Eigentums. Zumal OpenAI nicht offenlegt, woher die Daten für Trainingszwecke stammen. Auch große Sprachmodelle und Bildgeneratoren sind aus diesem Grund in die Kritik geraten. In den USA hat eine Gruppe bekannter Autoren OpenAI wegen möglichen Missbrauchs ihres Materials verklagt. In der Klage wird argumentiert, dass große Sprachmodelle und die Unternehmen, die sie verwenden, die Arbeit der Autoren stehlen, um neue Inhalte zu erstellen.

Auch wenn diese Bedenken berechtigt sind, ist es aufgrund der bisherigen Erfahrungen nicht zu erwarten, dass sie die Entwicklung videobasierter Technologien aufhalten werden. OpenAI sagt zu dem Thema beispielsweise, dass verschiedene Sicherheitsmaßnahmen ergriffen werden, bevor Sora für die Öffentlichkeit freigeschaltet wird. Dazu gehört die Zusammenarbeit mit Experten für „Fehlinformationen, Hassinhalte und Voreingenommenheit“ und die „Entwicklung von Werkzeugen zur Erkennung irreführender Inhalte“.

Ein Beitrag von:

Dominik Hochwarth

Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.