ChatGPT: Wie konnte das Sprachmodell so gut werden?
ChatGPT tritt derzeit einen ungeahnten Siegeszug an. Doch woher kommt das Sprachmodell? Wir blicken rund 30 Jahre zurück und landen bei zwei deutschen Informatikern, die maßgeblich die Entwicklung angeschoben haben.
Ende November 2022 wurde ChatGPT von der in San Francisco ansässigen Firma OpenAI als Web-App veröffentlicht. Das Sprachmodell schlug ein wie eine Bombe, denn mit einem Mal konnte sich die breite Masse ganz aktiv mit künstlicher Intelligenz befassen und herausfinden, was diese zu leisten im Stande ist. Bereits zwei Monate nach dem Start hatte der Internetdienst über 100 Millionen Nutzer – das lässt andere Dienste vor Neid erblassen. Doch woher kam ChatGPT so plötzlich? Das renommierte Massachusetts Institute of Technology (MIT) hat einen Blick zurück gewagt, denn der Durchbruch von OpenAI kam nicht aus dem Nichts. Und zwei deutsche Wissenschaftler haben einen großen Anteil daran.
Wie funktioniert ChatGPT?
Bevor wir uns der Geschichte hinter ChatGPT widmen, wollen wir uns zunächst einmal anschauen, wie das Sprachmodell funktioniert. Die Grundlagen bilden maschinelles Lernen und neuronale Netze. Um Fragen beantworten zu können, muss es zuvor mit umfangreichen Trainingsdaten gefüttert werden. Das können Inhalte von Büchern, Websites und vieles mehr sein.
Das Modell verarbeitet und analysiert diese Daten, dazu verwendet es seine Trainingsdaten und seine neuronale Netzwerkarchitektur. Werden ChatGPT Fragen gestellt, nutzt es dieses angelernte Wissen, um daraus Antworten zu generieren. Dabei sind die Antworten meist nur so gut wie die gestellten Fragen. Sie können auch Fehler enthalten, da es nur ein Modell ist und kein menschliches Gehirn. Es merkt sich Muster und Strukturen der menschlichen Sprach, allerdings werden nur Wahrscheinlichkeiten für das nächste Wort ausgerechnet.
Dem neuronalen Netz kommt hier eine besondere Rolle zu. Die Software ist von der Art und Weise inspiriert, wie Neuronen im Gehirn von Tieren einander Signale geben. Anfangs konnten sich diese Netze nicht viel merken, sodass sie nur langsam zu trainieren und nicht besonders leistungsfähig waren. Womit wir bei der Frage angelangt sind, wo ChatGPT eigentlich herkommt.
Frühe neuronale Netze in den 1980er- und 1990er-Jahre
Der Grundstein von ChatGPT wurde in den 1980er-Jahren mit den rekurrenten neuronalen Netzen gelegt. Dabei geht es darum, dass Texte aus einer bestimmten Abfolge von Buchstaben und Wörtern unterschiedlicher Länge bestehen. Der Mensch lernt in der Schule, aus dieser Abfolge einen verständlichen Text zu formulieren oder ihn zu verstehen, wenn ihn andere schreiben. Je nach Gehirnleistung funktioniert das mal besser und mal schlechter.
Bei den ersten rekurrenten neuronalen Netzen (RNN) gelang das eher schlecht. Sie vergaßen schnell und waren langsam zu trainieren. Den beiden deutschen Informatikern Sepp Hochreiter und Jürgen Schmidhuber haben wir es zu verdanken, dass sich das änderte. Im Jahr 1997 haben sie die sogenannten LSTM-Netze erfunden. LSTM steht für Long Short-Term Memory, auf Deutsch: langes Kurzzeitgedächtnis. Diese Netze konnte sich wesentlich mehr merken, sie konnten Textstrings von mehreren hundert Wörtern verarbeiten. Die Sprachkenntnisse waren jedoch begrenzt.
Durch LSTM sind rekurrente neuronale Netzwerke in der Lage, sich an bestimmte Langzeit-Abhängigkeiten und an frühere Erfahrungen zu erinnern. So muss nicht bei jeder Aufgabe und bei jedem Problem von vorne begonnen werden. LSTM zeichnet zudem aus, dass es vergangene Informationen in bestimmten sequenziellen Daten selektieren kann. So kann aus Trainingsdaten gelernt werden, welche Informationen aus der früheren Vergangenheit dazu genutzt werden können, aktuelle Fragen zu beantworten. Oder auch, welche Informationen ganz einfach vergessen werden können.
2017: Durchbruch für moderne Sprachmodelle durch Transformer
Bis 2017 waren RNNs das Maß aller Dinge, wenn es darum ging, Sprache zu verstehen und zu modellieren. Sie haben allerdings ein Problem: Sie lesen ein Wort nach dem anderen und sind dazu gezwungen, mehrere Schritte durchzuführen, um Entscheidungen treffen zu können, die von weit voneinander entfernten Wörtern abhängen. Je mehr solcher Schritte benötigt werden, desto schwieriger ist es für ein rekurrentes Netzwerk, die richtige Entscheidung zu treffen.
Im Jahre 2017 erfanden Google-Mitarbeitende mit Transformer ein Programm, das anders arbeitete und einen Durchbruch für die heutige Generation großer Sprachmodelle ermöglichte. Statt Wort für Wort einen Text durchzuarbeiten, führt Transformer nur eine kleine, konstante Anzahl von Schritten durch. Dabei wendet das Programm in jedem Schritt einen Selbstbeobachtungsmechanismus an, der direkt die Beziehungen zwischen allen Wörtern eines Satzes modelliert. So erkennt das Sprachmodell sehr viel schneller und früher, um was es im Text geht.
Mit Transformer lassen sich eine Folge von Zeichen in eine andere Folge von Zeichen übersetzen, dies kann zum Beispiel dazu genutzt werden, um Text von einer Sprache in eine andere zu übersetzen. Weitere Anwendungsmöglichkeiten sind die Textgenerierung oder die Zusammenfassung längerer Text. Grundvoraussetzung ist wie bei LSTM-Netzen, dass das System vorher mittels maschinellen Lernens auf eine große Menge Beispiel-Daten trainiert wurde.
2018-2019: Die Vorgänger von Chat-GPT: GPT und GPT-2
GPT steht für Generativ Pre-trained Transformer, baut also auf dem auf, was Google 2017 veröffentlicht hat. GPT und GPT-2 waren die ersten beiden großen Sprachmodelle von OpenAI und somit die direkten Vorgänger von ChatGPT. Ziel des Unternehmens ist es, eine vielseitig einsetzbare KI zu entwickeln. Große Sprachmodelle sind ein wichtiger Schritt auf diesem Weg, davon ist OpenAI überzeugt. Mit GPT setzte das Start-up ein erstes Zeichen und übertraf die damals modernste Benchmark für die Verarbeitung natürlicher Sprache.
GPT (veröffentlich 2018) war in der Lage selbständig Muster in den trainierten Daten (= viele, viele Texte) erkennen, ohne dass der Software gesagt werden musste, was sie zu betrachten hat. Das gelang durch eine Kombination von Transformatoren mit unüberwachtem Lernen. Frühere Erfolge im Bereich maschinellen Lernens beruhten auf überwachtem Lernen und kommentierte Daten. Das ist jedoch zeitaufwändig und begrenzt die Größe der für das Training verfügbaren Datensätze.
Das unkommentierte, nicht überwachte Lernen von GPT führte aber auch zu Problemen, wie bei GPT-2 (veröffentlicht 2019) ersichtlich wurde. So schrieb OpenAI bei der Veröffentlichung: Die Text-KI sei „zu gefährlich“, um sie in der Vollversion zu veröffentlichen, da böse Geister das Internet mit glaubhaften Fake-Texten überfluten könnten. Stattdessen stellte OpenAI GPT-2 in einer abgespeckten Version zur Verfügung, die nur einen Bruchteil der maximal möglichen Leistung bot.
2020: Falschinformationen und beleidigende Sprache bei GPT-3
War GPT-2 auch in der abgespeckten Variante bereits beeindruckend, so ließ GPT-3 vielen die Kinnladen runterklappen. Seine Fähigkeit, menschenähnlichen Text zu generieren, war ein großer Sprung nach vorne. Die Software konnte Fragen beantworten, Dokumente zusammenfassen, Geschichten in verschiedenen Sprachstilen erstellen, zwischen den unterschiedlichsten Sprachen übersetzen und noch vieles mehr.
Das alles gelang nicht durch neue, sondern durch die Vergrößerung bestehender Techniken. GPT-3 hat zum Beispiel 175 Milliarden Parameter, bei GPT-2 waren es 1,5 Milliarden, bei GPT sogar nur 0,12 Milliarden. Parameter sind die Werte in einem Netzwerk, die während des Trainings angepasst werden. Im Vergleich zur ersten Version wurde die dritte Version von GPT mit einer fast 1500 mal größeren Datenmenge trainiert.
Das Training mit Texten aus dem Internet brachte jedoch ein riesiges Problem zutage: GPT-3 hat viele Desinformationen und Vorurteile aus dem Netz aufgesaugt und gibt sie bei Bedarf wieder. Wie OpenAI einräumte: „Im Internet trainierte Modelle haben Verzerrungen im Ausmaß des Internets.“ Dabei geht es aber nicht nur um Verzerrungen der Wahrheit, sondern auch um eine teilweise hasserfüllte, sexistische und rassistische Sprache, die von KI genutzt wird.
Januar 2022: Weniger fehlgeleitete Sprache dank InstructGPT
OpenAI reagiert auf die aufkommende Kritik bezüglich der Menge an Fehlinformationen, die von GPT-3 produziert wurden und bringt InstructGPT auf den Markt. Mit Hilfe von Reinforcement Learning wurde dabei das Sprachmodell anhand der Präferenzen menschlicher Tester trainiert. Dadurch konnte es die Anweisungen der Menschen, die es benutzten, besser befolgen und produzierte weniger beleidigende Sprache, weniger Falschinformationen und insgesamt weniger Fehler.
März 2023: Mit ChatGPT-4 wird es akademischer
Im Frühjahr 2023 wurde GPT-4 als die nächste und verbesserte Version von ChatGPT 3.5 eingeführt. OpenAI gibt an, dass GPT-4 auf einem vergleichbaren Niveau wie Menschen in akademischen Bereichen arbeitet. Um dies zu erreichen, wurde die KI über einen Zeitraum von 6 Monaten mit Daten aus der Testphase von Chat GPT trainiert. GPT-4 wird als stabileres System bezeichnet, dessen Wachstum erstmals vorhersehbar war. Dadurch können die Möglichkeiten, die die KI in Zukunft bieten kann, besser abgeschätzt werden. Bei oberflächlichen Unterhaltungen sind die Verbesserungen von GPT-4 laut OpenAI eher subtil. Bei tiefergehenden Gesprächen glänzt GPT-4 jedoch durch seine Komplexität, Zuverlässigkeit und erhöhte Feinfühligkeit.
Dezember 2022: ChatGPT als Update von InstructGPT
Bei ChatGPT handelt es sich um ein Update von InstructGPT, auch dieses Sprachmodell wurde mit Hilfe von Reinforcement Learning auf der Grundlage von Rückmeldungen menschlicher Tester trainiert. Bei dieser Art des bestärkenden Lernens erhält das Computerprogramm Belohnungen, die auch negativ sein können. So soll sichergestellt werden, dass ChatGPT zu einem flüssigen, präzisen und unaufdringlichen Gesprächspartner wird, der das Spiel der Konservation meistert, ohne dabei in eine beleidigende Sprache abzudriften.
Der erste Eindruck, den ChatGPT in den rund 3 Monaten seit Veröffentlichung gemacht hat, lässt keine Klagen zu. Vielmehr wird das Sprachmodell dank einer 10-Milliarden-Dollar-Spritze von Microsoft in die Suchmaschine Bing und in die Office-Software integriert. Und was macht der große Konkurrent Google? Der bricht so langsam in Panik aus und hat seinen noch unausgegorenen ChatBot Bard vorgestellt. Das geriet zu einem ziemlichen Desaster und führte dazu, dass die Alphabet-Aktie ziemlich abschmierte. Grund war eine fehlerhafte Antwort des Chatbots während der Präsentation.
Grundidee hinter den GPT-Modellen
Bisher haben wir gelernt, dass Sprachmodelle irgendetwas mit neuronalen Netzen und Wahrscheinlichkeiten zu tun haben. Schauen wir uns nun einmal genauer an, welche Grundidee hinter den GPT-Modellen steckt:
Vereinfacht gesagt geht es bei den GPT-Modellen darum, zu einem gegebenen Text immer das nächste passende Wort zu finden und diesen Vorgang solange zu wiederholen, bis genügend Text erzeugt wurde. Handelt es bei dem vorgebenen Text zum Beispiel um eine Frage, wird ChatGPT zunächst nur das erste Wort der Antwort bestimmen, ohne bereits zu wissen, wie die Antwort lauten wird.
Nachdem das erste Wort gesetzt wurde, liest sich ChatGPT noch einmal die Frage und das erste Wort seiner Antwort durch und bestimmt auf Basis von Wahrscheinlichkeiten das nächste Wort. Nach „Ich“ besteht zum Beispiel eine große Wahrscheinlichkeit, dass danach ein „habe“, „war“ oder „bin“ folgt. Das wiederholt der ChatBot solange, bis das nächste „Wort“ ein Abbruchkommando ist.
Sie sehen, ChatGPT arbeitet grundlegend anders, als Menschen es tun würden. Diese haben in der Regel bereits grob im Kopf, was sie schreiben möchten. Beim Chatbot ergibt sich das erst nach und nach, heißt Wort für Wort. Das ist auch die Erklärung dafür, dass die Antworten von ChatGPT oft eintönig klingen und Sätze oft mit den gleichen Wörtern anfangen.
Wie werden aus einzelnen Wörtern sinnvolle Sätze?
ChatGPT reiht Wort für Wort aneinander und formt daraus in der Regel sinnvolle Sätze. Doch wie gelingt das? Aus Sicht des Rechners ist doch jedes Wort eine Abfolge von Buchstaben? Dazu muss das einfache Sprachmodell Stück für Stück erweitert werden. Es geht darum, jedes Wort einem Punkt in einem sogenannten semantischen Raum zuzuordnen.
Wir kennen zwei- oder dreidimensionale Räume, der semantische Raum ist jedoch wesentlich komplexer und besteht aus wesentlich mehr Dimensionen. Es gibt verschiedene technische Ansätze, wie sich Wörter im Raum einsortieren lassen, am gängigsten sind Verfahren, die unter dem Oberbegriff Word2Vec bekannt sind. Grob gesagt geht es bei solchen Modellen darum, zu jedem Wort eines Textes zu erraten, welche Wörter kurz davor oder danach vorkommen.
Zu erraten ist vielleicht etwas zu kurz gegriffen, denn jedes Wort bekommt im semantischen Raum seinen Platz zugewiesen und zusätzlich noch einen Kontextvektor. Üblicherweise sind in der Nähe des Wortes im Raum ähnliche Begriffe zu finden. In der Nähe des Begriffes „König“ befinden sich zum Beispiel noch die Begriffe „Königin“ oder „Kaiser“. Der Kontextvektor zeigt hingegen in einen Raum, wo sich zum Beispiel die Begriffe „Reich“, „Thron“ oder „Schloss“ befinden. Das sind dann mögliche Vorgänger- oder Nachfolgerwörter für einen Satz, denn ChatGPT bildet.
Durch Training mit Milliarden von Datensätzen wird das Sprachmodell immer besser darin, menschliche Sprache zu verstehen und die verschiedenen Wörter richtig zuordnen zu können. Die Einbettung in den semantischen Raum kann aber nur eine sehr grobe Annäherung an echtes Sprachverständnis sein, dafür ist die Sprache viel zu komplex. So haben zum Beispiel Wörter wie „eine“ oder „die“ keine eigenständige Bedeutung oder der Begriff „König“ kann im Kontext mit einem Land oder mit Schach verwendet werden.
Ein Beitrag von: