Simultandolmetschen durch KI: Ist die Ära der menschlichen Übersetzer bald vorbei?
Stellen Sie sich vor, eine KI könnte gesprochene Sprache in Echtzeit übersetzen – ohne dass vorher Text erstellt werden muss. Meta hat mit SEAMLESSM4T eine KI entwickelt, die ähnlich wie der fiktive Babel Fish aus Per Anhalter durch die Galaxis gesprochene Sprache in Echtzeit übersetzt.
Der Technologieanbieter Meta hat ein neues KI-Modell entwickelt, das gesprochene Sprache in nur wenigen Sekunden in zahlreiche andere Sprachen übersetzen kann.
Inhaltsverzeichnis
In der Welt der Globalisierung sind Sprachkenntnisse unverzichtbar. Zwar sind wir inzwischen daran gewöhnt, Texte mit diversen Apps oder auch über Tools wie ChatGPT schnell und relativ präzise übersetzen zu lassen – die Ergebnisse sind deutlich flüssiger als noch vor zehn Jahren, als maschinelle Übersetzungen oft holprig klangen. Dennoch stößt künstliche Intelligenz bei bestimmten Redewendungen oder kulturellen Nuancen noch immer an ihre Grenzen. Besonders herausfordernd wird es, wenn es um mündliche Kommunikation geht. Natürlich könnten einige argumentieren, dass man in Gesprächen einfach eine App nutzen und Sätze diktieren könnte, um sie direkt übersetzen zu lassen. Doch wie verhält es sich bei Konferenzen, wenn ein Redner ohne Pause spricht? Apps sind hier wenig hilfreich, und nicht immer steht ein Dolmetscher zur Verfügung, der konsekutiv – also Satz für Satz – übersetzt. Genau hier kommt das Simultandolmetschen ins Spiel. Und jetzt auch die KI.
Die Kunst des Simultandolmetschens: Präzision, Konzentration und Teamarbeit
Simultandolmetschen ist eine der anspruchsvollsten Disziplinen im Bereich der Sprachvermittlung. Die Dolmetscher sitzen in speziell schallisolierten Kabinen und hören dem Redner über Kopfhörer aufmerksam zu. Während sie dem Vortrag in einer Sprache folgen, übersetzen sie nahezu zeitgleich in eine andere Sprache – mit nur wenigen Sekunden Verzögerung. Diese anspruchsvolle Tätigkeit erfordert höchste Konzentration, außergewöhnliche Sprachbeherrschung und die Fähigkeit, parallel zuzuhören, zu übersetzen und zu sprechen. Es ist ein Kunststück, das selbst mit modernster KI-Technologie bislang kaum nachahmbar ist. Wer einmal erlebt hat, wie ein Simultandolmetscher arbeitet, wird die Präzision und die Geschwindigkeit dieser Arbeit nie vergessen.
Diese extreme Belastung, die beim Simultandolmetschen auf den Dolmetscher wirkt, macht es notwendig, regelmäßig Pausen einzulegen. Deshalb arbeiten Simultandolmetscher in der Regel im Team und wechseln sich alle 15 bis 30 Minuten ab. Während ein Dolmetscher aktiv übersetzt, bleibt der andere in der Kabine, hört zu und notiert wichtige Punkte, um beim Wechsel nahtlos anknüpfen zu können. Dieser Wechselrhythmus ist entscheidend, da die Tätigkeit sowohl mental als auch körperlich äußerst anstrengend ist. Die hohe Konzentration, das ständige Umschalten zwischen den Sprachen und die gleichzeitige Verarbeitung von Gehörtem und Gesprochenem beanspruchen das Gehirn stark. Der regelmäßige Wechsel ermöglicht es den Dolmetschern, ihre Leistung über die gesamte Dauer der Veranstaltung aufrechtzuerhalten.
KI-Modelle verändern die Echtzeit-Sprachübersetzung
Und nun steht die KI an der Schwelle, auch in diesem Bereich eine Rolle zu spielen. Was früher unvorstellbar war, wird allmählich Realität: Die künstliche Intelligenz (KI) hat in diesem Bereich bedeutende Fortschritte erzielt und bietet inzwischen die Möglichkeit, gesprochene Sprache in Echtzeit in andere Sprachen zu übersetzen. Ein Beispiel dafür ist das von Meta entwickelte KI-Modell SeamlessM4T, das in der Lage ist, gesprochene Worte in über 100 Sprachen zu übersetzen. Dabei erreicht es eine Genauigkeit, die bis zu 23 % über der von herkömmlichen Modellen liegt.
„Um diese Lücke zu schließen, stellen wir hier SEAMLESSM4T vor – ein System für massives, mehrsprachiges und multimodales maschinelles Übersetzen. Es handelt sich um ein einziges Modell, das Sprach-zu-Sprach-Übersetzungen (von 101 auf 36 Sprachen), Sprach-zu-Text-Übersetzungen (von 101 auf 96 Sprachen), Text-zu-Sprach-Übersetzungen (von 96 auf 36 Sprachen), Text-zu-Text-Übersetzungen (96 Sprachen) und automatische Spracherkennung (96 Sprachen) unterstützt“, schreiben die Forschenden in Nature. Dabei vergleichen sie das Ganze mit dem Babel Fish aus Per Anhalter durch die Galaxis.
Der Weg zum Babel Fish
Der Babel Fish aus Per Anhalter durch die Galaxis ist ein fiktives Gerät, das zwischen zwei Sprachen übersetzt. In der heutigen Welt, die immer stärker vernetzt ist, wird der Wunsch, Technologien zu entwickeln, die eine sofortige Sprach-zu-Sprach-Übersetzung (S2ST) sowohl digital als auch im echten Leben ermöglichen, immer wichtiger. Obwohl Sprache eine zentrale Rolle in der Kommunikation spielt, sind maschinelle Übersetzungssysteme (MT) noch immer vor allem auf Textübersetzungen ausgerichtet.
Das Unternehmen Meta, das Social-Media-Plattformen wie Facebook, Threads, WhatsApp und Instagram betreibt, stellt SEAMLESSM4T als Open-Source-System für Forschende zur Verfügung, damit diese darauf aufbauen können.
Von 443.000 Stunden Audiomaterial zu präzisen Übersetzungen
Die Entwicklung eines solchen KI-Modells ist alles andere als einfach. Ein großes Problem ist der Mangel an Trainingsdaten. Für Sprachen aus gut entwickelten Ländern gibt es viele Datensätze, während Sprachen aus Entwicklungsländern oft leer ausgehen. Um dieses Problem zu lösen, nutzen Forscher eine Methode namens Parallel Data Mining, bei der sie auf Audio-Ressourcen mit Untertiteln in einer anderen Sprache zugreifen. Mit 443.000 Stunden Audiomaterial und rund 30.000 Sprach-Text-Paaren konnten sie eine große Datensammlung erstellen.
SeamlessM4T funktioniert in drei Hauptbereichen: Es verarbeitet Text- und Spracheingaben und liefert Übersetzungen. Der Übersetzungsteil wurde mit einem riesigen Datensatz von 4,5 Millionen Stunden gesprochener Sprache aus verschiedenen Sprachen trainiert.
Wie KI gesprochene Sprache erkennt und übersetzt
Bevor das System die Sprache übersetzen kann, muss es zuerst erkennen, welche Sprache gerade gesprochen wird. Dies geschieht durch ein spezielles Modell, das auf Audioaufnahmen trainiert wurde. Es erkennt die Sprache, auch wenn viele verschiedene Sprachen verarbeitet werden. Das Modell wurde für 100 verschiedene Sprachen entwickelt und hat gute Ergebnisse bei der Identifikation erzielt.
Um Übersetzungen zu finden, verwendet das System einen speziellen „Einbettungsraum“ (eine Art Datenbank), der verschiedene Sprachen miteinander vergleicht. Dabei werden Sprach- und Textdaten in eine gemeinsame Struktur gebracht. So kann das System schnell passende Übersetzungen finden, auch für weniger häufige Sprachen.
Mit anderen Worten: Das Meta-Team sammelte Millionen von Stunden an Audiodateien aus dem Internet und aus Archiven in verschiedenen Sprachen und kombinierte diese mit Übersetzungen und Transkripten, die von Menschen erstellt wurden. Anschließend trainierten die Forschenden ein KI-Modell, um passende Inhalte in diesen Daten zu erkennen. So konnten sie etwa 500.000 Stunden an Audio und Text miteinander verknüpfen und automatisch jedem Abschnitt in einer Sprache den passenden Abschnitt in einer anderen Sprache zuordnen.
Training der Sprach-Encoder
Die Sprach-Encoder wurden auf Basis von Transkripten, also geschriebenen Texten, trainiert. Anstatt das Modell direkt in komplexen Prozessen zu testen, haben Forschende den Sprach-Encoder mit einem anderen Teil des Systems verbunden und so die Qualität überprüft. Die Ergebnisse zeigen, dass SONAR im Vergleich zu einem Modell namens WHISPER-LARGE-V2, das mit sehr vielen Daten trainiert wurde, gute Ergebnisse erzielt, besonders bei Sprachen mit weniger Ressourcen. In einigen größeren Sprachen wie Deutsch oder Russisch gibt es leichte Unterschiede, aber bei Sprachen wie Swahili oder Bengali ist SONAR sogar besser.
SEAMLESSM4T ermöglicht es, gesprochene Sprache direkt und in Echtzeit zu übersetzen, ohne sie zuvor in Text umzuwandeln. Ein Sprachsynthesizer wird verwendet, um die gesprochene Sprache aus 101 verschiedenen Sprachen zu übersetzen. Die übersetzten Ausgaben sind jedoch derzeit nur in 36 Sprachen verfügbar.
Ein Beitrag von: