Sprachen 23.01.2025, 09:40 Uhr

Simultandolmetschen durch KI: Ist die Ära der menschlichen Übersetzer bald vorbei?

Stellen Sie sich vor, eine KI könnte gesprochene Sprache in Echtzeit übersetzen – ohne dass vorher Text erstellt werden muss. Meta hat mit SEAMLESSM4T eine KI entwickelt, die ähnlich wie der fiktive Babel Fish aus Per Anhalter durch die Galaxis gesprochene Sprache in Echtzeit übersetzt.

Simultandolmetschen

Simultandolmetschen: KI, die gesprochene Sprache in Echtzeit übersetzt.

Foto: PantherMedia / fotoqraf.tk.mail.ru

Der Technologieanbieter Meta hat ein neues KI-Modell entwickelt, das gesprochene Sprache in nur wenigen Sekunden in zahlreiche andere Sprachen übersetzen kann.

In der Welt der Globalisierung sind Sprachkenntnisse unverzichtbar. Zwar sind wir inzwischen daran gewöhnt, Texte mit diversen Apps oder auch über Tools wie ChatGPT schnell und relativ präzise übersetzen zu lassen – die Ergebnisse sind deutlich flüssiger als noch vor zehn Jahren, als maschinelle Übersetzungen oft holprig klangen. Dennoch stößt künstliche Intelligenz bei bestimmten Redewendungen oder kulturellen Nuancen noch immer an ihre Grenzen. Besonders herausfordernd wird es, wenn es um mündliche Kommunikation geht. Natürlich könnten einige argumentieren, dass man in Gesprächen einfach eine App nutzen und Sätze diktieren könnte, um sie direkt übersetzen zu lassen. Doch wie verhält es sich bei Konferenzen, wenn ein Redner ohne Pause spricht? Apps sind hier wenig hilfreich, und nicht immer steht ein Dolmetscher zur Verfügung, der konsekutiv – also Satz für Satz – übersetzt. Genau hier kommt das Simultandolmetschen ins Spiel. Und jetzt auch die KI.

Die Kunst des Simultandolmetschens: Präzision, Konzentration und Teamarbeit

Simultandolmetschen ist eine der anspruchsvollsten Disziplinen im Bereich der Sprachvermittlung. Die Dolmetscher sitzen in speziell schallisolierten Kabinen und hören dem Redner über Kopfhörer aufmerksam zu. Während sie dem Vortrag in einer Sprache folgen, übersetzen sie nahezu zeitgleich in eine andere Sprache – mit nur wenigen Sekunden Verzögerung. Diese anspruchsvolle Tätigkeit erfordert höchste Konzentration, außergewöhnliche Sprachbeherrschung und die Fähigkeit, parallel zuzuhören, zu übersetzen und zu sprechen. Es ist ein Kunststück, das selbst mit modernster KI-Technologie bislang kaum nachahmbar ist. Wer einmal erlebt hat, wie ein Simultandolmetscher arbeitet, wird die Präzision und die Geschwindigkeit dieser Arbeit nie vergessen.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
HENN GmbH-Firmenlogo
Ingenieur*in | Technische Ausrüstung Elektrotechnik / HLSK HENN GmbH
München Zum Job 
TÜV Hessen-Firmenlogo
Sachverständiger Elektrotechnik (m/w/d) TÜV Hessen
Frankfurt am Main Zum Job 
Stuttgart Netze GmbH-Firmenlogo
(Junior) Ingenieur Elektrotechnik Projektierung (w/m/d) Stuttgart Netze GmbH
Stuttgart Zum Job 
Lincoln Electric GmbH-Firmenlogo
Schweißfachingenieur / Schweißtechniker (m/w/d) Lincoln Electric GmbH
Evonik Operations GmbH-Firmenlogo
Ingenieur (m/w/d) Informatik / Elektrotechnik / Automatisierungstechnik / Chemische Produktion Evonik Operations GmbH
VIVAVIS AG-Firmenlogo
Partner-Manager Metering (m/w/d) VIVAVIS AG
Koblenz, Home-Office Zum Job 
VIVAVIS AG-Firmenlogo
Sales Manager Bahn (m/w/d) VIVAVIS AG
Berlin, Home-Office Zum Job 
Alhäuser + König Ingenieurbüro GmbH-Firmenlogo
Ingenieur:in für Elektrotechnik / Master / Bachelor /Diplom (m/w/d) Alhäuser + König Ingenieurbüro GmbH
Bonn, Hachenburg Zum Job 
Stadtwerke Rüsselsheim GmbH-Firmenlogo
Messtechniker als Spezialist Gerätemanagement Strom (m/w/d Stadtwerke Rüsselsheim GmbH
Rüsselsheim Zum Job 
Agile Robots SE-Firmenlogo
Senior Projektingenieur - Industrial Automation (m/w/d) Agile Robots SE
München Zum Job 
Hochschule für angewandte Wissenschaften Kempten-Firmenlogo
Professur (w/m/d) Elektrische Antriebstechnik Hochschule für angewandte Wissenschaften Kempten
Kempten Zum Job 
PFISTERER Kontaktsysteme GmbH-Firmenlogo
High Voltage Testing Specialist (w/m/d) PFISTERER Kontaktsysteme GmbH
Winterbach Zum Job 
Sanofi-Aventis Deutschland GmbH-Firmenlogo
Ingenieur-Trainee in der Pharmazeutischen Produktion - all genders Sanofi-Aventis Deutschland GmbH
Frankfurt am Main Zum Job 
Broadcast Solutions GmbH-Firmenlogo
Elektroingenieur* in Vollzeit (m/w/d) Broadcast Solutions GmbH
THU Technische Hochschule Ulm-Firmenlogo
W2-Professur "Elektrische Antriebe" THU Technische Hochschule Ulm
Mercer Stendal GmbH-Firmenlogo
Ingenieur / Techniker (m/w/d) Automatisierungstechnik Mercer Stendal GmbH
Arneburg Zum Job 
Mercer Stendal GmbH-Firmenlogo
Betriebstechniker (m/w/d) Prozessleittechnik Mercer Stendal GmbH
Arneburg Zum Job 
Wasserstraßen- und Schifffahrtsverwaltung des Bundes (WSV)-Firmenlogo
Ingenieurin / Ingenieur (m/w/d) (FH-Diplom/Bachelor) in der Fachrichtung Elektrotechnik Schwerpunkt Nachrichtentechnik/Informationstechnik oder vergleichbar Wasserstraßen- und Schifffahrtsverwaltung des Bundes (WSV)
Koblenz Zum Job 
Solventum Germany GmbH-Firmenlogo
Prozessingenieur Automatisierungstechnik / Mechatronik / Maschinenbau (m/w/*) Solventum Germany GmbH
Seefeld Zum Job 

Diese extreme Belastung, die beim Simultandolmetschen auf den Dolmetscher wirkt, macht es notwendig, regelmäßig Pausen einzulegen. Deshalb arbeiten Simultandolmetscher in der Regel im Team und wechseln sich alle 15 bis 30 Minuten ab. Während ein Dolmetscher aktiv übersetzt, bleibt der andere in der Kabine, hört zu und notiert wichtige Punkte, um beim Wechsel nahtlos anknüpfen zu können. Dieser Wechselrhythmus ist entscheidend, da die Tätigkeit sowohl mental als auch körperlich äußerst anstrengend ist. Die hohe Konzentration, das ständige Umschalten zwischen den Sprachen und die gleichzeitige Verarbeitung von Gehörtem und Gesprochenem beanspruchen das Gehirn stark. Der regelmäßige Wechsel ermöglicht es den Dolmetschern, ihre Leistung über die gesamte Dauer der Veranstaltung aufrechtzuerhalten.

KI-Modelle verändern die Echtzeit-Sprachübersetzung

Und nun steht die KI an der Schwelle, auch in diesem Bereich eine Rolle zu spielen. Was früher unvorstellbar war, wird allmählich Realität: Die künstliche Intelligenz (KI) hat in diesem Bereich bedeutende Fortschritte erzielt und bietet inzwischen die Möglichkeit, gesprochene Sprache in Echtzeit in andere Sprachen zu übersetzen. Ein Beispiel dafür ist das von Meta entwickelte KI-Modell SeamlessM4T, das in der Lage ist, gesprochene Worte in über 100 Sprachen zu übersetzen. Dabei erreicht es eine Genauigkeit, die bis zu 23 % über der von herkömmlichen Modellen liegt.
„Um diese Lücke zu schließen, stellen wir hier SEAMLESSM4T vor – ein System für massives, mehrsprachiges und multimodales maschinelles Übersetzen. Es handelt sich um ein einziges Modell, das Sprach-zu-Sprach-Übersetzungen (von 101 auf 36 Sprachen), Sprach-zu-Text-Übersetzungen (von 101 auf 96 Sprachen), Text-zu-Sprach-Übersetzungen (von 96 auf 36 Sprachen), Text-zu-Text-Übersetzungen (96 Sprachen) und automatische Spracherkennung (96 Sprachen) unterstützt“, schreiben die Forschenden in Nature. Dabei vergleichen sie das Ganze mit dem Babel Fish aus Per Anhalter durch die Galaxis.

Der Weg zum Babel Fish

Der Babel Fish aus Per Anhalter durch die Galaxis ist ein fiktives Gerät, das zwischen zwei Sprachen übersetzt. In der heutigen Welt, die immer stärker vernetzt ist, wird der Wunsch, Technologien zu entwickeln, die eine sofortige Sprach-zu-Sprach-Übersetzung (S2ST) sowohl digital als auch im echten Leben ermöglichen, immer wichtiger. Obwohl Sprache eine zentrale Rolle in der Kommunikation spielt, sind maschinelle Übersetzungssysteme (MT) noch immer vor allem auf Textübersetzungen ausgerichtet.

Das Unternehmen Meta, das Social-Media-Plattformen wie Facebook, Threads, WhatsApp und Instagram betreibt, stellt SEAMLESSM4T als Open-Source-System für Forschende zur Verfügung, damit diese darauf aufbauen können.

Von 443.000 Stunden Audiomaterial zu präzisen Übersetzungen

Die Entwicklung eines solchen KI-Modells ist alles andere als einfach. Ein großes Problem ist der Mangel an Trainingsdaten. Für Sprachen aus gut entwickelten Ländern gibt es viele Datensätze, während Sprachen aus Entwicklungsländern oft leer ausgehen. Um dieses Problem zu lösen, nutzen Forscher eine Methode namens Parallel Data Mining, bei der sie auf Audio-Ressourcen mit Untertiteln in einer anderen Sprache zugreifen. Mit 443.000 Stunden Audiomaterial und rund 30.000 Sprach-Text-Paaren konnten sie eine große Datensammlung erstellen.

SeamlessM4T funktioniert in drei Hauptbereichen: Es verarbeitet Text- und Spracheingaben und liefert Übersetzungen. Der Übersetzungsteil wurde mit einem riesigen Datensatz von 4,5 Millionen Stunden gesprochener Sprache aus verschiedenen Sprachen trainiert.

Wie KI gesprochene Sprache erkennt und übersetzt

Bevor das System die Sprache übersetzen kann, muss es zuerst erkennen, welche Sprache gerade gesprochen wird. Dies geschieht durch ein spezielles Modell, das auf Audioaufnahmen trainiert wurde. Es erkennt die Sprache, auch wenn viele verschiedene Sprachen verarbeitet werden. Das Modell wurde für 100 verschiedene Sprachen entwickelt und hat gute Ergebnisse bei der Identifikation erzielt.

Um Übersetzungen zu finden, verwendet das System einen speziellen „Einbettungsraum“ (eine Art Datenbank), der verschiedene Sprachen miteinander vergleicht. Dabei werden Sprach- und Textdaten in eine gemeinsame Struktur gebracht. So kann das System schnell passende Übersetzungen finden, auch für weniger häufige Sprachen.

Mit anderen Worten: Das Meta-Team sammelte Millionen von Stunden an Audiodateien aus dem Internet und aus Archiven in verschiedenen Sprachen und kombinierte diese mit Übersetzungen und Transkripten, die von Menschen erstellt wurden. Anschließend trainierten die Forschenden ein KI-Modell, um passende Inhalte in diesen Daten zu erkennen. So konnten sie etwa 500.000 Stunden an Audio und Text miteinander verknüpfen und automatisch jedem Abschnitt in einer Sprache den passenden Abschnitt in einer anderen Sprache zuordnen.

Training der Sprach-Encoder

Die Sprach-Encoder wurden auf Basis von Transkripten, also geschriebenen Texten, trainiert. Anstatt das Modell direkt in komplexen Prozessen zu testen, haben Forschende den Sprach-Encoder mit einem anderen Teil des Systems verbunden und so die Qualität überprüft. Die Ergebnisse zeigen, dass SONAR im Vergleich zu einem Modell namens WHISPER-LARGE-V2, das mit sehr vielen Daten trainiert wurde, gute Ergebnisse erzielt, besonders bei Sprachen mit weniger Ressourcen. In einigen größeren Sprachen wie Deutsch oder Russisch gibt es leichte Unterschiede, aber bei Sprachen wie Swahili oder Bengali ist SONAR sogar besser.

SEAMLESSM4T ermöglicht es, gesprochene Sprache direkt und in Echtzeit zu übersetzen, ohne sie zuvor in Text umzuwandeln. Ein Sprachsynthesizer wird verwendet, um die gesprochene Sprache aus 101 verschiedenen Sprachen zu übersetzen. Die übersetzten Ausgaben sind jedoch derzeit nur in 36 Sprachen verfügbar.

Ein Beitrag von:

  • Alexandra Ilina

    Redakteurin beim VDI-Verlag. Nach einem Journalistik-Studium an der TU-Dortmund und Volontariat ist sie seit mehreren Jahren als Social Media Managerin, Redakteurin und Buchautorin unterwegs.  Sie schreibt über Karriere und Technik.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.