3D-Avatar übersetzt Texte automatisiert in Gebärdensprache

Ein neu entwickelter 3D-Avatar übersetzt Texte automatisiert in Gebärdensprache. Damit lassen sich erstmals auch dynamische Inhalte wie Abflugzeiten am Flughafen an Gehörlose übermitteln.

Insbesondere bei dynamischen Inhalten lässt sich die Gebärdensprache bislang nur schwierig umsetzen, neu entwickelte 3D-Avatare sollen in Kombination mit maschinellem Lernen Abhilfe schaffen.

Foto: PantherMedia / HayDmitriy

Die digitale Kommunikation entwickelt sich rasant. Aber erreicht sie auch alle? Weltweit gibt es etwa 70 Millionen gehörlose Menschen, für die Text in der Regel eine Zweitsprache ist. Daher gewinnt die digitale Barrierefreiheit zunehmend an Bedeutung, um sicherzustellen, dass Inhalte effektiv und zielgruppengerecht vermittelt werden. Automatisierte Werkzeuge spielen dabei eine Schlüsselrolle, um eine barrierefreie digitale Kommunikation zu unterstützen.

Das Projekt AVASAG

„Gewöhnliche Schriftsprache ist für gehörlose Menschen wie eine Fremdsprache, da sich die Deutsche Gebärdensprache in Grammatik und Wortwahl vom gesprochenen und geschriebenen Deutsch unterscheidet. Müssen Informationen aufgenommen werden, die sich schnell ändern, sind schriftliche Angaben deshalb für viele Gehörlose nur bedingt hilfreich“, erklärt Prof. Dr. Arnulph Fuhrmann vom Institut für Medien- und Phototechnik der TH Köln.

Zusammen mit Partnern hat die TH Köln daher im Projekt AVASAG einen 3D-Avatar entwickelt, der dynamische Inhalte automatisiert in Gebärdensprache übersetzt. Dabei wurden Methoden des maschinellen Lernens mit regelbasierten Synthesemethoden kombiniert. Diese bilden Text in Gebärden ab. Zeitliche und räumliche Abhängigkeiten der Gebärdenelemente werden dabei sehr genau aufgelöst.

Echtzeit-Informationen in Gebärdensprache

Obwohl Unternehmen und Behörden zunehmend Gebärdensprachvideos zur Kommunikation mit Gehörlosen und Schwerhörigen einsetzen, stoßen diese an ihre Grenzen, wenn es um dynamische Inhalte geht. Dabei kann es sich zum Beispiel um Fahrplanänderungen, Zugausfälle oder Flugzeugverspätungen handeln.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs

„Videoproduktionen sind aufwändig und die einmal erstellten Videos nur schwer editierbar. Ändert sich der Inhalt, müssen sie manuell angepasst oder komplett neu erstellt werden. Für Reiseinformationen wie Fahrplanänderungen, Verspätungen oder Zugausfälle ist das keine Option. Wir setzen daher auf eine Lösung, die Informationen in Gebärdensprache in Echtzeit bereitstellen kann“, so Fuhrmann.

Präzise Gebärdensprache dank innovativer 3D-Avatare

In dem bereits erwähnten Verbundprojekt AVASAG haben sich die TH Köln und sechs Partner zusammengeschlossen, um die Teilhabe von Gehörlosen am gesellschaftlichen Leben zu verbessern. Ein zentraler Baustein des Projekts ist die Entwicklung einer neuartigen Animationsmethode für 3D-Avatare. An der TH Köln wurden in einem Teilprojekt mithilfe mehrerer Kameras einzelne Gebärden und ganze Sätze einer Person aufgenommen. So konnten die Bewegungen von Körper, Fingern und Gesicht gleichzeitig erfasst werden. Diese detaillierten Daten bilden die Grundlage für die präzise Animation der 3D-Avatare.

„Beim sogenannten Motion Capturing werden reflektierende Leuchtmarker an Körper und Kopf angebracht. Die Kameras nehmen dabei das reflektierte Licht auf. Die Lichtpunkte werden dann am Computer zusammengesetzt und es entsteht ein digitales Abbild der Bewegungen“, berichtet Fuhrmann und ergänzt: „Der Computer nimmt aber nur die Lichtpunkte auf und kann sie nicht der entsprechenden Bedeutung in der Gebärdensprache zuordnen. Das ist besonders bei Fingerbewegungen kompliziert, da die Lichtpunkte sehr dicht beieinander liegen und es schnell zu Fehlzuordnungen kommt.“

Machine-Learning-Verfahren bereitet die Daten auf

Um die komplexen Bewegungsdaten der 3D-Avatare korrekt zu interpretieren, entwickelten die Forschenden ein innovatives Machine-Learning (ML)-Verfahren. Dieses Verfahren analysiert die erfassten Daten und ordnet jedem Lichtpunkt im 3D-Modell eindeutig seine Position zu. Die so aufbereiteten Daten werden in einem weiteren ML-Verfahren mit den in die Software eingegebenen Texten verknüpft.

So kann das System die Bedeutung jeder Gebärde erkennen und den Avatar entsprechend steuern. „Mit diesen Bausteinen ist es uns gelungen, ganze Sätze von Reiseinformationen in Gebärdensprache zu übersetzen und durch den Avatar animieren zu lassen“, erklärt Fuhrmann.

Auch interessant:

Neue Hoffnung für Betroffene

Klebepflaster und KI sollen Menschen mit Stimmstörungen helfen

Sehkraft erhalten

Ab ins Auge: Ingenieur will Solarpanel implantieren

Interaktion mit dem Avatar wird als respektvoll wahrgenommen

68 gehörlose Menschen nahmen abschließend an einer Online-Umfrage teil, um die Benutzerfreundlichkeit des Gebärdensprach-Avatars zu bewerten. Die Ergebnisse zeigen: Die Interaktion mit dem Avatar wurde als ansprechend, authentisch, respektvoll und natürlich empfunden. Es zeigte sich außerdem, dass die Anwendung am liebsten auf mobilen Endgeräten genutzt wird.

„Wir erwarten eine hohe Akzeptanz, da die Gebärdensprachler*innen die Verständlichkeit sowie das Erscheinungsbild des Avatars als positiv wahrgenommen haben. Bis die Anwendung tatsächlich in stationäre Bildschirme in Bahnhöfen, Busstationen oder Flughafenterminals sowie in Websites und Mobilität-Apps integriert wird, sollte aus unserer Sicht noch eine weitere Studie zur Verständlichkeit von Gebärdensprach-Avataren durchgeführt werden“, so Fuhrmann.

Mehr Informationen zu dem Projekt finden sich unter: www.avasag.de

Ein Beitrag von:

Dominik Hochwarth

Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.