KI-basierte Audioanalyse 23.06.2023, 08:59 Uhr

Dank Stimm-Biomarker: Neue Sprach-KI kann Gefühle erkennen

Menschen fällt es mit unter schwer, die Gefühle anderer richtig zu deuten. Eine neue Sprach-KI soll darin besser sein. Wir haben uns mit der Geschäftsführerin des Unternehmens unterhalten, dass diese Technik entwickelt hat.

Künstliche Intelligenz kann Gefühle erkennen

Eine neue Sprach-KI kann Gefühle erkennen. Wie das funktioniert und welchen Nutzen es hat, erfahren Sie in diesem Interview.

Foto: Panthermedia.net/AndreyPopov

Wie kann man erkennen, ob sich ein Mensch auch tatsächlich so fühlt, wie er es vorgibt? Dafür sind unsere kognitiven Möglichkeiten begrenzt. Die der Technik könnten weiter reichen, wie das Gilchinger Unternehmen audEERING zeigt. Es hat eine Technologie entwickelt, die mithilfe von Künstlicher Intelligenz Gefühle erkennen kann – und so beispielsweise das Autofahren sicherer macht. Wie, erklärt Dagmar Schuller, Geschäftsführerin und Mitgründerin des KI-Unternehmens audEERING.

Was versteht man unter Sprach-KI?

Unter Sprach-KI versteht man die Anwendung von KI-Verfahren auf Audiosignaldaten, insbesondere Stimmdaten. Im Grunde genommen geht es hier insbesondere darum, schwerpunktmäßig zu analysieren, wie jemand etwas sagt, anstelle des Inhalts, den jemand sagt. Unsere Algorithmen fokussieren sich dabei auf die Informationen, die wir aus der Stimme im Zusammenhang mit dem menschlichen Sprachproduktionsprozess erkennen können, sowie die Analyse von Sprecherzuständen und -merkmalen, die sich aus der Art und Weise, wie gesprochen wird, ergeben.

Erklären Sie bitte kurz ihren stimmbasierten KI-Ansatz? Wie funktioniert die Technologie?

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
ATLAS TITAN Mitte GmbH-Firmenlogo
Ingenieur Elektrotechnik (m/w/d) Schwerpunkt Automatisierungstechnik ATLAS TITAN Mitte GmbH
Braunschweig Zum Job 
ATLAS TITAN Mitte GmbH-Firmenlogo
Projektleiter Leitungsbau Schutztechnik (m/w/d) ATLAS TITAN Mitte GmbH
Stadtwerke Schneverdingen-Neuenkirchen GmbH-Firmenlogo
Leitender Ingenieur (m/w/d) Netzbau und -betrieb Strom und Breitband Stadtwerke Schneverdingen-Neuenkirchen GmbH
Schneverdingen Zum Job 
SPITZKE SE GVZ Berlin Süd-Firmenlogo
Bauleiter Elektrotechnik (m/w/d) SPITZKE SE GVZ Berlin Süd
Großbeeren Zum Job 
WIRTGEN GmbH-Firmenlogo
System- und Softwarearchitekt (m/w/d) - mobile Arbeitsmaschinen WIRTGEN GmbH
Windhagen (Raum Köln/Bonn) Zum Job 
WIRTGEN GmbH-Firmenlogo
Embedded Anwendungs-Softwareentwickler (m/w/d) - mobile Arbeitsmaschinen WIRTGEN GmbH
Windhagen (Raum Köln/Bonn) Zum Job 
Albtal-Verkehrs-Gesellschaft mbH-Firmenlogo
Projektleiter*in Elektrotechnik, Elektroingenieur*in oder Techniker*in (m/w/d) Albtal-Verkehrs-Gesellschaft mbH
Karlsruhe Zum Job 
WBS Training AG-Firmenlogo
Technische Trainer:in Automatisierungstechnik - CAD/CAM-Programmierung (m/w/d) WBS Training AG
remote (deutschlandweit) Zum Job 
IMS Messsysteme GmbH-Firmenlogo
Projektleiter (m/w/i) für Röntgen-, Isotopen- und optische Messsysteme IMS Messsysteme GmbH
Heiligenhaus Zum Job 
ILF Beratende Ingenieure GmbH-Firmenlogo
Senior Ingenieur Mess-, Steuerungs- und Regelungstechnik (m/w/d) ILF Beratende Ingenieure GmbH
Bremen, Berlin, Hamburg, München, Essen Zum Job 
ILF Beratende Ingenieure GmbH-Firmenlogo
Junior Ingenieur Mess-, Steuerungs- und Regelungstechnik (m/w/d) ILF Beratende Ingenieure GmbH
München Zum Job 
IPH Institut "Prüffeld für elektrische Hochleistungstechnik" GmbH-Firmenlogo
Ingenieur Elektrotechnik (m/w/d) für Transformatoren IPH Institut "Prüffeld für elektrische Hochleistungstechnik" GmbH
ME MOBIL ELEKTRONIK GMBH-Firmenlogo
Support- und Applikationsingenieur (m/w/d) ME MOBIL ELEKTRONIK GMBH
Langenbrettach Zum Job 
FERCHAU GmbH-Firmenlogo
Konstruktiver Elektroingenieur (m/w/d) FERCHAU GmbH
PFISTERER Kontaktsysteme GmbH-Firmenlogo
Technical Support High Voltage Accessories (m/w/d) PFISTERER Kontaktsysteme GmbH
Winterbach Zum Job 
B. Braun Melsungen AG-Firmenlogo
Global Lead (w/m/d) Operational Technology (OT) B. Braun Melsungen AG
Melsungen Zum Job 
WIRTGEN GmbH-Firmenlogo
Duales Studium Software Engineering - Bachelor of Engineering (m/w/d) WIRTGEN GmbH
Windhagen, Remagen Zum Job 
Infraserv GmbH & Co. Höchst KG-Firmenlogo
Ingenieur (w/m/d) Anlagen- & Prozesssicherheit Infraserv GmbH & Co. Höchst KG
Frankfurt am Main Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Lösungsentwickler (w/m/d) im Digitallabor Geoinformatik Die Autobahn GmbH des Bundes
Schluchseewerk AG-Firmenlogo
Ingenieur (m/w/d) Schwerpunkt Konformität Schluchseewerk AG
Laufenburg Zum Job 

Die menschliche Produktion von Lauten, insbesondere von Sprache, ist mit einer hohen koordinativen Leistung verbunden, die oftmals nicht bewusst ist. So sind eine Vielzahl von Muskeln wie beispielsweise die Stimmbänder, die Zunge, die Wangenmuskulatur damit verbunden, die kognitiv gesteuert werden müssen. Ebenso sind Merkmale wie Intonation, Intensität und Tempo der Stimme hoch relevant oder wie gleichmäßig oder „sauber“ die Artikulation von bedeutungsunterscheidenden Lauten (Phoneme) erfolgt.

Unsere KI-Modelle verbinden hierbei diese spezifischen Merkmale, von denen wir nahezu 7000 in Echtzeit erkennen können, mit state-of-the-art „tiefe“ künstliche neuronale Netze und Methoden wie semi-supervised und unsupervised Learning. Wir erkennen hierbei Merkmale und Informationen aus der Stimme, die Rückschlüsse auf den Zustand des Sprechenden geben können.

Dagmar Schuller, Geschäftsführerin und Mitgründerin des KI-Unternehmens audEERING.

Dagmar Schuller, Geschäftsführerin und Mitgründerin des KI-Unternehmens audEERING.

Foto: Gorjan Gajanin

Worauf zielt diese Methode ab?

Ziel ist es, mit dieser Stimm-Biomarker-Technologie ein Tool zu liefern, das im Wellbeing und medizinischen Bereich sowohl effizient für Screening und Prävention genutzt werden kann als auch für verbessertes Monitoring und Individualisierung der Therapien von PatientInnen. Das bedeutet nicht nur frühere Aufmerksamkeit hinsichtlich Veränderungen und die Möglichkeit, rechtzeitig präventiv entgegenzuwirken, sondern natürlich auch, individuelle Verläufe von Krankheiten besser zu verstehen, effektiver zu behandeln und idealerweise negative Nebenwirkungen zu reduzieren.

Im allgemeinen Einsatz ist die Technologie insbesondere für eine verbesserte Mensch-Maschine-Kommunikation nutzbar, etwa einer optimierten Kommunikation mit dem Automobil, einer individualisierten Einstellung von Hearables/Wearables, einer verbesserten Interaktion mit Bots/Robotern, aber auch um mehr Information darüber zu erhalten, was den BenutzerInnen einen Mehrwert schafft und gut tut oder was für mehr Ärger sorgt, als nötig ist.

Unternehmen können dadurch die Kundenzufriedenheit und auch ihre Performance steigern, was wir in sehr schönen Beispielen schon nachgewiesen haben. Durch die ausschließliche Auswertung von Stimmdaten, nicht aber Sprachinhalten, ermöglicht unsere Technologie außerdem anonyme Auswertungen und ist dadurch uneingeschränkt datenschutzkonform.

Wie lassen sich die Emotionen eines Autofahrers erkennen und so deren Reaktionen voraussehen?

Unsere KI-Technologie erkennt Stimm-Biomarker, die Rückschlüsse auf den Zustand von AutofahrerInnen oder auch Fahrgästen ermöglichen. Auf Basis der Akustik werden wichtige Informationen über die Art und Weise, wie die Person etwas äußert oder kommuniziert, herausgefiltert. Die Information fokussiert dabei insbesondere auf den Grad der Erregtheit, die Valenz und die Dominanz der akustischen Merkmale und nicht auf den Inhalt.

Ebenso können beispielsweise bereits klinisch validierte Stimm-Biomarker wie Erschöpfung gemessen werden. Dadurch wird es ermöglicht, dass das Auto auf diese Informationen „reagiert“, indem beispielsweise vorgeschlagen wird, eine Pause einzulegen oder einen Kaffee zu trinken oder das On-Board-Entertainment entsprechend anzupassen. Bei Letzterem könnte man auch die Innenbeleuchtung, Duftstoffe, musikalische Darbietungen und ähnliches optimieren.

Für den Automobilbereich ist es unser Ziel, mit der Technologie insbesondere einen Mehrwert in den relevanten Bereichen Sicherheit, Nutzerfreundlichkeit und Cabin Comfort zu erwirken. Mehr Individualisierung und Verbesserung der FahrerInnensicherheit, aber auch zukünftig optimierter Fahrgast-Komfort, der auf die Person oder Personengruppen speziell eingeht und sich auch dynamisch anpassen kann.

Inwiefern kann KI für mehr Sicherheit von Verkehrsteilnehmern sorgen?

Unsere KI-Technologie ermöglicht eine kontinuierliche Kontrolle und Analyse von Merkmalen und Zuständen, indem sie diese in Echtzeit analysieren kann und Anzeichen von Ablenkung, Müdigkeit, Stress oder ungewöhnlichen Situationen, wie beispielsweise Schreie oder übermäßige Aggression, erkennen kann.

Durch diese Information kann beispielsweise im Fahrzeug eine entsprechende Reaktion getriggert werden, wie eben die automatisierte Anpassung der Möglichkeiten in der Kabine, aber auch externe Warnungen, automatisierte Vergrößerung von Abständen, systemische Rückfragen/Feedback, um die Sicherheit zu erhöhen und potenzielle Unfälle zu vermeiden. Der Einsatz unserer KI-Technologie im Fahrzeug kann damit zur Sicherheit auf der Straße und zur Verbesserung des Fahrerzustandes beitragen.

Wie ausgereift ist die Technologie? Wo wird sie bereits eingesetzt?

Wir gehören zu den ersten, die an dem Thema überhaupt international mitgewirkt haben und verfügen heute über mehr als 20 Jahre kontinuierlicher wissenschaftlicher Spitzenleistung sowie mehr als zehn Jahre industrieller Produkterfahrung in Stimm-basierter und Event-basierter Audio KI. Damit haben wir als europäisches Unternehmen in Europa ein Alleinstellungsmerkmal und sind mittlerweile mehrfach für die Technologie ausgezeichnet worden.

Welche Hürden gilt es noch zu nehmen, um Sprach-KI breit einzusetzen?

Die von uns entwickelten Produkte werden zwar bereits weltweit eingesetzt, trotzdem gibt es natürlich einige Herausforderungen, die es zu bewältigen gilt. Als Innovationsführer im Bereich der KI-basierten Audioanalyse arbeiten wir kontinuierlich daran, unsere Produkte neben voller Datenschutzkonformität quantitativ mit bester Erkennungsleistung und optimaler Robustheit, aber auch qualitativ unter Berücksichtigung höchster ethischer Standards, Transparenz und Ressourcenschonung (Stichwort: Energieoptimierung, Größe der Modelle, Rechenleistung etc.) weiterzuentwickeln.

Konkret ist insbesondere folgendes zu tun:

  1. Zur Verbesserung der Modelle ist der Zugriff auf hochwertige Daten in ausreichender Menge notwendig. Beispiel: Hierzulande ist der Datenschutz gerade im Gesundheitswesen eher hinderlich als fördernd, um die Chancen der KI im Sinne der PatientInnen optimal zu nutzen, ohne deren Risiko zu erhöhen. Mittlerweile werden namhafte deutsche Medizinprofessoren ebenfalls mit dem Thema konfrontiert und setzen sich hier für eine Verbesserung des Zugangs zu Daten für effizientere medizinische Versorgung und Therapien für ihre PatientInnen ein. Ich sehe hier sehr viel Potenzial für eine Optimierung des Gesundheits- und Pflegewesens.
  2. Vertrauen in die KI schaffen durch verbesserte Bildung und mehr Transparenz. Oftmals wird man im KI-Bereich mit Vorurteilen konfrontiert, die aus fiktiven Hollywood-Filmen und Schreckensszenarien stammen, die erschreckenderweise auch von Entscheidungsträgern im TV oder Print gezeichnet werden. Das sehe ich als sehr kritisch, da ein oftmals nicht korrektes Bild vermittelt wird. Es ist wichtig, dass wir aufklären und die BürgerInnen Informationen und Wissen bekommen, aufgrund dessen sie bessere Entscheidungen bei der Auswahl und dem Einsatz von KI-Tools treffen können, und so Chancen und Risiken besser abschätzen können. Dies ist deutlich essenzieller für den VerbraucherInnenschutz als jegliche breit gestreute und pragmatisch unrealistische Gesamtregulierung eines Technologiebereiches, von dem noch viel zu wenig eingesetzt wird und/oder bekannt ist.
  3. Infrastruktur und Wettbewerbsfähigkeit sind weitere wesentliche Punkte. Im Bereich der Foundation Models ist Europa aktuell überhaupt nicht relevant. Alle wesentlichen Foundation Models kommen aus den USA und Asien. Neben fehlenden Daten und der Überregulierung sind insbesondere die Infrastruktur, um diese Modelle zu berechnen und die Risikoaversität der europäischen Finanzierungen in dem Bereich als große Hindernisse zu nennen. Gleichzeitig müssen wir aufgrund der Ressourcenschonung und des Energiebedarfs gemeinsam an der Verkleinerung wesentlicher Modelle arbeiten.

Ein Beitrag von:

  • Chris Löwer

    Chris Löwer

    Chris Löwer arbeitet seit mehr als 20 Jahren als freier Journalist für überregionale Medien. Seine Themenschwerpunkte sind Wissenschaft, Technik und Karriere.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.