Sprachassistenten 24.10.2019, 07:02 Uhr

Alexa, Siri und Co. – sicherer dank Training

Ein Forscherteam der Ruhr-Universität Bochum entdeckt Sicherheitslücken bei Sprachassistenten wie Alexa und Siri und entwickelt Lösungen, sie zu beheben. Zum Glück sind die Spracherkennungssysteme bislang nicht in sicherheitsrelevanten Bereichen im Einsatz, sondern dienen nur dem Komfort zu Hause.

Alexa vor einem Laptop

In beliebigen Audiodateien wie Sprache, Musik oder Umgebungsgeräuschen – zum Beispiel Vogelgezwitscher – lassen sich geheime Botschaften für die Sprachassistenten verstecken.

Foto: RUB – Roberto Schirdewahn

Die IT-Experten vom Bochumer Horst-Görtz-Institut für IT-Sicherheit (HGI) beschäftigen sich seit einiger Zeit mit Spracherkennungssystemen wie Alexa und Siri. Sie erforschen, wie sicher diese Systeme funktionieren. Im Vergleich zu den Anfängen verstehen Alexa, Siri und Co. gut, was Menschen ihnen sagen. Die Forscher fanden nun heraus, dass sie manchmal sogar Dinge verstehen, die der Mensch gar nicht hören kann. Genau dort liege die Sicherheitslücke.

Geheime Befehle können Sprachassistenten ungewollt aktivieren

Versteckt man einen beliebigen Befehl in verschiedenen Arten von Audiosignalen, zum Beispiel in Musik, Sprache oder Vogelgezwitscher, führt der Sprachassistent diesen aus, ohne dass der Mensch es mitbekommt. Manipuliert etwa jemand ein Lied, das im Radio abgespielt wird, und fügt einen Befehl ein, wäre es möglich, dass der Sprachassistent zu Hause ein bestimmtes Produkt kauft oder die Kontrolle über ein sprachgesteuertes Smart Home übernimmt. Forscher nennen solche Angriffe „Adversarial Examples“.

Sobald das Gehör damit beschäftigt ist, einen Ton einer bestimmten Frequenz zu verarbeiten, können wir für einige Millisekunden andere, leisere Töne nicht mehr wahrnehmen. Exakt diese Frequenzbereiche nutzte das Forscherteam und versteckte dort geheime Befehle. Der Mensch hört diese zusätzlichen Informationen nicht. Für ihn klingt es wie ein Rauschen, das in Kombination mit dem Gesamtsignal kaum oder gar nicht auffällt. Für die Spracherkennung ändert es jedoch den Sinn. Es lässt sich etwa so beschreiben: Der Mensch hört Aussage A, die Maschine Aussage B. Konkret testeten die Wissenschaftler an dem Spracherkennungssystem Kaldi, das in Amazons Alexa sowie vielen anderen Sprachassistenten zum Einsatz kommt. Das Ergebnis: Die Spracherkennung verstand die geheimen Befehle zuverlässig.

Am Laptop werden Audiodateien bearbeitet
Ziel der Abwehrmaßnahmen ist es, dass die geheimen Botschaften enttarnt, also für den Menschen hörbar werden.

Foto: RUB – Roberto Schirdewahn

Forscher arbeiten an Sprachassistent
Die Forscherinnen und Forscher manipulieren Audiodateien so, dass Maschinen eine ganze andere Aussage verstehen als Menschen.

Foto: RUB – Roberto Schirdewahn

Audiodateien können Sprachassistenten manipulieren
Früher funktionierten die Angriffe nur, wenn die manipulierten Dateien als Daten in die Spracherkennungssoftware gefüttert wurden. Heute gelingen sie auch, wenn die Audiodateien über Lautsprecher abgespielt werden.

Foto: RUB – Roberto Schirdewahn

Stellenangebote im Bereich IT/TK-Projektmanagement

IT/TK-Projektmanagement Jobs
WIRTGEN GmbH-Firmenlogo
System- und Softwarearchitekt (m/w/d) - mobile Arbeitsmaschinen WIRTGEN GmbH
Windhagen (Raum Köln/Bonn) Zum Job 
WIRTGEN GmbH-Firmenlogo
Embedded Anwendungs-Softwareentwickler (m/w/d) - mobile Arbeitsmaschinen WIRTGEN GmbH
Windhagen (Raum Köln/Bonn) Zum Job 
B. Braun Melsungen AG-Firmenlogo
Global Lead (w/m/d) Operational Technology (OT) B. Braun Melsungen AG
Melsungen Zum Job 
WIRTGEN GmbH-Firmenlogo
Duales Studium Software Engineering - Bachelor of Engineering (m/w/d) WIRTGEN GmbH
Windhagen, Remagen Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Ingenieur Vermessung (m/w/d) Die Autobahn GmbH des Bundes
Montabaur Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Lösungsentwickler (w/m/d) im Digitallabor Geoinformatik Die Autobahn GmbH des Bundes
VIAVI-Firmenlogo
Senior / Software Engineer (C++, Python & Cloud) (m/w/d) VIAVI
Eningen Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Teamleitung (w/m/d) BIM-Management Die Autobahn GmbH des Bundes
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
Stadt Worms-Firmenlogo
Projektleiter (m/w/d) CAFM Stadt Worms
Die Autobahn GmbH des Bundes-Firmenlogo
Ingenieur (w/m/d) C-ITS Entwicklung Die Autobahn GmbH des Bundes
Frankfurt am Main Zum Job 
Recogizer-Firmenlogo
Projektingenieur (m/w/d) KI-gestützte CO2-Reduktion Recogizer
Recogizer-Firmenlogo
Projektingenieur (m/w/d) KI-gestützte CO2-Reduktion Recogizer
HAWK Hochschule Hildesheim/Holzminden/Göttingen-Firmenlogo
Laboringenieur*in für das Digitallabor HAWK Hochschule Hildesheim/Holzminden/Göttingen
Holzminden Zum Job 
Tagueri AG-Firmenlogo
Consultant OTA - Connected Cars (m/w/d)* Tagueri AG
Stuttgart Zum Job 
CS CLEAN SOLUTIONS GmbH-Firmenlogo
Mitarbeiter für die Steuerungstechnik Software (m/w/d) CS CLEAN SOLUTIONS GmbH
Ismaning bei München Zum Job 
Hochschule für Technik und Wirtschaft Berlin-Firmenlogo
Professur (W2) | auf Lebenszeit Fachgebiet Rechnerarchitekturen und Rechnersysteme Hochschule für Technik und Wirtschaft Berlin
Regierungspräsidium Freiburg-Firmenlogo
Manager für Building Information Modeling (BIM) (w/m/d) Bauingenieurwesen, Bauinformatik, Vermessungswesen, Geodäsie, Geoinformatik, Geomatik Regierungspräsidium Freiburg
Freiburg Zum Job 
HAWK Hochschule für angewandte Wissenschaft und Kunst-Firmenlogo
Transfermanager*in HAWK Hochschule für angewandte Wissenschaft und Kunst
Hildesheim Zum Job 
Hochschule für Technik und Wirtschaft Berlin-Firmenlogo
Professor (W2) | Permanent Computer Architecture and Computer Systems Hochschule für Technik und Wirtschaft Berlin

Verschiedene Angriffe getestet

Anfangs funktionierte die Manipulation nicht über die Luft, sondern die Audiodateien mussten direkt in Kaldi hineingespielt werden. Für den Luftweg mussten die Forscher verschiedene Parameter berücksichtigen, die auch den Raum widerspiegeln. Dabei bedienten sie sich der sogenannten Raumimpulsantwort, die beschreibt, wie ein Raum den Schall reflektiert und so den Klang verändert. „Wenn wir wissen, in welchem Raum der Angriff erfolgen soll, können wir die Raumimpulsantwort mit speziellen Computerprogrammen simulieren und beim Erzeugen der manipulierten Audiodatei berücksichtigen“, erklärt Lea Schönherr von der HGI-Arbeitsgruppe Kognitive Signalverarbeitung. Nachdem es gelungen war, einen für den Raum maßgeschneiderten Angriff zu programmieren, arbeiteten die Forscher an einem allgemeinen Angriff. Bei ihm werden keine Vorinformationen über den Raum benötigt. Dabei funktioniert er auf dem Luftweg genauso gut oder sogar noch besser.

Derzeit befinden sich keine Sprachassistenten in sicherheitskritischen Bereichen im Einsatz. Sie stehen hauptsächlich in privaten Haushalten und dienen der Komfortsteigerung. Die Adversarial Examples richten in diesem Umfeld keinen großen Schaden an. Deshalb lag es den Forschern am Bochumer HGI daran, die Sicherheitslücke rasch zu schließen. Dafür arbeitete die Arbeitsgruppe mit dem Lehrstuhl für Systemsicherheit zusammen. Die IT-Sicherheitsforscher wollen Kaldi beibringen, nur das zu hören, was übrig bleibt, und die für Menschen nicht hörbare Audiosignale auszusortieren.

MP3-Prinzip trainiert System

„Im Grunde soll die Erkennung der Maschine mehr wie das menschliche Gehör funktionieren, sodass es schwieriger wird, geheime Botschaften in Audiodateien zu verstecken“, sagt Thorsten Eisenhofer vom Lehrstuhl für Systemsicherheit. Die Manipulationen lassen sich nicht verhindern. Wenn sie sich allerdings nicht mehr verstecken lassen, sondern in den für Menschen hörbaren Bereichen platziert werden müssen, wären sie aufgedeckt. So entstand folgende Idee: Gelingt es, die Spracherkennung dahingehend zu verbessern, dass sie die für Menschen nicht hörbaren Bereiche aussortiert, müssten Angreifer auf die hörbaren Bereiche ausweichen. Dafür nutzte Eisenhofer das MP3-Prinzip.

Bei MP3-Dateien werden die für Menschen nicht hörbaren Bereiche löschen. Genau das entspricht der Strategie gegen Adversarial Examples. Deshalb kombinierte der Forscher Kaldi mit einem MP3-Encoder. Dieser bereinigt die Audiodateien, bevor sie zum eigentlichen Spracherkenner gelangen. Die Tests waren erfolgreich, Kaldi verstand die geheimen Botschaften nur dann, wenn sie in den für Menschen wahrnehmbaren Bereichen steckten. „Das veränderte die Audiodateien aber merklich. Die Störgeräusche, in denen die geheimen Befehle versteckt sind, wurden deutlich hörbar“, so Eisenhofer. An der Leistung der Spracherkennung änderte sich nichts, sofern das System auch mit MP3-komprimierten Dateien trainiert wurde. Das liegt an dem Machine-Learning-Modell in Kaldi, eine Art künstliche Intelligenz. Das Modell muss mithilfe vieler Audiodateien trainiert werden, um den Sinn von Tonsignalen richtig interpretieren zu können. Mit dem Training versteht das Spracherkennungssystem alles, was es verstehen soll, allerdings auch nicht mehr.

Mehr zum Thema Spracherkennung:

 

Ein Beitrag von:

  • Nina Draese

    Nina Draese hat unter anderem für die dpa gearbeitet, die Presseabteilung von BMW, für die Autozeitung und den MAV-Verlag. Sie ist selbstständige Journalistin und gehört zum Team von Content Qualitäten. Ihre Themen: Automobil, Energie, Klima, KI, Technik, Umwelt.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.