Alexa, Siri und Co. – sicherer dank Training

Ein Forscherteam der Ruhr-Universität Bochum entdeckt Sicherheitslücken bei Sprachassistenten wie Alexa und Siri und entwickelt Lösungen, sie zu beheben. Zum Glück sind die Spracherkennungssysteme bislang nicht in sicherheitsrelevanten Bereichen im Einsatz, sondern dienen nur dem Komfort zu Hause.

In beliebigen Audiodateien wie Sprache, Musik oder Umgebungsgeräuschen – zum Beispiel Vogelgezwitscher – lassen sich geheime Botschaften für die Sprachassistenten verstecken.

Foto: RUB – Roberto Schirdewahn

Die IT-Experten vom Bochumer Horst-Görtz-Institut für IT-Sicherheit (HGI) beschäftigen sich seit einiger Zeit mit Spracherkennungssystemen wie Alexa und Siri. Sie erforschen, wie sicher diese Systeme funktionieren. Im Vergleich zu den Anfängen verstehen Alexa, Siri und Co. gut, was Menschen ihnen sagen. Die Forscher fanden nun heraus, dass sie manchmal sogar Dinge verstehen, die der Mensch gar nicht hören kann. Genau dort liege die Sicherheitslücke.

Geheime Befehle können Sprachassistenten ungewollt aktivieren

Versteckt man einen beliebigen Befehl in verschiedenen Arten von Audiosignalen, zum Beispiel in Musik, Sprache oder Vogelgezwitscher, führt der Sprachassistent diesen aus, ohne dass der Mensch es mitbekommt. Manipuliert etwa jemand ein Lied, das im Radio abgespielt wird, und fügt einen Befehl ein, wäre es möglich, dass der Sprachassistent zu Hause ein bestimmtes Produkt kauft oder die Kontrolle über ein sprachgesteuertes Smart Home übernimmt. Forscher nennen solche Angriffe „Adversarial Examples“.

Sobald das Gehör damit beschäftigt ist, einen Ton einer bestimmten Frequenz zu verarbeiten, können wir für einige Millisekunden andere, leisere Töne nicht mehr wahrnehmen. Exakt diese Frequenzbereiche nutzte das Forscherteam und versteckte dort geheime Befehle. Der Mensch hört diese zusätzlichen Informationen nicht. Für ihn klingt es wie ein Rauschen, das in Kombination mit dem Gesamtsignal kaum oder gar nicht auffällt. Für die Spracherkennung ändert es jedoch den Sinn. Es lässt sich etwa so beschreiben: Der Mensch hört Aussage A, die Maschine Aussage B. Konkret testeten die Wissenschaftler an dem Spracherkennungssystem Kaldi, das in Amazons Alexa sowie vielen anderen Sprachassistenten zum Einsatz kommt. Das Ergebnis: Die Spracherkennung verstand die geheimen Befehle zuverlässig.

Audiodateien können Sprachassistenten manipulieren

Früher funktionierten die Angriffe nur, wenn die manipulierten Dateien als Daten in die Spracherkennungssoftware gefüttert wurden. Heute gelingen sie auch, wenn die Audiodateien über Lautsprecher abgespielt werden.

Foto: RUB – Roberto Schirdewahn

1 / 3

Am Laptop werden Audiodateien bearbeitet

Ziel der Abwehrmaßnahmen ist es, dass die geheimen Botschaften enttarnt, also für den Menschen hörbar werden.

Foto: RUB – Roberto Schirdewahn

1 / 3

Die Forscherinnen und Forscher manipulieren Audiodateien so, dass Maschinen eine ganze andere Aussage verstehen als Menschen.

Foto: RUB – Roberto Schirdewahn

1 / 3

Foto: RUB – Roberto Schirdewahn

1 / 3

Ziel der Abwehrmaßnahmen ist es, dass die geheimen Botschaften enttarnt, also für den Menschen hörbar werden.

Foto: RUB – Roberto Schirdewahn

1 / 3

Lesen Sie auch:

Willkommen in der Industrie der Zukunft

Ranking

Das sind die schnellsten Züge der Welt

IT-Gehälter

Was Informatiker und IT-Fachkräfte wirklich verdienen

Stellenangebote im Bereich IT/TK-Projektmanagement

IT/TK-Projektmanagement Jobs

Verschiedene Angriffe getestet

Anfangs funktionierte die Manipulation nicht über die Luft, sondern die Audiodateien mussten direkt in Kaldi hineingespielt werden. Für den Luftweg mussten die Forscher verschiedene Parameter berücksichtigen, die auch den Raum widerspiegeln. Dabei bedienten sie sich der sogenannten Raumimpulsantwort, die beschreibt, wie ein Raum den Schall reflektiert und so den Klang verändert. „Wenn wir wissen, in welchem Raum der Angriff erfolgen soll, können wir die Raumimpulsantwort mit speziellen Computerprogrammen simulieren und beim Erzeugen der manipulierten Audiodatei berücksichtigen“, erklärt Lea Schönherr von der HGI-Arbeitsgruppe Kognitive Signalverarbeitung. Nachdem es gelungen war, einen für den Raum maßgeschneiderten Angriff zu programmieren, arbeiteten die Forscher an einem allgemeinen Angriff. Bei ihm werden keine Vorinformationen über den Raum benötigt. Dabei funktioniert er auf dem Luftweg genauso gut oder sogar noch besser.

Derzeit befinden sich keine Sprachassistenten in sicherheitskritischen Bereichen im Einsatz. Sie stehen hauptsächlich in privaten Haushalten und dienen der Komfortsteigerung. Die Adversarial Examples richten in diesem Umfeld keinen großen Schaden an. Deshalb lag es den Forschern am Bochumer HGI daran, die Sicherheitslücke rasch zu schließen. Dafür arbeitete die Arbeitsgruppe mit dem Lehrstuhl für Systemsicherheit zusammen. Die IT-Sicherheitsforscher wollen Kaldi beibringen, nur das zu hören, was übrig bleibt, und die für Menschen nicht hörbare Audiosignale auszusortieren.

MP3-Prinzip trainiert System

„Im Grunde soll die Erkennung der Maschine mehr wie das menschliche Gehör funktionieren, sodass es schwieriger wird, geheime Botschaften in Audiodateien zu verstecken“, sagt Thorsten Eisenhofer vom Lehrstuhl für Systemsicherheit. Die Manipulationen lassen sich nicht verhindern. Wenn sie sich allerdings nicht mehr verstecken lassen, sondern in den für Menschen hörbaren Bereichen platziert werden müssen, wären sie aufgedeckt. So entstand folgende Idee: Gelingt es, die Spracherkennung dahingehend zu verbessern, dass sie die für Menschen nicht hörbaren Bereiche aussortiert, müssten Angreifer auf die hörbaren Bereiche ausweichen. Dafür nutzte Eisenhofer das MP3-Prinzip.

Bei MP3-Dateien werden die für Menschen nicht hörbaren Bereiche löschen. Genau das entspricht der Strategie gegen Adversarial Examples. Deshalb kombinierte der Forscher Kaldi mit einem MP3-Encoder. Dieser bereinigt die Audiodateien, bevor sie zum eigentlichen Spracherkenner gelangen. Die Tests waren erfolgreich, Kaldi verstand die geheimen Botschaften nur dann, wenn sie in den für Menschen wahrnehmbaren Bereichen steckten. „Das veränderte die Audiodateien aber merklich. Die Störgeräusche, in denen die geheimen Befehle versteckt sind, wurden deutlich hörbar“, so Eisenhofer. An der Leistung der Spracherkennung änderte sich nichts, sofern das System auch mit MP3-komprimierten Dateien trainiert wurde. Das liegt an dem Machine-Learning-Modell in Kaldi, eine Art künstliche Intelligenz. Das Modell muss mithilfe vieler Audiodateien trainiert werden, um den Sinn von Tonsignalen richtig interpretieren zu können. Mit dem Training versteht das Spracherkennungssystem alles, was es verstehen soll, allerdings auch nicht mehr.

Mehr zum Thema Spracherkennung:

Ein Beitrag von:

Nina Draese

Nina Draese hat unter anderem für die dpa gearbeitet, die Presseabteilung von BMW, für die Autozeitung und den MAV-Verlag. Sie ist selbstständige Journalistin und gehört zum Team von Content Qualitäten. Ihre Themen: Automobil, Energie, Klima, KI, Technik, Umwelt.