Für Hacker ist jede Systemschnittstelle eine Angriffsfläche. Das gilt auch für Mikrophone, wie sie in Handys oder vernetzten Lautsprechern und Fernsehern eingebaut werden. Diese Mikrophone übersetzen Schallwellen in digitale Signale, wobei aber stets Verzerrungen auftreten. Diese Verzerrungen können Hacker ausnutzen, um Befehle auszulösen, die für Menschen entweder wie sinnloses Geplapper klingen oder gar völlig unhörbar sind.

Mehr Infos Google Home spricht nun auch Deutsch und musste sich einem c't-Test stellen (c't 18/2017, S. 124).

Ersteres haben Forscher der Georgetown Universität bereits auf der Usenix WOOT 2015 demonstriert. Sie verzerrten Sprachbefehle so, dass sie für Menschen unkenntlich wurden. Was menschliche Zuhörer als "Cocaine Noodles" auffassten, klang für die Android-Spracherkennung wie der einleitende Befehl "OK, Google". Bereits 2016 zeigten sie auf der Usenix Security, dass die verzerrten Kommandos auch in einer in Geräuschkulisse funktionieren, etwa bei Hintergrundmusik.

Nun haben Wissenschaftler der Princeton Universität gezeigt, dass es auch völlig geräuschlos geht: Sie haben mittels eigener Lautsprecher Ultraschallwellen ausgesandt, die von den Mikrophonen in Amazons Echo und einem Android-Handy so verzerrt werden, dass sie von deren digitalen Assistenten als Sprachkommandos verarbeitet werden. Die Forscher zeigen in einem Youtube-Video, dass sie Fotos machen, den Flugzeugmodus aktivieren, einen Wetterbericht auslösen und Milch auf die Einkaufsliste setzen können.

Unhörbare Sprachkommandos

Unhörbare Sprachkommandos

Für das menschliche Ohr ist allerdings nichts zu hören. Beim Android-Handy gelang die Attacke in fünfzig von fünfzig Versuchen, bei Amazons Echo immerhin in vierzig von fünfzig Fällen. Die Reaktionen der digitalen Assistenten sind durchaus hörbar.

Allerdings lässt sich deren Reaktion im Voraus testen. Und da der Angreifer ja vor Ort bereits einen Lautsprecher betreibt, könnte er die hörbaren Antworten theoretisch durch Gegenschall unterdrücken. Das ist aber nicht Teil des vorige Woche veröffentlichten Papers "Inaudible Voice Commands".

Schwieriger gestaltet sich der Angriff, wenn ein digitaler Assistent Spracheingaben nur auswertet, wenn sie mit einem zuvor registrierten Stimmprofil übereinstimmen. Dann müsste der Angreifer zumindest eine Sprachaufnahme der befugten Person haben, um deren Stimmprofil unhörbar imitieren zu können.

Schon 2015 und 2016 wurde hörbare, aber kaum als solche erkennbare Spracheingaben demonstriert.

(ds)