Voice assistenten horen dingen die wij niet horen

februari 5, 2019

Onze interactie met technologie zou binnen de kortste keren vooral stem-georiënteerd kunnen zijn. Om iets hardop te vragen en het antwoord te horen is letterlijk kinderspel: Kijk maar naar hoe kinderen moeiteloos voice assistenten gebruiken.

Maar een nieuwe technologie betekent altijd een nieuwe dreiging, en voice control is geen uitzondering. Cyberveiligheidsonderzoekers stellen apparaten op de proef zodat fabrikanten potentiële dreigingen kunnen voorkomen. Vandaag hebben we het over een aantal bevindingen die, ondanks dat ze nu niet toegepast worden, toch op de veiligheidsradar zou moeten verschijnen.

Voice assistenten controleren met verscholen ultrageluid en audio-opnamen in het achtergrondgeluid

Smartapparaten luisteren en gehoorzamen

Er zijn, volgens een verslag van voicebot.ai, meer dan een biljoen apparaten met de optie voice assistent in omloop. Het gaat vooral om smartphones, maar ook andere apparaten met spraakherkenning worden steeds populairder. Een op de vijf huishoudens in de Verenigde Staten heeft bijvoorbeeld een speaker die handelingen uitvoert op basis van verbale commando’s.

Stemcommando’s kunnen worden gebruikt om muziek af te spelen, online producten te bestellen, GPS te besturen, het weer te checken, de wekker te zetten, enzovoort. Fabrikanten gaan mee in de trend en voegen voice control ondersteuning toe aan een reeks apparaten. Amazon bijvoorbeeld bracht laatst een magnetron uit die gelinkt is aan een Echo smart-speaker. Na het horen van de woorden ‘Warm de koffie op’, rekent de magnetron uit hoeveel tijd er nodig en begint op te warmen. Klopt, je moet nog steeds helemaal naar de keuken lopen om de kop erin te doen, dus het kost niets om een paar extra knopjes in te drukken. Maar waarom zou je er energie in stoppen?

Smart home systemen hebben ook verlichting en airconditioning die werkt op stemcommando’s, en zelfs voordeursloten. Zoals je kunt zien zijn voice assistenten al behoorlijk vaardig, en je wilt niet dat anderen deze vaardigheden benutten, vooral niet met kwaadaardige doeleinden.

In 2017 voerden de personages van de Amerikaanse sitcom South Park een massale aanval uit op geheel eigen en originele wijze. Het slachtoffer was Alexa, de voice assistent die woont in de Amazon Echo smartspeaker. Alexa kreeg de instructie om een aantal nogal buitensporige items aan de winkelwagen toe te voegen en de wekker te zetten om 7 uur ’s ochtends. Ondanks de eigenaardige uitspraak van de personages vingen de Echospeakers van de kijkers thuis de commando’s op en voerden deze instructies trouw uit.

Ultrageluid: Machines horen dingen die mensen niet horen

We hebben het al gehad over mogelijke gevaren bij het gebruik van voice-gestuurde gadgets. Vandaag ligt de focus op ‘stille’ aanvallen die apparaten op onwaarneembare wijze aanstuurt.

Een van de manieren om zo’n aanval uit te voeren is met ultrageluid – een geluid dat zo hoog is dat het menselijke oor het niet waarneemt. In een artikel uit 2017 presenteerden onderzoekers van de Zhejiang Universiteit een techniek om de volledige controle over voice assistenten over te nemen, genaamd DolphinAttack (omdat dolfijnen ultrageluid uitzenden). Het onderzoeksteam zette stemcommando’s om in ultrasonische golven met frequenties die niet werd opgepikt door mensen, maar wel door microfoons in moderne apparaten.

De methode werkt, want wanneer het ultrageluid omgezet wordt in een elektrische impuls in de ontvanger (bijvoorbeeld een smartphone), wordt het originele signaal met de stemcommando hersteld. Het mechanisme lijkt op het effect van stemvervorming bij een opname – er is geen speciale functie in het apparaat; het is simpelweg een eigenschap van het conversieproces.

Het resultaat is dat het apparaat de stemcommando hoort en uitvoert, wat de aanvaller een hoop mogelijkheden biedt. De onderzoekers waren in staat de aanval op de meest populaire voice assistenten te reconstrueren, waaronder Amazon Alexa, Apple Siri, Google Now, Samsung S Voice, en Microsoft Cortana.

Een koor luidsprekers

Een van de kwetsbaarheden van DolphinAttack (voor de aanvaller) is de kleine straal waarin het kan opereren – ongeveer 1 meter. De onderzoekers van de Universiteit van Illinois in Urbana-Champaign waren echter in staat deze afstand te vergroten. Wat ze hebben gedaan in hun experiment is het opsplitsen van een ultrageluid-commando in verschillende frequentiebanden, die vervolgens door verschillende speakers werden afgespeeld (meer dan 60). De verscholen stemcommando’s in dit ‘koor’ werden opgepikt op een afstand van zeven meter, ongeacht het achtergrondgeluid. In deze condities wordt de kans op succes van DolphinAttack aanzienlijk vergroot.

Een stem uit het diepe

Deskundigen van de Universiteit van California in Berkeley gebruikten een andere methode, namelijk het stiekem inbedden van stemcommando’s in andere audiofragmenten om Deep Speech, Mozilla’s spraakherkenningssysteem, te misleiden. Voor het menselijk gehoor klinkt de opname praktisch hetzelfde als het origineel, maar de software neemt het verscholen commando wel waar.

Luister naar de opnamen op de website van het onderzoeksteam. In het eerste voorbeeld, bevat de zin “Without the data set the article is useless” een verscholen commando op een website te openen, namelijk: “Okay Google, browse to evil.com.” In het tweede voorbeeld voegden de onderzoekers de zin “Speech can be embedded in music” toe aan een fragment van een cellosuite van Bach.

Beschermen tegen onhoorbare aanvallen

Fabrikanten zijn al bezig met het zoeken naar manieren om apparaten met voice assistent te beschermen. Aanvallen met ultrageluid zouden belemmerd kunnen worden door de detectie van frequentiewijzigingen in het ontvangen signaal. Het zou een goed idee zijn om alle smartapparaten te trainen om de stem van hun eigenaar te herkennen. Maar Google waarschuwt dat ze dit al getest hebben en dat deze veiligheidsmaatregel omzeild kan worden met een stemopname of een goede imitatie.

Toch hebben onderzoekers en fabrikanten nog tijd om met oplossingen te komen. Het stiekem besturen van voice assistenten is nu alleen nog in laboratoria mogelijk: Een ultrageluid luidspreker (laat staan 60) in het bereik van iemands smartspeaker krijgen is geen makkelijke taak, en het inbedden van stemcommando’s in audio-opnamen is de tijd en moeite amper waard.