“Hey, Siri!” – Így hallgat ránk kedvenc virtuális asszisztensünk

Ez a cikk legalább 1 éve frissült utoljára. A benne szereplő információk a megjelenés idején pontosak voltak, de mára elavultak lehetnek.

Az Apple ismét egy érdekes cikkel állt elő gépi tanulással foglalkozó online folyóiratában. Az írás egy rövid esettanulmány, ami egy első pillantásra triviálisnak tűnő funkciót jár körül: a “Hey, Siri!” felismerését.

Siri hangszóró

A Sirit gombnyomás nélkül aktiváló képességet – specifikus mivolta és egyszerűsége ellenére – több, egyre magasabb szintű jelfeldolgozási és gépi tanulási lépés valósítja meg. Bekapcsolása esetén a készülék mikrofonja folyamatosan fülel, másodpercenként 16 000-es mintavételezési sebességgel. Ezeket a mintákat egy következő lépés századmásodpercenkénti időablakokra bontja, majd ezeknek egyenként kiszámolja a spektrumát, azaz a frekvenciaösszetételét.

20 ilyen ablak spektruma, azaz körülbelül 0,2 másodpercnyi hanganyagból kinyert információ érkezik a következő fázishoz, ami egy mély neurális hálózat (DNN). Ez alkotja a tulajdonképpeni akusztikus modellt, amely a spektrumadatokat kategóriákba sorolja, pontosabban egy valószínűségi eloszlást generál – azaz eldönti, hogy a hangrészlet milyen eséllyel része a “Hey, Siri!” frázisnak, vagy milyen valószínűséggel jelent csöndet, esetleg másfajta beszédet. Ebből azután lehet egy értékelést, pontszámot számolni, ami alapján eldönthető, hogy meg kell-e nyitni a virtuális asszisztenst.

Ezeknek az algoritmusoknak a nagy része egyébként a privát VoiceTrigger frameworkben helyezkedik el. A vállalkozó kedvűek megpróbálhatják beazonosítani az egyes lépéseket a framework interfészét képező headerfájlok alapján.

Az Apple mérnökei egy trükkel “továbbokosították” a módszert. Az aktiválás kiváltásához két küszöbszintet kell a felvett hangmintának elérnie. Van egy alacsonyabb szint, ami általában nem váltja ki Siri megjelenését, és egy magasabb, ami már igen. Ha a beszéd pontszáma nem érte el a magasabb küszöbszintet, de az alacsonyabbat igen, az azt jelentheti, hogy a tulajdonos megpróbálta Sirit aktiválni, de ez valamiért nem sikerült. Ilyenkor a felismerőrendszer automatikusan egy érzékenyebb módba kapcsol néhány másodperc erejéig, hogy amennyiben a felhasználó megismétli a mondatot, úgy a készülék már sikeresen felismerje azt. Ezzel a technikával jelentősen megnövelték a funkció használhatóságát, anélkül, hogy a megnövelt érzékenység túl sok “téves riasztást” eredményezne.

A tervezők azt is leírták, hogy hogyan választották ki épp a “Hey, Siri!” mondatot. Még azelőtt, hogy ez a lehetőség létezett volna, az emberek egy kis hányada eleve így kezdte a Sirihez intézett kérdéseit, miután gombnyomással aktiválta az asszisztenst. Ezeket az Apple összegyűjtötte, és felhasználta az akusztikus modellt alkotó neurális hálózat tanítására. Később ezt terjesztették ki, például általánosabb beszédmodellekkel, vagy a két szó között rövid szünetet tartalmazó mintákon való tanítással.

Feltehetően a legtöbben bele sem gondolunk Siri mindennapi használata során, de tény, hogy egy ilyen kicsinek látszó feladat megoldása is milyen sok munkát és kreativitást igényel, ha igazán megbízhatóan működővé akarjuk tenni… És hát persze azt se felejtsük el, hogy legtöbben még mindig a magyar nyelvű használatára várunk.

Ezek még érdekelhetnek:


  1. Vicces, munka közben mellettem az asztalomon van a teló és néha elő szokott fordúlni, hogy, ha a céges telefonomon beszélek valakivel, magától bekapcsol, pedig ki se mondom, hogy hey siri 😀

Írd le a véleményedet! (Moderációs elveinket ide kattintva olvashatod.)

Hozzászólás írásához be kell jelentkezned!