"Hey, Siri!" – Így hallgat ránk kedvenc virtuális asszisztensünk

“Hey, Siri!” – Így hallgat ránk kedvenc virtuális asszisztensünk

Megjelent a macOS Tahoe 26.5.1 – a vállalati környezetben használt M5-ös gépek váratlan leállásának javítása

Megjelent az iOS 26.5.1 az iPhone 17 modellek és az iPhone Air esetén

Megjelent a macOS Tahoe 26.5 – 79 sebezhetőség javítása, fejlesztések, hibajavítások

Megjelent a visionOS 26.5 – 48 sebezhetőség javítása

Az Apple ismét egy érdekes cikkel állt elő gépi tanulással foglalkozó online folyóiratában. Az írás egy rövid esettanulmány, ami egy első pillantásra triviálisnak tűnő funkciót jár körül: a “Hey, Siri!” felismerését.

A Sirit gombnyomás nélkül aktiváló képességet – specifikus mivolta és egyszerűsége ellenére – több, egyre magasabb szintű jelfeldolgozási és gépi tanulási lépés valósítja meg. Bekapcsolása esetén a készülék mikrofonja folyamatosan fülel, másodpercenként 16 000-es mintavételezési sebességgel. Ezeket a mintákat egy következő lépés századmásodpercenkénti időablakokra bontja, majd ezeknek egyenként kiszámolja a spektrumát, azaz a frekvenciaösszetételét.

20 ilyen ablak spektruma, azaz körülbelül 0,2 másodpercnyi hanganyagból kinyert információ érkezik a következő fázishoz, ami egy mély neurális hálózat (DNN). Ez alkotja a tulajdonképpeni akusztikus modellt, amely a spektrumadatokat kategóriákba sorolja, pontosabban egy valószínűségi eloszlást generál – azaz eldönti, hogy a hangrészlet milyen eséllyel része a “Hey, Siri!” frázisnak, vagy milyen valószínűséggel jelent csöndet, esetleg másfajta beszédet. Ebből azután lehet egy értékelést, pontszámot számolni, ami alapján eldönthető, hogy meg kell-e nyitni a virtuális asszisztenst.

Ezeknek az algoritmusoknak a nagy része egyébként a privát VoiceTrigger frameworkben helyezkedik el. A vállalkozó kedvűek megpróbálhatják beazonosítani az egyes lépéseket a framework interfészét képező headerfájlok alapján.

Az Apple mérnökei egy trükkel “továbbokosították” a módszert. Az aktiválás kiváltásához két küszöbszintet kell a felvett hangmintának elérnie. Van egy alacsonyabb szint, ami általában nem váltja ki Siri megjelenését, és egy magasabb, ami már igen. Ha a beszéd pontszáma nem érte el a magasabb küszöbszintet, de az alacsonyabbat igen, az azt jelentheti, hogy a tulajdonos megpróbálta Sirit aktiválni, de ez valamiért nem sikerült. Ilyenkor a felismerőrendszer automatikusan egy érzékenyebb módba kapcsol néhány másodperc erejéig, hogy amennyiben a felhasználó megismétli a mondatot, úgy a készülék már sikeresen felismerje azt. Ezzel a technikával jelentősen megnövelték a funkció használhatóságát, anélkül, hogy a megnövelt érzékenység túl sok “téves riasztást” eredményezne.

A tervezők azt is leírták, hogy hogyan választották ki épp a “Hey, Siri!” mondatot. Még azelőtt, hogy ez a lehetőség létezett volna, az emberek egy kis hányada eleve így kezdte a Sirihez intézett kérdéseit, miután gombnyomással aktiválta az asszisztenst. Ezeket az Apple összegyűjtötte, és felhasználta az akusztikus modellt alkotó neurális hálózat tanítására. Később ezt terjesztették ki, például általánosabb beszédmodellekkel, vagy a két szó között rövid szünetet tartalmazó mintákon való tanítással.

Feltehetően a legtöbben bele sem gondolunk Siri mindennapi használata során, de tény, hogy egy ilyen kicsinek látszó feladat megoldása is milyen sok munkát és kreativitást igényel, ha igazán megbízhatóan működővé akarjuk tenni… És hát persze azt se felejtsük el, hogy legtöbben még mindig a magyar nyelvű használatára várunk.

Olvasd el a hozzászólásokat is

5 Comments

tzolesz
2017. október 27. péntek at 12:23
Nem zabálja le az aksit a folyamatos “hallgatózás”?
- Link
JadeyeModerator
2017. október 27. péntek at 12:28
@tzolesz: nem igazán észrevehető, de természetesen kikapcsolható a funkció.
- Link
molidor
2017. október 27. péntek at 17:09
Hey Siri. Nemcsak akkor működik ha töltöm a telefont ?
- Link
JadeyeModerator
2017. október 27. péntek at 17:11
@molidor: 6s-től már nem kell hozzá.
- Link
totopad
2017. október 27. péntek at 17:19
Vicces, munka közben mellettem az asztalomon van a teló és néha elő szokott fordúlni, hogy, ha a céges telefonomon beszélek valakivel, magától bekapcsol, pedig ki se mondom, hogy hey siri 😀
- Link

Add a Comment

Hozzászólás küldéséhez be kell jelentkezni.