fbpx Skip to content

2011 októberében, az iPhone 4s debütálásakor üdvözölhettük új személyi asszisztensünket is, Sirit. Az Apple elsőként az iOS 5-be integrálta a beszédfelismerő és parancsvégrehajtó funkcióját, előtte önálló alkalmazásként volt elérhető az App Store-ban. Látván az alkalmazásban rejlő lehetőségeket, az Apple nagyon jól döntött a mögöttes technológia felvásárlásával, melynek következményeként Siri mind a mai napig töretlen népszerűségnek örvend az iPhone és iPad felhasználók körében. Az aktuális hírek arról szólnak, hogy az Apple kutatók és fejlesztőmérnök hadát toborozta, hogy egy kicsit felturbózza a Siri által nyújtott szolgáltatásokat. Az újdonság pedig a neurális hálózatokkal támogatott beszédfelismerés.

ios_7_siri_hero

Manapság már nem számít olyan meglepőnek az utcán telefonjukkal kommunikáló emberek látványa, de nem volt ez mindig így. Évekkel ezelőtt az Apple nagyot robbantott Siri bejelentésével, bár eleinte sokan szkeptikusak voltak a működését illetően. Vajon tényleg képes mindarra, amit a tévéreklámokban és a hirdetésekben láthattunk?

Ezek ugyebár arról szóltak, hogy Sirit előcsalogatva iPhone-unkat akár az érintőkijelzőn való navigálás nélkül utasíthattuk például arra, hogy hívja fel egy ismerősünket, vagy írjon neki egy szöveges üzenetet. Mindezt persze angolul, illetve számos más, szélesebb körben elterjedt nyelveken. Akkoriban sokan próbálták Siri működését aláásni, de még a legfurfangosabb rosszakarók is csak addig jutottak, hogy a dolog márpedig “idegesítően jól működik”, ezt pedig alátámasztotta az is, hogy nem sokkal később megjelent iPadre, és azóta is minden iOS-verzió szerves részét képezi ez a kedves női (vagy férfi) hang, és a köré épülő szolgáltatások.

Érdekesség egyébként, hogy a hang megtestesítőjét sokáig homály fedte, ám nem olyan rég fény derült a hang mögött megbúvó személy kilétére. Egy amerikai szinkronszínész, Susan Bennett kölcsönözte a hangját Sirinek, de voltak pletykák arról is, hogy Alison Dufty (szintén szinkronszínész) adta hangját a rendszerhez, ezek a híresztelések végül hamisnak bizonyultak.

Beszédfelismerő technológiák és alkalmazások már Siri előtt is léteztek, de a bejelentéskor az Apple előállt egy olyan újdonsággal, amellyel előtte mások még csak kísérleti szinten foglalkoztak, ez pedig az NLP (Natural Language Processing – Természetes Nyelvi Feldolgozás). Az NLP annyiban tért el a hagyományos beszédfelismerő eljárásoktól, hogy míg azok csak az adott utasítások megfelelő sorrendjében történő felmondása után voltak képesek helyesen feldolgozni és végrehajtani az általunk diktált információt, addig Sirinek közvetlenül nem számított a megfogalmazás és a szavak sorrendisége, vagy adott esetben szleng használata. Tehát a beszédfelismeréshez társult annyi flexibilitás, hogy a “Küldj egy üzenetet Istvánnak” és a “Kérlek, írj Istvánnak egy üzenetet” ugyanazon eredményt biztosította számunkra, vagyis Istvánnak küldtünk egy üzenetet.

wwdc-2012_326

Mára már természetesen a konkurencia felzárkózott, sőt, adott esetben már túl is szárnyalták az NLP adta lehetőségeket. A Microsoft például a közeljövőben fogja bevezetni a Skype csevegő alkalmazásába a (majdnem) valós idejű tolmácsolást, amihez a mesterséges neurális hálózatokat hívják segítségül, a Google pedig Android esetén a Google Now beszédfeldolgozó megoldásában kísérletezik ezeknek a felhasználásával. Az Apple sosem szeretett a versenytársakkal szemben lemaradni, ezért összeszedett egy csapatot, akik Siri beszédfelismerő képességét hivatottak továbbfejleszteni mesterséges neuronok használatával.

De mi, vagy mire is jó ez a neurális hálózat? Kezdjük az elején. Az emberi agy működése igen bonyolult, mégis nagyságrendekkel gyorsabb, mint bármely ismert processzor a világon, a legfontosabb pedig, amit ki kell emelni, hogy képes a tanulásra. Agyunk fő feldolgozó egységei a neuronok, amelyek több részből épülnek fel. A neuronok egymáshoz kapcsolódva információátadásra képesek és együttesen neurális hálózatokat alkotnak. Az információátadás lényegében elektromos impulzusokkal (azok sorozatával) történik. A mesterséges neuron pedig nem más, mint az agyi neuron másolata, vagy inkább számítógépes megvalósítása, értelemszerűen valós (fizikai, számítási) korlátok közé szorítva.

Ezek a mesterséges neurális hálók képesek a tapasztalati tudás tárolására és felhasználására. A mi esetünkben ennek abban van jelentősége, hogy a világon rengeteg különféle nyelvcsalád, nyelv létezik, ezeknek lehet több különböző alfaja, nyelvjárása, arról nem beszélve, hogy személyenként is eltérően formáljuk meg a szavakat (például beszédhiba), másként intonálunk (hangszín), ezzel megnehezítve a különböző felismerő eljárásokat fejlesztő kutatók dolgát. Tehát innen nézve már nem is olyan egyszerű, de annál inkább sokrétűbb a beszédfelismeréseket feldolgozó algoritmusok működése. A neurális hálózatok előnye, hogy képes tanulni (Siri huzamosabb használata után könnyebben megértheti majd, mit szeretnénk, már-már félszavakból is), gyors az információfeldolgozása, és adott esetben gyorsabban fejleszthetőek, mint más mesterséges intelligenciák. Ami pedig számunkra különösen fontos lehet, hogy a tanulás révén alkalmazkodni tud az adott nyelv sajátosságaihoz, lehetővé téve a komplexebb nyelvek támogatását is, így akár “hamarosan” mindannyiunk álma teljesülhet, és az iOS 8-ban elérhetővé váló diktálási funkció után magyarul is utasíthatjuk majd Sirit.

wwdc1991

Az Apple mindig is nagy hangsúlyt fektetett a készülékek és az emberek közötti interakcióra, próbálta számunkra minél emberközelibbé, barátságosabbá tenni a kommunikációt, és ez Siri esetében sincs másként. Tudását már manapság sem vonhatjuk kétségbe, de a neurális hálókkal megspékelt motornak köszönhetően a “beszélgetések” még közvetlenebbek és még hétköznapibbak lehetnek, mint eddig. Siri képes lehet tőlünk tanulni, megismerni a szokásainkat, beszédstílusunkat, és akár a feltett kérdésünkhöz hasonló hangnemben válaszolni, vagy akár már a hangszínünkből következtethet hangulatunkra, lelki állapotunkra, és ennek függvényében kínálhat majd fel például programokat nekünk. Ez persze még a jövő, és pusztán spekuláció, az iOS 8 aktuális beta verzói is még a Nuance által fejlesztett Sirit tartalmazzák, és jóllehet még az iOS 9 sem fogja megkapni ezt a funkcionalitást.

Összegezve tehát, az Apple célja egy olyan saját beszédfelismerő motor megírása, ami kihasználja a neurális hálók adta előnyöket, ennek érdekében pedig igyekeztek kutatócsapatukba a legjobb embereket összeválogatni. Többek között a Nuance-tól, a Microsoft-tól és több neves egyetemtől is (University of Edinburgh, University of Toronto) kértek fel embereket a közös munkára.

Az is látszik, hogy az Apple nagy erőfeszítéseket tesz annak érdekében, hogy továbbra is fenntartsák és képviseljék magukat a jövő innovációjában, és törekednek a folyamatos versenyképesség megőrzésére. Egy izgalmas szál lehet a jövőre nézve, hogy mire jutnak majd a mesterséges neurális hálózatok felhasználásával, és ez milyen új funkciókat biztosít majd Siri és mindannyiunk számára. Én már kíváncsian várom.

Ti mit szóltok hozzá?

Olvasd el a hozzászólásokat is

11 Comments

  1. Jó cikk, köszönjük, de két bosszantó hibázás van benne: “a konkurenciák felzárkóztak,” a konkurencia eleve többesszámot feltételez. Tehát helyesen “a konkurencia felzárkózott”, vagy “a konkurens cégek felzárkóztak” megoldás a helyes.
    A másik: “a Skype csevegő alkalmazásukba” helyesen: “csevegő alkalmazásába” lenne.

  2. Mindig orommel tolt el ha a Sirit fejlesztik 🙂

  3. @Tamaci: Köszönjük a korrekciót!

  4. Csak fel ne lázadjon mint a skynet :)) de jó lenne full magyar támogatás

  5. Eddig a Nuance nem használt neurális hálókat? Én azt hittem, kb minden beszédfelismerő használ.

  6. A videot nem tudtam letölteni. Tudna valaki adni egy linket? Köszi!

  7. Még annyit fűznék hozzá, hogy mivel a Siri alapvetően szerver oldali okosság, ezért nem feltétlen kell iOS verzióhoz kötni a dolgait, főleg egy ilyen rendszer szintű fejlesztést. A neurális hálók mindig is a szerver parkban fognak maradni és a mesterséges intelligenciát fogják segíteni annak megértésében, hogy mi mire gondoltunk, a telefonon meg marad a proxy app ami továbbítja a szöveget, így nem kell feltétlen olyan sokat várni.
    Amúgy ez zavar is, hogy nem tudja Siri összekapcsolni az egymást követő mondatokat. A neurális technika szerencsére ezen segíteni fog.

  8. Mindig van egy okostojás aki a nyelvtannal foglalkozik, ahelyett, hogy értékelné a szerző munkáját és a kapott infókat. Az esetleges hibákat más is látja de nem azt veszi ki az írásból bunkó módon. Szégyellheti magát az ilyen ember! -vagy nem akarsz több cikket? Írjál Te is szépen, magyarul…

  9. @Hapsika6: nincs azzal gond, hogy valaki jelezte a cikkben maradt hibákat, így legalább javítani tudtuk azokat.

  10. Remek cikk


Add a Comment