Magyar nyelvű diktálás és élőszavas keresés iOS-re: Nuance Dragon appok

Ez a cikk legalább 1 éve frissült utoljára. A benne szereplő információk a megjelenés idején pontosak voltak, de mára elavultak lehetnek.

Kedden reggel a Nuance meghívására a Dragon Dictation és Search alkalmazások sajtótájékoztatóján voltunk tothandras kollégával, amelyről Twitteren és Facebookon aznap reggel már élőben közvetítettünk is röviden. Most ennek a hosszabb összefoglalóját tennénk közzé.

Mielőtt azonban magukról az appokról ejtenénk pár szót, előtte a Nuance-t is bemutatnánk röviden.

A Nuance Communications egy minden részletre kiterjedő beszéd-, szöveg- és képfelismeréssel foglakozó vállalat. Alapvetően OCR (optikai karakterfelismerés) szoftverrel indultak, az ő nevükhöz köthető a Recognita. A beszédfelismerés egy egyre fontosabb üzleti szegmens, dinamikus a növekedése, mely képes izgalomban tartani a befektetőket. Egészségügyi intézmények, nagyvállalatok és mobil elektronikai cégek számára kínálnak megoldásokat, és beszédfelismerési technológiájukat már a Fortune 500 vállalatok kétharmada használja.

Az elmúlt 2 évben kezdtek el mobil platformra fejleszteni, miután desktop rendszereken óriási sikereket tudott elérni a vállalat. A hangfelismerés területén olyan “nagyágyúkkal” néztek szembe, mint a Microsoft vagy a Google. A Nuance számára ezzel a növekedés motorja a Dragon Dictation, Dragon Search, és a Dragon orvosi alkalmazások lettek.

Az alkalmazások mind cloud technológián alapulnak, vagyis a telefonunk egy távoli szerverparknak küldi el a hangmintát, amit feldolgozás után szövegként küldenek vissza. Ez a része tehát éppen úgy működik, mint a Siri esetén. Ez azért jó, mert a kliens készüléken elegendő a gyengébb hardver is, hiszen a felismerést a szerverpark végzi, nem a készüléknek kell megizzadnia vele.

Most az appok a magyar nyelv felismerésének támogatásával még tovább bővülnek, és november 17-ével a magyar Store-ban is elérhetővé válnak. Ingyenesen.

Dragon Dictation

A Dragon Dictation abban segít, hogy az élőszóból gépelt szöveg legyen. Ehhez semmi mást nem kell tennünk, mint lenyomni az appban a rögzítés gombot és diktálni. Ilyen egyszerű:

 

Az alkalmazás ekkor folyamatos kapcsolattal felküldi a szervernek, amit diktálunk, így az a felvétel megállítása után szinte azonnal képes visszaküldeni számunkra a felismert szöveget. Persze ezt közben megszakíthatjuk bármikor, ha a képernyőn a Mégse gombra bökünk.

A diktáláskor különböző parancsszavakat használva írásjeleket, vagy sortöréseket is adhatunk a szöveghez. A felismerés nehézségét egyébként épp ez adja, hiszen ha azt mondjuk neki például, hogy “pont úgy nézett ki, mint egy kukac”, az könnyen eredményezhet olyan felismert szöveget, hogy “. úgy nézett ki, mint 1 @”.

A Dragon hangfelismerési rendszerének a különlegessége, hogy tanulóképes. Ez azt jelenti, hogy minél többen használják, annál pontosabb lesz a hangfelismerés. A felismert szöveget javíthatjuk, akár a felkínált lehetőségekből, akár manuálisan is. A javítások szintén felkerülnek a felhőbe, így is tovább javul a rendszer felismerési képessége.

Amint végeztünk a diktálással, a képernyő jobb sarkában lévő ikonra tappintva megadhatjuk azt is, mit szeretnénk tenni a felismert szöveggel. Jelenleg SMS vagy email küldése mellett Facebookra vagy Twitterre van lehetőségünk posztolni a segítségével, vagy vágólapra is másolhatjuk.

 

A diktálást élő bemutatója rögtön általános derültséget eredményezett, amikor az alábbi szöveg eredményét megláttuk a képernyőn: “Szia Timi! Tudsz valami jó programot estére? Mit szólnál egy koncerthez? Attila”.

Az eredmény ugyanis a következő lett:

Szia Timi!
Tudsz valami jó program a testére
Mit szólnál egy koncerthez
Attila

🙂

A fenti hibák persze az egyre növekvő felhasználói számmal egyre csökkenni fognak.

A Dictation alapkövetelménye iOS 4.0, internetkapcsolat (Wi-Fi vagy 3G/EDGE), iPhone, iPad, vagy legalább 2. generációs iPod Touch, ez utóbbiak esetén külső mikrofon (headset) szükséges.

Dragon Search

A Dragon Search hasonló a Siriben használható kereséshez. A Search kifejezetten keresésre való. Használata a Dictation-ben megismertek alapján szintén kézenfekvő: bökj a képernyő közepén a rögzítés gombra, és mondd el a kérdésed, például “időjárás Budapesten”, és már kapod is a választ:

 

A Search képes a Google (vagy az alapbeállítástól függően Yahoo), a YouTube, a Twitter, iTunes, vagy a Wikipedia oldalain keresni, az adott kérdés tartalmától függően, és alternatív keresési javaslatokat is felajánl, ha nem volt biztos a válaszban.

Az élő bemutató során a “Rúzsa Magdi koncert Budapest” kifejezésre rákeresve eredményként elsőnek a Google találatai jöttek, de megtalálható volt a Wikipedia szócikk, a twitteres említések, vagy a YouTube-ra feltöltött klipek is.

A Search alapkövetelménye iOS 4.0, internetkapcsolat (Wi-Fi vagy 3G/EDGE), iPhone, iPad, vagy legalább 2. generációs iPod Touch, ez utóbbiak esetén külső mikrofon (headset) szükséges.

Kérdések és válaszok

A prezentáció végén több kérdés is felmerült, amelyek kapcsán elhangzottak különféle technikai részletek is, amelyeket érdekességképp, ugyanakkor a teljesség igénye nélkül megosztanánk veletek.

Miért ingyenesek az appok?
A Nuance az enterprise környezetből keres pénzt, tehát a céges implementálásból adódik a bevétel. Ilyen felhasználás például a mobilszolgáltatóknál az ügyfélszolgálati rendszer, ahol azt beszéddel irányíthatod, gombnyomás nélkül. Ezek a rendszerek képesek arra, hogy az elhangzott kérdés alapján az automatikus választ vagy akár megfelelő osztályon dolgozó ügyintézőt kapcsoljanak úgy, hogy az adott ügyintéző már minden, korábban elmondott adatot lát az ügyfélről, mire kapcsolja neki a rendszer. Ebben az esetben nagyon fontos a pontos felismerés, így az ingyenes appot használók ennek a felismerésnek a pontosságát is segítenek javítani.

Lesz-e belőlük más platformra is?
Andoridra és Windows Phone rendszerre is elkészíthetőek, de ezt nem maga a Nuance fogja megcsinálni, hanem az API segítségével gyakorlatilag bárki.

 Milyen díja lesz az API-nak?
Az API-t a Silver Membership keretében a fejlesztők díjmentesen elérhetik, és használhatják. Ez 500.000 letöltést jelent az ezzel elkészült alkalmazásból. Ha ezt a számot meghaladja a letöltés, akkor kell csak fizetni érte.

Milyen további nyelvek támogatása várható a jelenlegieken túl, és mikor?
Román, cseh, és szlovák nyelv támogatása várható, ezek jövőre lesznek elérhetőek.

Milyen adatforgalommal jár az alkalmazás használata?
A visszajövő adatforgalom, mivel szöveg, így minimális. Egy diktált mondat kevesebb, mint 100kB feltöltését jelenti.

Mivel a rendszer tanul a felhasználóktól, hogyan védik azt ki, hogy valakik mondjuk szándékosan hibás javításokkal kezdjék el zavarni a rendszert?
Mivel több ezer, vagy több tízezer felhasználó fogja használni a rendszert, így remélhetőleg elenyésző lesz a hibás javítások száma, történjenek azok véletlenül, vagy akár szándékosan. Az API-t használó alkalmazásokból nem kerül fel javítás a felhőbe, ezzel is csökkentve a hibás javítások lehetőségét. Emellett természetesen van nyelvspecialista is, aki ellenőrzi az adatbázist.

Mivel az Apple is a Nuance partnerei közt van, így vajon mikor várható a magyar Siri?
Ez egyrészt az Apple-től függ. A magyar nyelvű engine megléte mindenképp nagy előrelépés, de ez sajnos egy hosszabb folyamat lesz még.

További tervek

A tájékoztató után egy villásreggelivel összekötött állófogadás várta a sajtó megjelent képviselőit. Mi még beszélgettünk ezután egy kicsit Reimund Schmalddal, aki a Nuance-nál Emea Mobile Marketing Manager pozíciót foglal el, hogy megtudjunk néhány részletet az egész jövőjét tekintve.

Reimund Schmald elmondta, hogy jelenleg még nem túl magas a hangvezérlés elterjedtsége, hiszen sokak számára bizarr jelenség, hogy valaki a telefonjához beszél az utcán. Az embereknek egyszerűen még szokniuk kell a jelenséget. Az elején ugyanez volt a helyzet a mobiltelefonokkal is, egyszerűen furcsa volt, hogy valaki az utcán sétálva beszél valakivel. Ha mindenki számára elérhető valami, és sokan használják, akkor egy idő után már nem furcsa, hanem teljesen megszokott, hétköznapi.

Amikor megkérdeztük, hogy mit gondol a Siriről, mennyire konkurencia ez nekik, akkor ismét kiemelte, hogy a Siri egyes részeinek működésében az ő motorjuk is fontos szerepet játszik. Örülnek a Sirinek, mert az Apple ezzel közelebb hozta a hangvezérlést a felhasználókhoz, és ez nagyban segít a beszédfelismerési technológia használatának elterjedésében. Először az amerikai piacon is döcögősen indult az egész, de azóta stabilan nő a felhasználók száma.

További felhasználási területként említette az egészségügyben való alkalmazást, aminél az orvos csak felsorolja az alkalmazásnak a beteg tüneteit, a rendszer pedig ezek alapján javaslatot tesz a diagnózisra, amit az orvos figyelembe vehet a saját véleménye felállításakor. Ilyenkor a háttérben óriási adatbázisokat néz végig a rendszer másodpercek alatt, ami annak felelne meg, mintha az orvos több ezer oldalas könyveket lapozgatna át, természetesen sokkal több időt igénybe véve.

A hangfelismerő rendszereknél a legnagyobb nehézséget a számítási teljesítmény jelenti, ezért használja az ő megoldásuk is a felhőt, és a szerverparkot. Ez alól egyedüli kivétel a desktop alkalmazások, mert ott a számítógép teljesítménye megfelelő a teljesen offline működéshez. Ugyanakkor egy diktáláshoz valójában nem lenne szükség internetkapcsolatra, ellentétben a kereséssel. Ezért dolgoznak azon is, hogy a hangfelismerő szolgáltatásaik mobilos verziói is elérhetőek legyenek offline módon, de ez a technikai kihívások miatt nem várható egyhamar.

Összegzés

A Nuance Dragon Dictation és Search egyértelműen instant get plecsnis. Mivel Siri kisasszony jelenleg nem tud magyarul, és ez a nagyon közeli jövőben sem változik majd, addig sok kérdésben fordulhatunk a Nuance alkalmazásaihoz. Ráadásul mindezt ingyen, és külföldi App Store-ból megvásárolt alkalmazás esetén már ma is (csak a Dictation), magyar App Store-ból pedig november 17-étől. Like? 😉

Frissítés: letöltési linkek

Nuance Dragon Dictation (ingyenes): letöltés a magyar App Store-ból
Nuance Dragon Search (ingyenes): letöltés a magyar App Store-ból

Ezek még érdekelhetnek:


  1. Egyébként fantasztikus ez a program de néha nem tudom hogy mit kellene tenni vele pl. nem tudok vesszőt írni a mondatokba. Amúgy igazán fantasztikus nem írtam ezt sem hanem diktáltam.

  2. Nos, megis jelent a magyar App storeban (is). 23:59 kor már fent volt, le is szedtem. Nem 100%os, de használható! Vezetés közbeni sms irásra nekem tökéletes lesz 😉

  3. még egy mondatot sem sikerült neki értelmezni valami mindig rosszul sikerül,mulatságos 🙂
    A korán reggel ritkán rikkant a rigó igy néz ki : korán reggel ritkán pedig can’t Abdi Coop
    Remélem holnapra sokat tanul 🙂

  4. Jatélleg. Érdekes, a kereső miért nem hozta a találatok között. Kerestem Dragon-ra, Nuance-ra, meg még néhány féle képpen.
    Namindegy, már próbálom is őket, danke.

  5. Nagyon hasznos program. A kereső nálam jól vizsgázott “86-os busz” és kidobta rögtön a BKV oldalát. A diktálásban vannak még némi hibák. Pár kommenttel feljebb olvastam a “korán reggel ritkán rikkant a rigó” mondatot, érdekesség képpen én is kipróbáltam és nálam tökéletesen felismerte. A vessző rakás az még számomra kérdéses.

  6. Nekem amerikai acc-om van. De ott még nem találom olyan néven hogy “Dragon Search”. Véleményem szerint ott “Dragon Go!” néven van fenn, így a cikkben lévő képek alapján. A fenti linkek meg ugye nem használhatók ha amerikai accountom van.. A Dragon Go! Pedig nem tud magyarul 🙁

  7. @maestro1911: persze, hogy lehet. annyi csak a lényeg, hogy számítógépből 1db lehet, amivel szinkronizálhatod. de azon a gépen használhatsz több accountot is. nekem most asszem vagy 5 accounttól származó appok vannak egyszerre fent a készüléken. tehát nem törli le a másik accounthoz tartozókat.

    illetve ami még fontos, hogy egy accounthoz maximum 5 számítógép regisztrálható, amivel a készülékedet szinkronizálod.

    törölni csak akkor fog az appok közül, ha másik iTunes Library-vel, tehát egy másik számítógéppel akarod szinkronizálni a készülélked, mert ahogy írtam, egy készülék csak egy adott géppel szinkronizálható.

  8. Csak nekem nem megy a facebook és a twitter része? Be loginolok mind a kettőbe, ami sikerül is de ha rányomok akkor facebook-ra annyit ír hogy nem sikerült közzétenni a twitterre meg azt dobja ki mint ha nem lennék loginolva :S

  9. Hali

    Nagyon jól működik a program, és cáfolnom kell a Siri-nél leírtakat, miszerint a iPod Touch 4g mikrofonja miatt máshogy kellene beszélni mint egyébként (tagoltabban, hangosabban). Az enyém egy gumitokban van a hátuljával az asztalon, és normál beszéddel is nagyon szépen müködik. Köszönjük Dragon nagyon jó cucc!!

    Arra vagyok kiváncsi és ez talán a LEGFONTOSABB: Hogy a hackerek mikor találják meg rá a megoldást, hogy a Sirihez tartozó, abillentyűzetbe beépülő kis mikrofon ikont aktíválva a dragon szerverhez, még szélesebb körben tudjuk használni a diktáló funkciót!

  10. A facebook nekem se ment, de twitterre sikerült publikálnom.

    Ha a saját funkcióit lehetne vezérelni szóban és esetleg még a címzettet is elmondhatnám neki smsnél és emailnél, akkor tökéles lenne 🙂

  11. Aladinka, az egyik magyar, a másik amerikai account. Pont ennyi a különbség.

    Az egyiket magyar bankkártyával tudod létrehozni, a másikat amerikai bankkártyával.

  12. Ez a “Vodafone” app nem is rossz.

    Földiekkel játszó pihi tünemény istenségnek látszó útról fogva kemény suli teremt magának A boldogtalan és mint védendő mennem bukott nyomtalan

    Ért a szóból, de még vannak hiányosságai :p

  13. @Jadeye: elolvastam, de konkrétan nem derül ki, hogy akkor a siri miért nem jött ki eleve magyar nyelv támogatással. persze költői a kérdés, de érdekes, ezekután főleg, hogy a nuance meg kijön vele.

  14. @onderon: a Nuance még csak most jött ki vele. az iPhone 4S meg már jó pár nappal korábban megjelent. a Siri meg még beta. amellett a Siri esetén nem csak keresésre vagy diktálásra használják a beszédfelismerést, hanem vezérlésre is, így kicsit nehezebb a dolog. persze most, hogy már megvan a magyar engine, így valószínűbb, és közelebbi a dolog, mint nélküle.

  15. @Jadeye: kösz az info-t. persze a siri korábban kijött, de gondolom a magyar nyelv támogatás sem tegnap lett kész. de mint írtad a siri még beta, én pedig efelett elsiklottam, így már érthetőbb.

    Ezúton köszönet a Nuance-nak, hiszen nem hiszem, hogy valaha is kijönne a siri iphone 4s-en kívül másra, én viszont biztosan nem veszek 4s-t, így legalább kapok egy kis darabot belőle 🙂

  16. nem tudom újdonság-e, de ha elmondasz egy mondatot és a végére akarsz egy “:)”-t akkor annyit kell csak mondani hogy “mosolygós fej” és már ott is van 🙂

Írd le a véleményedet! (Moderációs elveinket ide kattintva olvashatod.)

Hozzászólás írásához be kell jelentkezned!