fbpx Skip to content

Kedden reggel a Nuance meghívására a Dragon Dictation és Search alkalmazások sajtótájékoztatóján voltunk tothandras kollégával, amelyről Twitteren és Facebookon aznap reggel már élőben közvetítettünk is röviden. Most ennek a hosszabb összefoglalóját tennénk közzé.

Mielőtt azonban magukról az appokról ejtenénk pár szót, előtte a Nuance-t is bemutatnánk röviden.

A Nuance Communications egy minden részletre kiterjedő beszéd-, szöveg- és képfelismeréssel foglakozó vállalat. Alapvetően OCR (optikai karakterfelismerés) szoftverrel indultak, az ő nevükhöz köthető a Recognita. A beszédfelismerés egy egyre fontosabb üzleti szegmens, dinamikus a növekedése, mely képes izgalomban tartani a befektetőket. Egészségügyi intézmények, nagyvállalatok és mobil elektronikai cégek számára kínálnak megoldásokat, és beszédfelismerési technológiájukat már a Fortune 500 vállalatok kétharmada használja.

Az elmúlt 2 évben kezdtek el mobil platformra fejleszteni, miután desktop rendszereken óriási sikereket tudott elérni a vállalat. A hangfelismerés területén olyan “nagyágyúkkal” néztek szembe, mint a Microsoft vagy a Google. A Nuance számára ezzel a növekedés motorja a Dragon Dictation, Dragon Search, és a Dragon orvosi alkalmazások lettek.

Az alkalmazások mind cloud technológián alapulnak, vagyis a telefonunk egy távoli szerverparknak küldi el a hangmintát, amit feldolgozás után szövegként küldenek vissza. Ez a része tehát éppen úgy működik, mint a Siri esetén. Ez azért jó, mert a kliens készüléken elegendő a gyengébb hardver is, hiszen a felismerést a szerverpark végzi, nem a készüléknek kell megizzadnia vele.

Most az appok a magyar nyelv felismerésének támogatásával még tovább bővülnek, és november 17-ével a magyar Store-ban is elérhetővé válnak. Ingyenesen.

Dragon Dictation

A Dragon Dictation abban segít, hogy az élőszóból gépelt szöveg legyen. Ehhez semmi mást nem kell tennünk, mint lenyomni az appban a rögzítés gombot és diktálni. Ilyen egyszerű:

 

Az alkalmazás ekkor folyamatos kapcsolattal felküldi a szervernek, amit diktálunk, így az a felvétel megállítása után szinte azonnal képes visszaküldeni számunkra a felismert szöveget. Persze ezt közben megszakíthatjuk bármikor, ha a képernyőn a Mégse gombra bökünk.

A diktáláskor különböző parancsszavakat használva írásjeleket, vagy sortöréseket is adhatunk a szöveghez. A felismerés nehézségét egyébként épp ez adja, hiszen ha azt mondjuk neki például, hogy “pont úgy nézett ki, mint egy kukac”, az könnyen eredményezhet olyan felismert szöveget, hogy “. úgy nézett ki, mint 1 @”.

A Dragon hangfelismerési rendszerének a különlegessége, hogy tanulóképes. Ez azt jelenti, hogy minél többen használják, annál pontosabb lesz a hangfelismerés. A felismert szöveget javíthatjuk, akár a felkínált lehetőségekből, akár manuálisan is. A javítások szintén felkerülnek a felhőbe, így is tovább javul a rendszer felismerési képessége.

Amint végeztünk a diktálással, a képernyő jobb sarkában lévő ikonra tappintva megadhatjuk azt is, mit szeretnénk tenni a felismert szöveggel. Jelenleg SMS vagy email küldése mellett Facebookra vagy Twitterre van lehetőségünk posztolni a segítségével, vagy vágólapra is másolhatjuk.

 

A diktálást élő bemutatója rögtön általános derültséget eredményezett, amikor az alábbi szöveg eredményét megláttuk a képernyőn: “Szia Timi! Tudsz valami jó programot estére? Mit szólnál egy koncerthez? Attila”.

Az eredmény ugyanis a következő lett:

Szia Timi!
Tudsz valami jó program a testére
Mit szólnál egy koncerthez
Attila

🙂

A fenti hibák persze az egyre növekvő felhasználói számmal egyre csökkenni fognak.

A Dictation alapkövetelménye iOS 4.0, internetkapcsolat (Wi-Fi vagy 3G/EDGE), iPhone, iPad, vagy legalább 2. generációs iPod Touch, ez utóbbiak esetén külső mikrofon (headset) szükséges.

Dragon Search

A Dragon Search hasonló a Siriben használható kereséshez. A Search kifejezetten keresésre való. Használata a Dictation-ben megismertek alapján szintén kézenfekvő: bökj a képernyő közepén a rögzítés gombra, és mondd el a kérdésed, például “időjárás Budapesten”, és már kapod is a választ:

 

A Search képes a Google (vagy az alapbeállítástól függően Yahoo), a YouTube, a Twitter, iTunes, vagy a Wikipedia oldalain keresni, az adott kérdés tartalmától függően, és alternatív keresési javaslatokat is felajánl, ha nem volt biztos a válaszban.

Az élő bemutató során a “Rúzsa Magdi koncert Budapest” kifejezésre rákeresve eredményként elsőnek a Google találatai jöttek, de megtalálható volt a Wikipedia szócikk, a twitteres említések, vagy a YouTube-ra feltöltött klipek is.

A Search alapkövetelménye iOS 4.0, internetkapcsolat (Wi-Fi vagy 3G/EDGE), iPhone, iPad, vagy legalább 2. generációs iPod Touch, ez utóbbiak esetén külső mikrofon (headset) szükséges.

Kérdések és válaszok

A prezentáció végén több kérdés is felmerült, amelyek kapcsán elhangzottak különféle technikai részletek is, amelyeket érdekességképp, ugyanakkor a teljesség igénye nélkül megosztanánk veletek.

Miért ingyenesek az appok?
A Nuance az enterprise környezetből keres pénzt, tehát a céges implementálásból adódik a bevétel. Ilyen felhasználás például a mobilszolgáltatóknál az ügyfélszolgálati rendszer, ahol azt beszéddel irányíthatod, gombnyomás nélkül. Ezek a rendszerek képesek arra, hogy az elhangzott kérdés alapján az automatikus választ vagy akár megfelelő osztályon dolgozó ügyintézőt kapcsoljanak úgy, hogy az adott ügyintéző már minden, korábban elmondott adatot lát az ügyfélről, mire kapcsolja neki a rendszer. Ebben az esetben nagyon fontos a pontos felismerés, így az ingyenes appot használók ennek a felismerésnek a pontosságát is segítenek javítani.

Lesz-e belőlük más platformra is?
Andoridra és Windows Phone rendszerre is elkészíthetőek, de ezt nem maga a Nuance fogja megcsinálni, hanem az API segítségével gyakorlatilag bárki.

 Milyen díja lesz az API-nak?
Az API-t a Silver Membership keretében a fejlesztők díjmentesen elérhetik, és használhatják. Ez 500.000 letöltést jelent az ezzel elkészült alkalmazásból. Ha ezt a számot meghaladja a letöltés, akkor kell csak fizetni érte.

Milyen további nyelvek támogatása várható a jelenlegieken túl, és mikor?
Román, cseh, és szlovák nyelv támogatása várható, ezek jövőre lesznek elérhetőek.

Milyen adatforgalommal jár az alkalmazás használata?
A visszajövő adatforgalom, mivel szöveg, így minimális. Egy diktált mondat kevesebb, mint 100kB feltöltését jelenti.

Mivel a rendszer tanul a felhasználóktól, hogyan védik azt ki, hogy valakik mondjuk szándékosan hibás javításokkal kezdjék el zavarni a rendszert?
Mivel több ezer, vagy több tízezer felhasználó fogja használni a rendszert, így remélhetőleg elenyésző lesz a hibás javítások száma, történjenek azok véletlenül, vagy akár szándékosan. Az API-t használó alkalmazásokból nem kerül fel javítás a felhőbe, ezzel is csökkentve a hibás javítások lehetőségét. Emellett természetesen van nyelvspecialista is, aki ellenőrzi az adatbázist.

Mivel az Apple is a Nuance partnerei közt van, így vajon mikor várható a magyar Siri?
Ez egyrészt az Apple-től függ. A magyar nyelvű engine megléte mindenképp nagy előrelépés, de ez sajnos egy hosszabb folyamat lesz még.

További tervek

A tájékoztató után egy villásreggelivel összekötött állófogadás várta a sajtó megjelent képviselőit. Mi még beszélgettünk ezután egy kicsit Reimund Schmalddal, aki a Nuance-nál Emea Mobile Marketing Manager pozíciót foglal el, hogy megtudjunk néhány részletet az egész jövőjét tekintve.

Reimund Schmald elmondta, hogy jelenleg még nem túl magas a hangvezérlés elterjedtsége, hiszen sokak számára bizarr jelenség, hogy valaki a telefonjához beszél az utcán. Az embereknek egyszerűen még szokniuk kell a jelenséget. Az elején ugyanez volt a helyzet a mobiltelefonokkal is, egyszerűen furcsa volt, hogy valaki az utcán sétálva beszél valakivel. Ha mindenki számára elérhető valami, és sokan használják, akkor egy idő után már nem furcsa, hanem teljesen megszokott, hétköznapi.

Amikor megkérdeztük, hogy mit gondol a Siriről, mennyire konkurencia ez nekik, akkor ismét kiemelte, hogy a Siri egyes részeinek működésében az ő motorjuk is fontos szerepet játszik. Örülnek a Sirinek, mert az Apple ezzel közelebb hozta a hangvezérlést a felhasználókhoz, és ez nagyban segít a beszédfelismerési technológia használatának elterjedésében. Először az amerikai piacon is döcögősen indult az egész, de azóta stabilan nő a felhasználók száma.

További felhasználási területként említette az egészségügyben való alkalmazást, aminél az orvos csak felsorolja az alkalmazásnak a beteg tüneteit, a rendszer pedig ezek alapján javaslatot tesz a diagnózisra, amit az orvos figyelembe vehet a saját véleménye felállításakor. Ilyenkor a háttérben óriási adatbázisokat néz végig a rendszer másodpercek alatt, ami annak felelne meg, mintha az orvos több ezer oldalas könyveket lapozgatna át, természetesen sokkal több időt igénybe véve.

A hangfelismerő rendszereknél a legnagyobb nehézséget a számítási teljesítmény jelenti, ezért használja az ő megoldásuk is a felhőt, és a szerverparkot. Ez alól egyedüli kivétel a desktop alkalmazások, mert ott a számítógép teljesítménye megfelelő a teljesen offline működéshez. Ugyanakkor egy diktáláshoz valójában nem lenne szükség internetkapcsolatra, ellentétben a kereséssel. Ezért dolgoznak azon is, hogy a hangfelismerő szolgáltatásaik mobilos verziói is elérhetőek legyenek offline módon, de ez a technikai kihívások miatt nem várható egyhamar.

Összegzés

A Nuance Dragon Dictation és Search egyértelműen instant get plecsnis. Mivel Siri kisasszony jelenleg nem tud magyarul, és ez a nagyon közeli jövőben sem változik majd, addig sok kérdésben fordulhatunk a Nuance alkalmazásaihoz. Ráadásul mindezt ingyen, és külföldi App Store-ból megvásárolt alkalmazás esetén már ma is (csak a Dictation), magyar App Store-ból pedig november 17-étől. Like? 😉

Frissítés: letöltési linkek

Nuance Dragon Dictation (ingyenes): letöltés a magyar App Store-ból
Nuance Dragon Search (ingyenes): letöltés a magyar App Store-ból

Olvasd el a hozzászólásokat is

52 Comments

  1. a dictation k.jó
    a search ot nem találom 🙁

  2. De melyikben találtad meg?

  3. @Boombaba: a search csak holnaptól elérhető.

    @athis1975: pl amerikaiban fentvan.

  4. @Jadeye: tudok valahogy csinálni a magyar mellé USA app store acc-ot is?

  5. THX!
    az én appstorem mindíg is az ami volt
    valami kam pizzéria címével 🙂

  6. @Boombaba: és nem tudnád valahova feltenni az appokat?

  7. @BanDeE19: :D:D:D:D:D
    tedd fel a polcra őket!

  8. @m.beka: ha meglenne feltenném 😀

  9. @Boombaba: esetleg letölthetném az accoddal a diktálós cuccot ? 😀 :A (nem vagyok valami türelmes ember, hogy holnapig várjak )

  10. Hát ez nagyon királyul müködik , 1 órája basztatom email sms!

  11. Jegyzetekbe is be lehet illeszteni a bemondott szöveget így holnapra kész a bevásárló lista is !

  12. Egyébként fantasztikus ez a program de néha nem tudom hogy mit kellene tenni vele pl. nem tudok vesszőt írni a mondatokba. Amúgy igazán fantasztikus nem írtam ezt sem hanem diktáltam.

  13. @saintex: nekem felismert amikor kell vessző 😀 csak feljebb kell vinni a hangsúlyt és épphogy egy pici szünetet tartani a beszédben

  14. Milyen neven talalom az app store-ban? Lehet en vagyok vak, de nem talalom!

  15. @Longhair: Dragon Dictation

  16. @Longhair: mert biztos a magyarban keresed, de oda van írva hogy holnaptól lesz csak ott.

  17. Nem ertem ezt, miert kell neki a szamitogep ip-cime?

  18. @Longhair: Ha jol gondolom, akkor a számítógépen keresztül kommunikál azzal a szerverrel, ahova felküldi a hanganyagot.

  19. @Longhair: mégis milyen IP cím kell, és hol? mert az appnak ugyan nem kell semmi ilyen…

  20. Esetleg arról nem esett szó, hogy várható-e magyar nyelv a Dragon NaturallySpeaking hez ?

  21. Nos, megis jelent a magyar App storeban (is). 23:59 kor már fent volt, le is szedtem. Nem 100%os, de használható! Vezetés közbeni sms irásra nekem tökéletes lesz 😉

  22. még egy mondatot sem sikerült neki értelmezni valami mindig rosszul sikerül,mulatságos 🙂
    A korán reggel ritkán rikkant a rigó igy néz ki : korán reggel ritkán pedig can’t Abdi Coop
    Remélem holnapra sokat tanul 🙂

  23. Én nem látom a magyar AppStoreban sem a dictationt, sem a search-öt. Csak remote mic és Recorder van egyelőre. Nektek hogyhogy ott van a magyarban?

  24. @HyPet: ott a cikk alján a link mindkettőhöz.

  25. Jatélleg. Érdekes, a kereső miért nem hozta a találatok között. Kerestem Dragon-ra, Nuance-ra, meg még néhány féle képpen.
    Namindegy, már próbálom is őket, danke.

  26. @HyPet: egy adott store-ban a friss megjelenéseknek mindig kell egy kis idő, míg rendesen, kereshetően befrissülnek. addig csak közvetlen linken érhetőek el.

  27. Nagyon hasznos program. A kereső nálam jól vizsgázott “86-os busz” és kidobta rögtön a BKV oldalát. A diktálásban vannak még némi hibák. Pár kommenttel feljebb olvastam a “korán reggel ritkán rikkant a rigó” mondatot, érdekesség képpen én is kipróbáltam és nálam tökéletesen felismerte. A vessző rakás az még számomra kérdéses.

  28. Nekem amerikai acc-om van. De ott még nem találom olyan néven hogy “Dragon Search”. Véleményem szerint ott “Dragon Go!” néven van fenn, így a cikkben lévő képek alapján. A fenti linkek meg ugye nem használhatók ha amerikai accountom van.. A Dragon Go! Pedig nem tud magyarul 🙁

  29. @maestro1911: a search nem érhető el az amerikai storeban. csinálj egy magyar accountot, és töltsd le azzal.

  30. @Jadeye: Lehet másik accountal is szinkronizálni? Nem csak azzal amihez regisztrálva van az iPhone?

  31. @maestro1911: persze, hogy lehet. annyi csak a lényeg, hogy számítógépből 1db lehet, amivel szinkronizálhatod. de azon a gépen használhatsz több accountot is. nekem most asszem vagy 5 accounttól származó appok vannak egyszerre fent a készüléken. tehát nem törli le a másik accounthoz tartozókat.

    illetve ami még fontos, hogy egy accounthoz maximum 5 számítógép regisztrálható, amivel a készülékedet szinkronizálod.

    törölni csak akkor fog az appok közül, ha másik iTunes Library-vel, tehát egy másik számítógéppel akarod szinkronizálni a készülélked, mert ahogy írtam, egy készülék csak egy adott géppel szinkronizálható.

  32. Csak nekem nem megy a facebook és a twitter része? Be loginolok mind a kettőbe, ami sikerül is de ha rányomok akkor facebook-ra annyit ír hogy nem sikerült közzétenni a twitterre meg azt dobja ki mint ha nem lennék loginolva :S

  33. Hali

    Nagyon jól működik a program, és cáfolnom kell a Siri-nél leírtakat, miszerint a iPod Touch 4g mikrofonja miatt máshogy kellene beszélni mint egyébként (tagoltabban, hangosabban). Az enyém egy gumitokban van a hátuljával az asztalon, és normál beszéddel is nagyon szépen müködik. Köszönjük Dragon nagyon jó cucc!!

    Arra vagyok kiváncsi és ez talán a LEGFONTOSABB: Hogy a hackerek mikor találják meg rá a megoldást, hogy a Sirihez tartozó, abillentyűzetbe beépülő kis mikrofon ikont aktíválva a dragon szerverhez, még szélesebb körben tudjuk használni a diktáló funkciót!

  34. Akik meg nem találják meg, menjenek már a cikkben lévő linkre, ott meg arra, hogy : VIEW IN iTUNES ! És akkor meglesz, ha magyar, ha amerika az accod!

  35. A facebook nekem se ment, de twitterre sikerült publikálnom.

    Ha a saját funkcióit lehetne vezérelni szóban és esetleg még a címzettet is elmondhatnám neki smsnél és emailnél, akkor tökéles lenne 🙂

  36. nem értem a magyar, amerikai account közti különbséget?!

  37. Aladinka, az egyik magyar, a másik amerikai account. Pont ennyi a különbség.

    Az egyiket magyar bankkártyával tudod létrehozni, a másikat amerikai bankkártyával.

  38. @saintex: a vesszőhöz és a ponthoz annyit kell mondani, hogy vessző vagy pont 😀

  39. Ez a “Vodafone” app nem is rossz.

    Földiekkel játszó pihi tünemény istenségnek látszó útról fogva kemény suli teremt magának A boldogtalan és mint védendő mennem bukott nyomtalan

    Ért a szóból, de még vannak hiányosságai :p

  40. nade akkor miért nincsen magyar siri vajon, ha ez ilyen kafán megy? 🙂

  41. @onderon: ez le van írva fent a cikkben.

  42. @Jadeye: ok, lebuktam, akkor elolvasom a cikket 😀

  43. @Jadeye: elolvastam, de konkrétan nem derül ki, hogy akkor a siri miért nem jött ki eleve magyar nyelv támogatással. persze költői a kérdés, de érdekes, ezekután főleg, hogy a nuance meg kijön vele.

  44. @onderon: a Nuance még csak most jött ki vele. az iPhone 4S meg már jó pár nappal korábban megjelent. a Siri meg még beta. amellett a Siri esetén nem csak keresésre vagy diktálásra használják a beszédfelismerést, hanem vezérlésre is, így kicsit nehezebb a dolog. persze most, hogy már megvan a magyar engine, így valószínűbb, és közelebbi a dolog, mint nélküle.

  45. @ngtv:
    A pont és a többi megvolt, azt nem is kérdeztem. De én ilyen,,,,,, szeretnék. Nem ilyen vesszőt! 🙂

  46. @Jadeye: kösz az info-t. persze a siri korábban kijött, de gondolom a magyar nyelv támogatás sem tegnap lett kész. de mint írtad a siri még beta, én pedig efelett elsiklottam, így már érthetőbb.

    Ezúton köszönet a Nuance-nak, hiszen nem hiszem, hogy valaha is kijönne a siri iphone 4s-en kívül másra, én viszont biztosan nem veszek 4s-t, így legalább kapok egy kis darabot belőle 🙂

  47. Mi az ertelme a Names Recognization-ak? Nem tudok rajonni?

  48. nem tudom újdonság-e, de ha elmondasz egy mondatot és a végére akarsz egy “:)”-t akkor annyit kell csak mondani hogy “mosolygós fej” és már ott is van 🙂

  49. Nem csak a mosolygo fejet ismeri tudja a szomoru, kacsintot is 😉

  50. Beírtam azt, hogy elkelkáposztásítottalanítottátok és ezt dobta ki:

    “elkelt a postás ivartalanítottátok”

    😀 😀 😀


Add a Comment