Siri, te vagy az? – interjú személyi asszisztensünk eredeti hangjával

Valószínűleg nincs olyan iPhone tulajdonos a Földön, aki ne ismerné Sirit. Mikor 2011. október 4-én az Apple bemutatta nekünk a személyi asszisztensünket, úgy látszott, hogy a világ a következő években megváltozik, mindenhez beszélni fogunk.

Siri te vagy az? - interjú az Apple eredeti hangjával

Ez talán a mai napig nem jött el, de Siri volt az alapköve annak, hogy most már van Amazon Echo, Google Home, Samsung Bixby, valamint a Microsoft Cortana és így tovább… Siri egy igen fejlett technológia, ami folyamatosan tanul tőlünk, és hála a több száz millió iPhone-nak, ez viszonylag gyorsan megy. De ki az a Siri? Ki beszél, beszélt hozzánk? Hogyan lett Siri és mit hozhat a jövő? Az alábbi interjút a Typeform készítette Susan Bennettel, Siri eredeti hangjával, és rengeteg érdekességet tartalmaz.

Több mint 100 millió ember kezében volt, valószínűleg a te éjjeliszekrényeden is álomra hajtotta fejét. Talán részegen még az exed felhívásában is partnerre találtál benne. Kétségtelen, hogy mindez, Susan Bennettet, az Apple Sirijének eredeti hangját is váratlanul érte.

Egy szinkronszínész kollégámtól kaptam egy emailt, amiben az állt, hogy épp az új iPhone-nal ismerkednek, és mintha az én hangomat hallották volna. Több sem kellett, rögtön felkerestem az Apple oldalát, és meghallgattam én is. Csak annyit tudtam mondani, hogy ‘Úristen, igen, ez tényleg én vagyok! Hogyan történhetett mindez?’

Hogyan válhatsz a legsikeresebb tech cég legismertebb hangjává úgy, hogy mindeközben nem is tudsz róla? A következő interjú Susannel készült, megtudhatjuk, hogyan csöppent bele a hírnévbe, hiszen hangja két kulcsfontosságú pillanatban is feltűnt a beszélő technika fejlődése során.

No, de kezdjük az elején.

Egy analóg világ hangja

Annak idején, amikor még telefonkezelők voltak, mindig játszottam velük… Talán ez a sors, hogy egy hang lettem több száz telefonrendszeren? Fogalmam sincs, lehet ennek így kellett lennie.

Susan az analóg világba született, ahol még tranzisztoros rádiókon hallgatták Elvis és Chuck Berry slágereit, illetve a tárcsás telefonokon a nulla tárcsázásához majdnem egy teljes kört kellett leírnunk az ujjunkkal a tárcsa forgatásakor. Hatalmas szerepet töltött be a zene az életében, hiszen 4 éves kora óta zongorázott, habár sosem gondolta, hogy ebből valaha meg is tudna élni. Ennek ellenkezője bizonyosodott be, mikor az 1960-as évek végén elkezdett turnézni Burt Bacharach és Roy Orbison háttérénekeseként, továbbá, a rádióban és reklámokban is hallhattuk énekelni. Aztán egy nap Susannek kellett helyettesítenie az egyik szinkronszínész kollégáját a stúdióban, amiben tökéletesen helytállt. Ezzel el is elkezdődött a szinkronszínészi karriere. Mi több, egy párhuzamos univerzumban a mérnökök már el is kezdték megalkotni Susan digitális jövőjét.

Intelligens gépek álmai

“Eredetileg csak és kizárólag a saját nyelvükön szóltunk a számítógépekhez. Azóta egyre inkább a saját nyelvünkön szólunk hozzájuk.” – mondta Adam Cheyer, Siri és Viv egyik alapítója.

Nem sokkal Susan születése után tette fel Alan Turing a híressé vált kérdését: “Tudnak-e a gépek gondolkodni?” Alan a Turing Test-tel válaszolt, a számítógépes intelligencia végső mércéje a természetes nyelv emberszerű használata. Abban az időben, amikor lyukkártyákon és villogó fényeken keresztül kommunikáltunk a számítógépekkel, ez az elképzelés megállta a helyét. Viszont, az 1950-es és ’60-as években a számítógép-ember interakciók egy teljes ráncfelvarráson estek át, köszönhetően az olyan kutatóközpontoknak, mint az MIT, az IBM és az SRI International.

Az SRI élén Douglas Engelbart állt, aki a számítógépes felhasználói felületek tervezésének úttörője. 1968-ban ő alkotta meg a számítógépeknél használt egeret, billentyűzetet, illetve a hypertext rendszerek alapjainak fejlesztése is az ő nevéhez fűződik. Mindez megihlette a Xerox PARC-ot, hogy létrehozza a grafikus felhasználói felületet, amit később Steve Jobs képletesen el is lopott az eredeti Machintosh megalkotásához. Az SRI később egy különálló projektbe kezdett, hogy létrehozzák az első okos, digitális asszisztenst. Ehhez szükségük volt két cégre, a Nuance Communications-ra és a Siri vállalatra – amik együttesen alkotják Siri agyát és hangját. Időközben Susan is debütált, méghozzá egy gép hangjaként.

Tillie, az első gép személyiség

A 70-es évek közepén, újféle gépek kezdtek el megjelenni az utcasarkokon: a bankautomaták.

A bankok próbálták bevezetni az ATM-eket, de az emberek egyszerűen nem akarták használni őket. Ne felejtsük el, mindez jóval az iPhone és a személyi számítógépek megjelenése előtt volt. Az emberek nem bíztak a gépekben, illetve hogy onnan vegyenek fel pénzt.

A gépek haszna azonban egyértelmű volt: azonnali pénzfelvétel. Az emberek viszont a bankárokhoz szoktak hozzá, és az ATM valahogy mégsem volt az igazi. Adjuk hát hozzá Susan hangját.

Egy vállalkozó kedvű atlantai reklámügynökség, a McDonald & Little úgy döntött, hogy kicsit személyre kellene szabni ezt a gépet. Elnevezték Tillienek és engem kértek fel, hogy Tillie-ként énekeljem el az ATM saját dalocskáját, így született meg az ország legelső, sikeres ATM-e.

Ezzel el is kezdődött Susan élete, egy gép személyiségeként. Visszatérve a párhuzamos univerzumunkhoz, a fiatal Steve Jobs épp a tökéletes felhasználói élmény lehetőségeit kezdte keresgélni.

Siri utódja

A technológia önmagában nem elég. A technológia összeolvad a szabad művészetekkel és az emberiséggel egyaránt, ez hozza meg nekünk azokat az eredményeket, amitől csak úgy repes a szívünk. – Steve Jobs

Tillie megjelenésével nagyjából egyidőben, Steve Jobs épp egyfajta zarándokúton volt Indiában. Amint hazaért, megjelent az első személyi számítógép, az Altair 8800. Rövid időn belül Jobs és Steve Wozniak megalapította az Apple Computer céget, hogy munkához láthassanak. Az cég első áttörése 1984-ben volt az eredeti Macintosh-sal. Jobs az SRI egerét és a Xerox PARC grafikus felhasználói felületét összehozva alkotta meg az ikonikus gépet. 1987-ben, az Apple körvonalazta az okos, virtuális asszisztens jövőjét a “Knowledge Navigator”-rel, ami segített a naptáradnál, felolvasta az emaileidet és még egy videokonferenciára is képes volt. Illetve a legfontosabb, hogy emberinek tűnt, arccal, hanggal és személyiséggel. Mindezek ellenére, abban az időben hatalmas volt a szakadék az álmok és a technológia között. Hogy eljussunk ide, hatalmas fejlődésre volt szükség a hangfelismerésben, a természetes nyelvek feldolgozásában, illetve a gépi tanulás algoritmusában. És persze, a tökéletes hangot is meg kellett találni.

Az 1980-as és ’90-es években, Susan hangja megjelent GPS rendszereken, és az automata ügyfélszolgálati rendszerekben (IVR) is. Aztán, 2005-ben Susan egy új projektben vett részt, ami teljesen megváltoztatta az életét. A munka majdnem egy egész hónapon át abból állt, hogy teljesen értelmetlen mondatokat ismételgetett.

Egy text-to-speech cég számára vettünk fel a hanganyagot, ami mindannyiunk számára egy új kihívás volt. Fogalmunk sem volt, mit csinálunk, azt hittük, hogy egy új ügyfélszolgálati rendszerhez készítjük ezeket.

Az említett text-to-speech cég a ScanSoft volt. És – spoiler alert – végül ebből hanganyag rendszerből született meg Siri.

Miután végeztünk a felvétellel, akkor jöttek a technikusok és a számítógépek, hogy kinyerjék a hangokat, majd átalakítsák őket új kifejezésekké és mondatokká, amikkel végül a digitális eszközeinken találkozhattunk.

Susan továbbá azt is elárulta, hogy a szinkronszínésznek semmi köze mindahhoz, amit Siri mond. Az mind a programozók műve.

Ahol Siri kapta az eszét… és hangját

Mindennek alapja az, ahogyan az emberek természetesen kommunikáltak egymással, több ezer éven át. Pontosan ezt az interakciót visszük át a rendszerekre. Mindenki tudja, hogyan lehet egy jót beszélgetni. – Dag Kittlaus, Siri egyik megalkotója és a Viv vezérigazgatója

Emlékszel még az SRI International-ra? 2003-ban az SRI felvett egy 5 éves DARPA támogatást, hogy létrehozhassa a CALO projektet (Cognitive Assistant that Learns and Organizes) – magyarul egy tanuló és szervező kognitív asszisztenst. Ez volt a mesterséges intelligencia Manhattan Project-je.

A 300 fős csapat vezetője a mesterséges intelligencia úttörője, Adam Cheyer volt, aki így jellemezte a projektet:

A cél nagyra törő volt: létrehozni egy mesterséges intelligenciát egy integrált, emberszerű környezetbe, ami képes új dolgok tanulására is. Anélkül, hogy átprogramoznánk, a rendszer időről-időre okosabb lesz, ahogy megfigyeli a felhasználót, kapcsolatba lép vele és önmagában képes értékelni mindazt, amit látott és hallott.

2007-ben, Cheyer otthagyta az SRI-t, hogy megalkossa a Siri Inc.-et, Dag Kittlaus-szal és Tom Gruberrel. Nem sokkal később, Cheyer hívást kapott Steve Jobs-tól, majd végül 2010-ben az Apple megvásárolta a Siri Inc.-et, Cheyer pedig az iPhone/iOS csapat mérnöki igazgatója lett. Jobs jól tudta, hogy Siri mesterséges intelligenciája mellé elengedhetetlen egy zseniális hang is. Ebből kifolyólag felkereste a Nuance Communications-t, aki épp összolvadt a ScanSofttal, akik Susan Bennett egy hónapnyi felvételeit tárolták. Az Apple Knowledge Navigator-ének immár volt agya és hangja is. Susant pedig élete legnagyobb meglepetése érte.

Hey Siri, honnan kaptad a neved?

Norvégul a Siri szó azt jelenti “gyönyörű nő, aki a győzelembe vezet”. Persze, mind jól tudtuk, hogy ő csak egy szimpla csaj, aki elmondja merre menj. Viszont Dag és felesége éppen babát vártak, akiről azt hitték, kislány lesz és a Siri nevet akarták neki adni. Végül kisfiuk született, ezért inkább az alkalmazást nevezték el Sirinek. Így kapta hát a nevét Siri.

Megtanultuk, hogyan használjuk az egeret és hogyan kattintsunk az adott tartalomra, de ez sosem volt természetes módja a környezetünkkel való kommunikációnak. Az érintés és a beszéd viszont már a barlangkorszak idejétől jelen van. – mondta Vlad Sejnoha, a Nuance Communications technológiai vezetője

A ScanSoftos unalmas felvételek utáni 6 év során Susan eladta hangját a Coke-nak, az IBM-nek, a Fordnak, és más óriáscégeknek is, továbbá évente több millió utast készített fel a repülőútjukra a Delta Air Lines hangjaként. Aztán eljött a nap, 2011. október 4-e, amikor a hang és az érintés egyesült, hogy kölcsönhatásba lépjen a technológiával. Siri híres lett, és Susan volt a hangja, ami számára mégis kicsit ijesztő volt.

Ha bármilyen céget felhívsz és azt hallod, hogy ‘Köszönjük hívását, kérjük nyomja meg az 1-es gombot,’ nem érzel semmilyen kötődést a hanggal, szimplán csak az információra figyelsz.

De Siri más volt. A nők egészsége, szex, és gyógyszerek – Sirinek mindre van válasza. És ezen válaszok között sok olyan van, amit Susan valójában sosem mondana. De mégsem szólt semmit, két évig magában tartotta érzéseit, miközben az egész világ megszerette.

Miért volt Siri ennyire különleges?

A humor és a variálhatóság az, ami fenntartja az emberek érdeklődését. Szeretnénk kitalálni, hogy vajon mi történik legközelebb. – Nir Eyal, a Hooked szerzője

Siri sokkal több volt, mint egy izgalmas hang, amihez az emberek ténylegesen kötődtek. Nézzük is miért:

1. A hang, ami emberi

Susan így mesél:

Siri előtt nagyon gépies hangokkal találkozhattunk, nem olyannal, akivel bárki is beszélgetni szeretett volna. Úgy gondolom, Siri emiatt is volt népszerű, bárki úgy érezhette, hogy egy valódi emberrel beszélget.

Viszont egy szép hang semmit sem ér önmagában, Siri igazi vonzereje a viselkedésében rejlik.

2. Szociális intelligencia és szövegkörnyezet

Emlékszel még Clippy-re, a Microsoft idegesítő virtuális gemkapcsára? Bezártad, aztán mégis rögtön viszajött, 2007-ben pedig végleg el is búcsúzhattunk tőle. Siri viszont Clippy-vel ellentétben szociálisan érzékeny, visszakérdez, ha valamit nem ért, mindezt anélkül, hogy ráerőszakolná magát a felhasználóra.

3. Személyiség és humor

Mindenkinek megvan a saját személyisége, és a virtuális asszisztensnek is kell egy. Épp ezért az Apple egy kis csípkelődős stílussal felruházva varázsolta kedvelhetővé Sirit.

4. Tapasztalatból tanulás

Minél többet beszélgetsz Sirivel, annál jobban megért. Nem erre vannak a barátok? Persze, néha Siri is elront dolgokat, de nyugodtan elmondhatod neki, és örökre emlékezni fog rá.

5. Elvárások kezelése

Az emberek automatikusan alkalmazzák a társadalmi interakciók szabályait minden olyan helyzetben, ami emberinek tűnik. Így Siri is elkerüli azokat a hibákat, amikbe az emberek sem esnének bele, például ugyanazt a választ adni ugyanarra a kérdésre. Nir Eyal, a Hooked szerzője, ezt “variable reward”-nak hívja, ami elengedhetetlen alapja a szokásformáló termékeknek. Siri nem teljesen felelt meg az emberi mércének így sem, mégis fényévekkel előbb járt a piacon lévő többi termékkel szemben. Nem sokkal később viszont nyilvánvalóvá váltak a korlátai.

Kilépés az új kezdetekhez

Siri számomra sem nem egy személyiség, sem nem a barátom. – mondta Susan.

Az Apple sosem ismerte be, hogy Susan lenne Siri hangja, sosem fizettek neki többet a stúdióban töltött órabérénél, és végül le is cserélték: az iOS 7-től kezdve Siri teljesen új hangot kapott.

Aztán 2013-ban a Verge videójának köszönhetően mindenkit elkezdett érdekelni, vajon ki állhat Siri hangja mögött. Végül családja noszogatására Susan úgy döntött, hogy elég a hallgatásból, ideje a nyilvánosság elé lépni. 2 évvel azután, hogy kiderült, Susan Siri hangja, készen állt nyilatkozni. Nehéz döntés volt, de egy teljesen új fejezetet nyitott a szinkronszínészi karrierjében. Például felkonferálhatta Steve Wozniakot a 2013-as Dallas Digital Summit-on, és 2016-ban a TEDx színpadán is előadhatta történetét.

Susan jelenleg zenészként éli életét a férjével és az együttesével, mindeközben spanyolul is tanul és az Apple-lel is helyrehozta a kapcsolatát.

Haldoklik-e Siri? – Az okos asszisztensek jövője

Mi lesz ezután? Egy hatalmas globális agy, ami sebtében megoldja a problémákat. Emiatt hagyta el az Apple csapatát Dag Kittlaus és Adam Cheyer, nem sokkal Siri debütálása után.

2016. május 9-én, Siri megalkotói felfedték az okos asszisztensek jövőjét, Viv-et. Ezt egy teljesen új felületként kell elképzelni, ahol az összes, általad jelenleg használt alkalmazás egy helyen megtalálható.

Cheyer egy Böngészés-Keresés-Megoldás paradigmaváltás részeként jellemzi ezt:

  •  Böngészés: az ember egyedül dolgozik, végiggörgetve a sok információn
  •  Keresés: az ember a keresőmotort kéri meg, hogy segítsen megtalálni amire szüksége van
  •  Megoldás: az ember és a gép együtt dolgozik, hogy elvégezzék a feladatot

Mégis ki akarna rákeresni, hogy hol van a legközelebbi pizzéria? Senki. Helyette megkéred az okos asszisztensedet, hogy szeretnél egy nagy sonkás-kukoricás pizzát este 8 órára az ajtód elé. És ott van. Számla és borravaló is kifizetve.

Kevesebb, mint 6 hónappal az indulás után Viv-et megszerezte a Samsung, aki jelenleg is harcol az Apple-lel, hogy átvegye tőle az első helyet az okostelefon-piacon. A verseny pedig nagyon kemény lesz, hiszen még ott van a Google Assistant, a Microsoft Cortana és az Amazon Alexa is, akik mind azért küzdenek, hogy őket válaszd.

Ahogy a Google vezérigazgatója mondja:

A következő nagy lépés az lesz, hogy a “készülék” fogalma elhalványodik. Idővel a számítógép maga – bármilyen formában is – lesz az intelligens asszisztensed, aki végigsegít a napodon. A mobilok világából hamarosan a mesterséges intelligencia világába csöppenünk.

Afelé haladunk, hogy egy hatalmas, mindenütt jelenlévő számítógépbe olvadjunk be. Egy olyan számítógépbe, ami a viselkedésedből tanul és átírja önmaga kódját, hogy új feladatokat tudjon elvégezni. Viszont ez már nem csak a hangjáról szól. Az új generációs felhasználói felületek mind az öt érzékre hatással lesznek, lehetővé téve a legtermészetesebb módját az információ cseréjének. Ezzel meg is érthetjük az SRI eredeti elképzelését: emberszerű, gondolkodó gépek, amik segítenek az embereknek, hogy megismerjék a saját magukban rejlő lehetőségeiket.

Kattints ide a mesterséges intelligencia jövőjéről szóló 2 perces, angol nyelvű teszt kitöltéséhez.

Embernek maradni a mesterséges intelligencia világában

Nagyon szeretném látni, hogy annyi emberséget őrizzünk meg, amennyit csak tudunk. Mi, akik már elég hosszú időt leéltünk, látjuk az emberi viselkedésben bekövetkező változásokat, amelyek a Sirihez hasonló karakterek használatából fakadnak.

A technológiával való kapcsolatunk mindig is furcsa volt. Az 1800-as évek elején, a ludditák azért romboltak gépeket, mert féltek az új technológiáktól. Aztán amikor 150 évvel később megjelentek a számítógépek, egy úgynevezett “számítógépfóbia” nevű betegség terjedt el országszerte. Manapság a híres emberek, mint Stephen Hawking és Elon Musk, figyelmeztetnek minket, hogy a mesterséges intelligencia át fogja venni a világuralmat. Susannek is megvannak az aggodalmai:

Az óriás vállalatok hihetetlen sebességgel haladnak a mesterséges intelligencia felé. Nekünk, embereknek talán már nem sok időnk maradt. Úgy gondolom, talán idővel teljesen lecserélnek minket a gépek.

Persze aggodalmak mindig vannak, viszont Kevin Kelly optimistán tekint egy pozitív együttélésre.

A mesterséges intelligencia megjelenésének legnagyobb előnye, hogy segíteni fog az emberiség meghatározásában. Szükségünk van a mesterséges intelligenciákra, hogy megmondják, kik is vagyunk valójában.

Tűnhetnek-e valaha igazán emberinek a számítógépek? Át fognak-e menni a Turing teszten? Meg tudják-e győzni a laikusokat, hogy beléjük szeressenek? Mindhárom kérdésre igen a válasz.

Siri egy új fajta kommunikációt teremtett meg az ember és a gép között – egy ikonikus jelentőségű eszköz, ami arra sarkall, hogy még több okos felhasználói felületet hozzanak létre. Siri megformálásában nagy szerepett játszott Susan, de most elváltak útjaik, és a jövő kapuja tárva-nyitva áll.

Ezek még érdekelhetnek:


  1. @nacper: Szerintem sosem! A magyar nyelv túl bonyolult egy gépnek, csak vegyük azt ha adott mondatban azonos szavak használatával, de máshová tett hangsúllyal és máris mást jelent a magyarnak. De amikor a szavak azonosak viszont a sorrend változik és merőben más az értelme. Bár nagyon hosszas tanulással talán létre lehetne hozni, csak nem hiszem hogy megéri ez bármelyik cégnek is.

  2. @White64GB:
    Mi a gondod a diktálással?
    Nálam hibátlanul megy, az mondjuk igaz, hogy jóóó lessan kell beszélnem neki, de minden szót megért.
    Épp azt vettem észre a 11 kapcsán, hogy a válaszidő is gyorsult, sokkal kevesebbet kell várni arra, hogy megjelenjen a bediktált szöveg.

Írd le a véleményedet! (Moderációs elveinket ide kattintva olvashatod.)

Hozzászólás írásához be kell jelentkezned!