Stephen King vagy Ernest Hemingway? Megérkezett a mesterséges intelligencia, ami a szerző hangján olvassa fel a könyvet

2019. augusztus 14. szerda, 11:00 Kiss Franciska
A Kínában népszerű keresőmotor funkciót is nyújtó Sogou tegnap debütált egy világon egyedülálló megoldással, aminek köszönhetően nem csak a kedvenc író hangján olvassa fel a mesterséges intelligencia az adott művet, de a tökéletes hasonmását is képes magára ölteni.

Twitter megosztás
Cikk nyomtatása

A tegnapi nap során két élethű MI hasonmás debütált a China Online Literature+ konferencián: Yue Guan és Bu Xin Tian Shang Diao Xian Bing alkotó másai, amelyeket videofelvételekből gyúrtak össze a fejlesztők.

A Sogounak nem ez az első ilyen jellegű fejlesztése, ugyanis a cég nevéhez köthető a tavaly munkába állított két hírolvasó, akik abban különböznek kollégáiktól, hogy mesterséges intelligencia vezéreli őket. A két hírolvasó olyannyira bevált, hogy a kínai állami hírügynökség, a Xinhua a mai napig használja őket – erről ebben a cikkben írtunk bővebben.

A cél a „professzionális narráció”

Kína igencsak szányra kapott a Nyugathoz képest, már ami a hangoskönyveket illeti. A kínai ötleteket elemző és szemléző iiMedia várakozásai szerint, ez a piac hatalmas növekedés előtt áll, és már jövőre elérheti az évi 7,8 milliárd kínai jüant (kb.: 3 milliárd forint).

A speech-to-text technológia fejlődésének köszönhetően, szinte minden akadály eltűnt a hangoskönyvek új szintre lépése elől, így nem meglepő, hogy az első szintetikus hangok integrálása, ezáltal az alkotó „eredeti” hangján való felolvasás megvalósult - számolt be róla a BBC.

Ez utóbbi nagyon kapóra is jön a hangoskönyvgyártóknak, ugyanis az emberek sokkal jobban szeretik azokat a szóban forgó könyveket, amelyek „professzionális narrációt” kaptak, azaz egy híres színész, tiszteletben álló közszereplő vagy maga az író kölcsönzi a hangját a sztori felolvasásához.




Saját magad vagy pp Barack Obama olvassa fel a művet? Nem gond!

A gépi tanulás és a speech-to-text fejlődésének köszönhető még az is, hogy a digitalizált hangok még élethűbbé váltak, és ezáltal a gyártók még szélesebb kört képesek megszólítani.

Például a Lyrebird Dashboard, ami a mesterséges hangok realisztikus megalkotásában utazik, lehetővé tette az ügyfelei számára, hogy egyedi "hang avatárokat" készítsenek a saját hangjuk egyperces felvételéből.

A cég weboldalán egyébként meghallgatható Barack Obama az USA volt elnökének, és Donald Trumpnak, az Amerikai Egyesült Államok jelenlegi elnökének a hangja is, amit szintén hangmintából, gépi tanulással állítottak elő.

Eközben a londoni tech start-up, a DeepZen szerint fenti technológiának az előretörése és alkalmazása szinte végtelen mennyiségű variációban elérhető hangoskönyv létrehozását segítheti elő, nem beszélve arról, hogy az előállítási költséget és időt, körülbelül 90 százalékkal csökkenti.