Umelá inteligencia toho dokáže veľmi veľa. Napríklad aj prečítať text v rôznych jazykoch. Spoločnosť Meta (materská spoločnosť Facebooku) zašla dokonca tak ďaleko, že umelú inteligenciu naučila čítať text v rôznych jazykoch s mimoriadnou presnosťou. A nielen to. Nový prevodník textu na hlas s názvom Voicebox dokáže dokonca napodobniť akýkoľvek hlas len z krátkej, niekoľkosekundovej nahrávky. Ak nehovoríte po anglicky, nemecky, španielsky či poľsky, za pomoci umelej inteligencie môžete svoje druhé, virtuálne, “ja” naučiť čítať text aj v inom, než rodnom jazyku.
Bližšie k nesmrteľnosti?
Niekto by povedal, že vďaka podobným pokročilým funkciám môže byť človek nesmrteľný. Len si to predstavte – ak máte staré nahrávky svojho zosnulého dedka, vďaka umelej inteligencii ho môžete oživiť a nechať, nech vašim deťom číta večer rozprávky. Je to možno pritiahnuté za vlasy, no Meta tvrdí, že jeho generátor hlasu je to najlepšie čo na trhu existuje. Voicebox je vraj tak pokročilý, že dokáže generovať hlas s rovnakou ľahkosťou a rýchlosťou, ako dokáže ChatGPT generovať text a Dall-E obrázky.
“Prostredníctvom kontextového učenia môže Voicebox syntetizovať reč s akýmkoľvek zvukovým štýlom tak, že ako vstup použije referenčný zvuk požadovaného štýlu a cieľový text, ktorý sa má syntetizovať. Vytvorená reč znie koherentne s referenčným hlasom vrátane všetkým jeho vlastností,” upresňuje Meta. Zjednodušene povedané, učiacemu sa systému stačí aj krátka nahrávka na to, aby dokázal vytvoriť takmer identický hlas a intonáciu použitú pri čítaní dlhšieho textu. Meta zatiaľ nástroj nesprístupnila verejnosti, no na stránkach projektu demonštrovala, čo všetko jej umelá inteligencia dokáže.
‚Naučí‘ vás hovoriť aj cudzími jazykmi
Okrem napodobnenia hlasu dokáže Voicebox z nahrávky odstrániť šum, štekanie psa či rôzne iné rušivé elementy. Takisto dokáže editovať samotný obsah. Napríklad vtedy, ak originálna nahrávka pôsobí mätúco. Voicebox dokáže obsah nahrávky upraviť bez toho, aby ju musel človek nanovo nahrávať. Takisto si poradí aj s prenosom hlasu a textu medzi rôznymi jazykmi. “Napríklad je možné vygenerovať anglickú nahrávku len za pomoci povelu vo francúzštine. Jedného dňa by tak mohol každý s vlastným hlasom hovoriť ľubovoľným jazykom,” dodáva Meta, ktorá pri vývoji systému využila až 60-tisíc hodín anglicky nahovorených audiokníh a 50-tisíc hodín audiokníh v piatich ďalších jazykoch – v nemčine, španielčine, portugalčine, poľštine a francúzštine. Výskumníkom sa tiež podarilo znížiť chybovosť pri správnom čítaní slov a viet z 10,9 na 5,2-percenta.