Microsoft dokáže naklonovať akýkoľvek hlas len z trojsekundovej nahrávky

Microsoft dokáže vzkriesiť aj zosnulých. Jeho umelá inteligencia zvládne z krátkej zvukovej nahrávky naklonovať akýkoľvek hlas.

25.03.2023 07:00
Microsoft, VALL-E, umelá inteligencia,... Foto:
Syntetizátor reči dokáže s využitím umelej inteligencie vytvoriť kópiu hlasu len z 3-sekundovej nahrávky.
debata (9)

Microsoft finančne podporuje nielen spoločnosť OpenAI, ktorá vyvíja umelú inteligenciu ChatGPT, ale stovky miliónov dolárov investuje do jej vývoja aj vo vlastnej réžii. Najnovšie sa firma pochválila novým modelom umelej inteligencie s označením VALL-E, ktorý funguje na báze hlasového syntetizátora. Inak povedané, pokročilá technológia dokáže analyzovať krátku zvukovú nahrávku a napodobniť hlas, ktorý sa v nej nachádza. Následne tento hlas môže byť využitý pri predčítaní textu v ľubovoľnej dĺžke a s rôznou intonáciou. Microsoft vo svojej správe uvádza, že VALL-E dokáže naklonovať akýkoľvek hlas, a zároveň zachovať aj jeho vlastnosti vrátane emočného podfarbenia, rýchlosti či intonácie.

Vývojári očakávajú, že zdokonalený syntetizátor reči by mohol byť použitý v aplikáciách na prevod textu na reč, doplnkovú úpravu reči a vytváranie zvukového obsahu, akým sú napríklad podcasty. Syntetizátor by tiež mohol časom obohatiť aj četbota ChatGPT, ktorý by dokázal vygenerovaný text aj prečítať vybraným hlasom. „Počas trénovania umelej inteligencie sme pracovali so zvukovými nahrávkami v dĺžke 60-tisíc hodín, ktoré sú niekoľko stonásobne dlhšie než nahrávky, s ktorými operujú iné učiace sa systémy. VALL-E je tak možné použiť na syntetizovanie vysokokvalitnej personalizovanej reči vygenerovanej iba z 3-sekundového záznamu ľubovoľného rečníka,“ uvádzajú výskumníci vo svojej tlačovej správe.

Microsoft takisto zverejnil ukážky syntetizovanej reči s využitím umelej inteligencie VALL-E.

© Autorské práva vyhradené

9 debata chyba
Viac na túto tému: #Microsoft #umelá inteligencia #ChatGPT #syntetizátor reči