Počítače už dokážu rozpoznať reč takmer rovnako dobre ako ľudia

Tomáš Švec | 19.03.2017 07:00
umelý mozog, umelá inteligencia, počítačový... Foto:
Ilustračné foto
Umelá inteligencia sa pri rozpoznávaní stovky slov v hovorovej reči pomýli už len sedemkrát. IBM sa pochválilo novým rekordom, ktorý zatiaľ nikto neprekonal.

Koľko slov z hovorovej reči vo vašom rodnom jazyku správne zachytíte? Koľkokrát počas dialógu musíte druhú stranu požiadať nech zopakuje čo práve povedala? Možno ste sa nad tým vôbec nikdy nezamýšľali, ale podľa výskumov človek prepočuje v priemere jedno až dve slová z dvadsiatich. Počas krátkej, päťminútovej, konverzácie ich môže človek prepočuť až osemdesiat. Napriek tomu dokáže bez problémov porozumieť rozhovoru a pochopiť základné myšlienky. Počítače tak úspešné dlho neboli, no ich schopnosti sa každým rokom posúvajú míľovými krokmi vpred. Dnes už možno dokonca tvrdiť, že dokážu prepísať reč do textu s takmer rovnakou presnosťou ako človek. Rozdiel je však zatiaľ v porozumení a hľadaní súvislostí medzi slovami, ktoré už pri chýbajúcom fragmente môžu stratiť zmysel.

Počítače sa pri rozpoznávaní reči mýlia už len minimálne

Spoločnosť IBM sa v minulom roku pochválila veľmi vysokou úspešnosťou rozpoznávania reči s chybovosťou 6,9 percenta, teda takmer 7 chybných slov zo sto. Tento rok bol pre firmu ešte úspešnejším. V marci firma oznámila, že chybovosť klesla až na 5,5 percenta. Žiadnej inej firme sa zatiaľ tento rekord nepodarilo prekonať. IBM využilo kombináciu viacerých technológií a strojového učenia. „Výnimočnou vlastnosťou nášho modelu je, že sa učí nie len z pozitívnych ale aj negatívnych vzoriek, vďaka čomu je pri opakovaných úlohách a rovnakých rečových vzoroch úspešnejší,“ upresnili vedci.

Vedci upravené algoritmy na rozpoznávanie reči testovali pri prepise bežnej konverzácie. Rovnaká metóda na testovanie chybovosti je vo výskumoch využívaná už viac ako dve desaťročia. Cieľom je dosiahnuť paritu s človekom, ktorá bola doposiaľ uvádzaná na úrovni chybovosti 5,9 percenta. Výskumníci z IBM však tvrdia, že hranica parity je ešte o čosi nižšia – 5,1 percenta. V takom prípade majú vedci pred sebou ešte veľmi náročnú úlohu. „Štandardné testy vždy neodhalia variácie a komplexnosť skutočných dát. Napríklad rôzne súbory dát môžu byť viac či menej citlivé na niektoré aspekty testov a výsledok je potom veľmi závislý na tom, akým spôsobom je hodnotená úspešnosť u ľudí,“ myslí si Yoshua Bengio z kanadského inštitútu MILA (Montreal Institute for Learning Algorithms). Inak povedané, inú úspešnosť budú mať ľudia s bežnými schopnosťami, inú zas tlmočníci a profesionálni zapisovatelia.

Najnáročnejšia je spontánna konverzácia na rôzne témy

Testovať rozpoznávanie reči je možné aj inou, menej štandardnou, metódou, ktorá je viac podobná spontánnemu rozhovoru, ktorý nemá presne vymedzenú štruktúru. Veci túto metódu nazývajú „CallHome“ a testujú pri nej iný typ lingvistických dát, ktoré obsahujú napríklad rozhovor medzi členmi rodiny na témy, ktoré nie sú ohraničené a nemusia sa týkať jedinej oblasti záujmu. Pri takýchto, oveľa náročnejších testovaniach, je úspešnosť algoritmov už len 90-percentná. IBM sa priblížilo k chybovosti 10,3 percenta, čo je však stále priveľa v porovnaní so schopnosťami bežných ľudí, u ktorých sa má chybovosť pohybovať blízko hranice 6,8 percenta.

© AUTORSKÉ PRÁVA VYHRADENÉ