Čínska technologická spoločnosť Alibaba Group prichádza s revolučnou novinkou vo svete umelej inteligencie. Jej nový model umelej inteligencie R1-Omni dokáže analyzovať a interpretovať emócie ľudí na základe videa. Tento krok predstavuje významný posun v oblasti počítačového videnia a otvára dvere k prepracovanejším technológiám, ktoré rozumejú nielen tomu, čo ľudia hovoria, ale aj ako sa cítia.
Vidí viac než len slová
Doteraz sa umelá inteligencia spoliehala najmä na analýzu textu – teda na to, čo používateľ napíše alebo povie. Modely ako ChatGPT od OpenAI dokážu rozpoznať sarkazmus, iróniu či emočný podtón v texte, no nevidia výraz tváre ani gestá. Alibaba chce túto dieru na trhu pokryť vlastným spôsobom. V rámci demonštrácie model R1-Omni analyzoval videozáznam a dokázal nielen identifikovať emócie osoby, ale aj opísať jej oblečenie a okolie. Tento model je vylepšenou verziou predchádzajúceho projektu HumanOmni.
Aj keď podobné technológie už existujú – napríklad Tesla využíva AI na detekciu ospalých vodičov – Alibaba posúva koncept ďalej tým, že ho ponúka ako open-source. Inými slovami, ktokoľvek si ho môže zadarmo stiahnuť z platformy Hugging Face a experimentovať s jeho možnosťami.
Súperenie s OpenAI aj čínskou konkurenciou
Alibaba sa v posledných mesiacoch dostáva čoraz viac do povedomia v odbornom svete umelej inteligencie. Konkurencia je však silná aj v lokálnom prostredí, v ktorom najviac zaujal čínsky startup DeepSeek, ktorý podľa niektorých testoch prekonal aj ChatGPT. Len nedávnom pritom Alibaba oznámila strategické partnerstvo s Apple, vďaka ktorému bude dodávať svoje AI do iPhonov na čínskom trhu.
Do toho všetkého prichádza OpenAI s modelom GPT-4.5, ktorý sľubuje lepšiu schopnosť pochopiť emočné nuansy v texte. Rozdiel je však v tom, že GPT-4.5 je platený – za jeho používanie si musia zákazníci zaplatiť minimálne 20 dolárov mesačne (alebo 200 dolárov za Pro verziu). Alibaba však ide opačnou cestou a svoju AI ponúka úplne zadarmo.
Emocionálna inteligencia v AI: Čo bude ďalej?
Hoci R1-Omni ešte nie je schopný reagovať na emócie v reálnom čase, jeho schopnosť ich identifikovať je dôležitým krokom smerom k umelým asistentom, ktorí budú vedieť „vnímať“ náladu používateľa. Predstavte si chatboty, ktoré rozpoznajú frustráciu zákazníka, alebo smartfóny, ktoré vedia, že ste smutní a ponúknu vám povzbudzujúcu správu.
Podľa generálneho riaditeľa Alibaba Eddieho Wua je cieľom spoločnosti dosiahnuť umelú všeobecnú inteligenciu (AGI) – teda AI, ktorá rozumie svetu podobne ako človek. Schopnosť vnímať emócie je jedným z kľúčových míľnikov na tejto ceste.