Բարդ միջավայրերում մարդիկ կարող են ավելի լավ հասկանալ խոսքի իմաստը, քան արհեստական ինտելեկտը, քանի որ մենք օգտագործում ենք ոչ միայն մեր ականջները, այլև աչքերը:
Օրինակ՝ մենք տեսնում ենք, թե ինչ-որ մեկի բերանը շարժվում է և կարող ենք ինտուիտիվ կերպով իմանալ, որ ձայնը, որը մենք լսում ենք, պետք է որ այդ մարդուց լինի:
Meta AI-ն աշխատում է արհեստական ինտելեկտի երկխոսության նոր համակարգի վրա, որը պետք է սովորեցնի արհեստական ինտելեկտին նաև սովորել ճանաչել նուրբ փոխկապակցվածությունը զրույցի ընթացքում տեսածի և լսածի միջև:
VisualVoice-ը սովորում է այնպես, ինչպես մարդիկ սովորում են տիրապետել նոր հմտություններին՝ հնարավորություն տալով աուդիո-վիզուալ խոսքի տարանջատումը՝ սովորելով տեսողական և լսողական ակնարկներ չպիտակավորված տեսանյութերից:
Մեքենաների համար սա ավելի լավ ընկալում է ստեղծում, մինչդեռ մարդու ընկալումը բարելավվում է:
Պատկերացրեք, որ կարող եք մասնակցել խմբային հանդիպումներին մետավերսում գործընկերների հետ ամբողջ աշխարհից, միանալով ավելի փոքր խմբերի հանդիպումներին, երբ նրանք շարժվում են վիրտուալ տարածքում, որի ընթացքում տեսարանի ձայնային արձագանքներն ու տեմբրերը կատարում են շրջակա միջավայրին համապատասխան:
Այսինքն, այն կարող է միաժամանակ ստանալ աուդիո, վիդեո և տեքստային տեղեկատվություն և ունի շրջակա միջավայրի ընկալման ավելի հարուստ մոդել, որը թույլ է տալիս օգտվողներին «շատ վայ» ձայնային փորձ ունենալ:
Հրապարակման ժամանակը` Հուլիս-20-2022