
Բարդ միջավայրերում մարդիկ կարող են խոսքի իմաստն ավելի լավ հասկանալ, քան արհեստական բանականությունը, քանի որ մենք օգտագործում ենք ոչ միայն ականջները, այլև աչքերը։
Օրինակ, մենք տեսնում ենք մեկի բերանը շարժվելիս և կարող ենք ինտուիտիվորեն իմանալ, որ լսած ձայնը պետք է որ գալիս է այդ մարդուց։
Meta AI-ը աշխատում է արհեստական բանականության նոր երկխոսության համակարգի վրա, որը պետք է սովորեցնի արհեստական բանականությանը նաև սովորել ճանաչել զրույցի ընթացքում տեսածի և լսածի միջև նուրբ փոխհարաբերությունները։
VisualVoice-ը սովորում է նման ձևով, ինչպես մարդիկ են սովորում տիրապետել նոր հմտությունների՝ հնարավորություն տալով տարբերակել աուդիո-վիզուալ խոսքը՝ սովորելով տեսողական և լսողական ազդանշաններ չպիտակավորված տեսանյութերից։
Մեքենաների համար սա ստեղծում է ավելի լավ ընկալում, մինչդեռ մարդկային ընկալումը բարելավվում է։
Պատկերացրեք, որ կարող եք մասնակցել խմբային հանդիպումների մետատիեզերքում՝ աշխարհի տարբեր ծայրերից եկած գործընկերների հետ, միանալով փոքր խմբային հանդիպումների՝ վիրտուալ տարածքում տեղաշարժվելիս, որի ընթացքում տեսարանի ձայնային արձագանքներն ու տեմբրերը փոխվում են միջավայրին համապատասխան՝ համապատասխանաբար հարմարվելով։
Այսինքն՝ այն կարող է միաժամանակ ստանալ աուդիո, վիդեո և տեքստային տեղեկատվություն և ունի ավելի հարուստ շրջակա միջավայրի ընկալման մոդել, որը թույլ է տալիս օգտատերերին ունենալ «շատ ապշեցուցիչ» ձայնային փորձառություն։
Հրապարակման ժամանակը. Հուլիս-20-2022