“Microsoft” cəmi üç saniyəlik nümunə əsasında istənilən şəxsin səsini təqlid edə bilən VALL-E adlı mətni nitqə çevirən neyron şəbəkəsini yaradıb.
Digər insanların səslərinin müxtəlif vəziyyətlərdə necə səsləndiyini bilən neyroşəbəkə eyni situasiyalarda “donorun” nitqinin necə səslənəcəyini təxmin edir. Beləliklə, VALL-E təbii intonasiyalarla nümunə daşıyıcısının səsini çox real şəkildə təqlid edə bilir.
VALL-E-nin yaradılması zamanı EnCodec audio sıxılma texnologiyası və ümumi müddəti təxminən 60 min saat olan 7 mindən çox insanın səs yazıları kitabxanasından istifadə edilib. Hər iki məhsul “Meta” korporasiyasına məxsusdur.
“Microsoft” şirkəti hesab edir ki, yeni neyron şəbəkə mətn əsasında audio məzmunun yaradılması zamanı faydalı olacaq. Xüsusilə, VALL-E tamamilə orijinal məzmun yaratmaq üçün GPT-3 mətn generatoru ilə birlikdə istifadə edilə bilər.