Kompanija „Microsoft“ sukūrė naują savo neuroninio kodeko kalbos modelio „Vall-E“ iteraciją, kuri pranoksta ankstesnius bandymus natūralumo, kalbos tvirtumo ir kalbėtojo panašumo požiūriu. Tai pirmasis tokio pobūdžio modelis, kuris pasiekė žmogaus kalbos lygiavertiškumą poroje populiarių lyginamųjų testų ir yra toks tikroviškas, kad „Microsoft“ neplanuoja suteikti prieigos visuomenei.
„Vall-E“ yra daug našesnis
Naudojant „Vall-E“ pagrindus, į naująjį dirbtinio intelekto balso įrankį integruoti du pagrindiniai patobulinimai, kurie labai pagerina našumą. Sugrupuotų kodų modeliavimas leidžia „Microsoft“ geriau organizuoti kodekų kodus, todėl trumpėja sekų ilgis, o tai padidina išvadų darymo greitį ir padeda įveikti iššūkius, susijusius su ilgų sekų modeliavimu.
Tuo tarpu su pasikartojimu susijusio mėginių ėmimo metu peržiūrimas pradinis branduolio mėginių ėmimo procesas, kad dekoduojant būtų ieškoma ženklų pasikartojimo. „Microsoft“ teigimu, šis procesas padeda stabilizuoti dekodavimą ir užkerta kelią begalinio ciklo problemai, kuri buvo originalioje „Vall-E“ versijoje.
„Microsoft“ išbandė „Vall-E 2“, naudodama „LibriSpeech“ ir VCTK duomenų rinkinius, ir abu juos puikiai įveikė. Kai teigiama, kad dirbtinio intelekto įrankis pasiekė žmogiškąjį lygiavertiškumą, turima omenyje, kad „Vall-E 2“ pasiekė geresnių rezultatų už pagrindinius pavyzdžius patikimumo, panašumo ir natūralumo požiūriu. Kitaip tariant, įrankis gali sukurti natūralią kalbą, kuri yra beveik identiška originaliam kalbėtojui.
Naujasis įrankis turi daug pranašumų
Kompanija „Microsoft“ pasidalijo dešimtimis „Vall-E 2“ pavyzdžių, kuriuos galima rasti projekto santraukos puslapyje. Iš tiesų „Vall-E 2“ pavyzdžiai yra neįtikėtinai tikroviški ir neatskiriami nuo žmogaus kalbėtojo. Dirbtinio intelekto įrankis netgi įvaldo tokias subtilybes, kaip pabrėžti tinkamą žodį sakinyje, kaip tai nesąmoningai daro žmonės kalbėdami.
„Microsoft“ teigė, kad ‚Vall-E 2“ yra griežtai mokslinių tyrimų projektas, ir pridūrė, kad neplanuoja šios technologijos įtraukti į plataus vartojimo produktą ar išleisti įrankio plačiajai visuomenei.
Be to, pažymėta, kad ši priemonė gali būti netinkamai naudojama, pavyzdžiui, apsimetant konkrečiu asmeniu arba suklastojant balso atpažinimo duomenis.
Vis dėlto kompanija mano, kad ši priemonė galėtų būti taikoma švietimo, vertimo, prieinamumo, žurnalistikos, savarankiškai sukurto turinio ir pokalbių robotų bei kitose srityse.