Microsoft DI irankis gali paversti nuotraukas tikroviskais vaizdo irasais kuriuose zmones kalba ir dainuoja
„Microsoft“ DI įrankis gali paversti nuotraukas tikroviškais vaizdo įrašais, kuriuose žmonės kalba ir dainuoja
„Microsoft Research Asia“ pristatė naują eksperimentinį dirbtinio intelekto įrankį „VASA-1“, kuris, paėmęs nejudančią žmogaus nuotrauką (arba jo piešinį) ir esamą garso failą, gali realiuoju laiku sukurti tikrovišką kalbantį veidą.
Jis gali generuoti veido išraiškas ir galvos judesius pagal esamą nejudantį vaizdą ir atitinkamus lūpų judesius, kad atitiktų kalbą ar dainą. Projekto puslapyje tyrėjai įkėlė daugybę pavyzdžių, o rezultatai atrodo pakankamai gerai, kad galėtų apgauti žmones ir priversti juos manyti, jog jie yra tikri.
Technologija, kuria galima piktnaudžiauti
Nors atidžiau įsižiūrėjus į pavyzdžius lūpų ir galvos judesiai vis dar gali atrodyti šiek tiek robotiški ir nesinchronizuoti, vis tiek aišku, kad šia technologija galima piktnaudžiauti, norint lengvai ir greitai sukurti giliai suklastotus tikrų žmonių vaizdo įrašus.
Patys tyrėjai supranta šią galimybę ir nusprendė neskelbti „internetinės demonstracinės versijos, API, produkto, papildomos įgyvendinimo informacijos ar bet kokių susijusių pasiūlymų“, kol nebus tikri, kad jų technologija „bus naudojama atsakingai ir laikantis tinkamų taisyklių“.
Tačiau jie nepasakė, ar planuoja įgyvendinti tam tikras apsaugos priemones, kad atitinkami vartotojai negalėtų jų naudoti nešvariais tikslais, pavyzdžiui, kurti netikrą pornografiją ar dezinformacijos kampanijas.
Manoma, kad naujas DI įrankis gali turėti daug privalumų
Tyrėjai mano, kad jų technologija, nepaisant galimo piktnaudžiavimo, turi daug privalumų. Jie teigė, kad ji gali būti naudojama siekiant didinti švietimo lygybę, taip pat pagerinti prieinamumą žmonėms, turintiems bendravimo problemų, galbūt suteikiant jiems prieigą prie avataro, kuris gali bendrauti už juos.
Jie taip pat sakė, kad „VASA-1“ gali būti naudojamas programose, kurios suteikia prieigą prie dirbtinio intelekto personažų, su kuriais žmonės gali kalbėtis.
Kartu su pranešimu paskelbtame dokumente teigiama, kad „VASA-1“ buvo apmokytas naudojant „VoxCeleb2“ duomenų rinkinį, kuriame yra „daugiau nei 1 mln. 6 112 įžymybių pasisakymų“, kurie buvo išskirti iš „YouTube“ vaizdo įrašų.
Nors įrankis buvo apmokytas iš realių veidų, jis veikia ir su meninėmis nuotraukomis, pavyzdžiui, Monos Lizos, kurią tyrėjai sujungė su Anne Hathaway virusinės Lil Wayne’o dainos „Paparazzi“ garso failu. Vaizdo įrašas toks puikus, kad jį verta pažiūrėti, net jei abejojate, ar tokia technologija gali būti naudinga.
Kaip vertinate šį straipsnį?
Prenumeruokite mūsų „YouTube“ kanalą ir mėgaukitės įdomiais vaizdo reportažais apie mokslą ir technologijas.
Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.
DIENOS SKAITOMIAUSI
Mokslininkai atskleidė, kaip COVID-19 paveikė mažų vaikų smegenų vystymąsi
2Pagaliau aišku, ar 2032 m. asteroidas trenksis į Mėnulį – NASA paskelbė naujausius skaičiavimus
32025-ieji – rekordiniai investicijų metai Rytų Europai: Lietuva tarp aktyviausių regiono rinkų
4Nutekėję failai atskleidžia pirmojo sulankstomo „iPhone“ dizainą: štai kaip gali atrodyti naujasis „Apple“ telefonas
5Paaiškėjo naujos detalės apie NASA DART misijos smūgį į asteroidą – eksperimentas turėjo didesnį poveikį nei manyta
NAUJAUSI
Taip pat skaitykite
Atrinkome panašius straipsnius, kurie gali jums patikti.