„Microsoft“ DI įrankis gali paversti nuotraukas tikroviškais vaizdo įrašais, kuriuose žmonės kalba ir dainuoja

Microsoft DI irankis gali paversti nuotraukas tikroviskais vaizdo irasais kuriuose zmones kalba ir dainuoja

„Microsoft“ DI įrankis gali paversti nuotraukas tikroviškais vaizdo įrašais, kuriuose žmonės kalba ir dainuoja

„Microsoft Research Asia“ pristatė naują eksperimentinį dirbtinio intelekto įrankį „VASA-1“, kuris, paėmęs nejudančią žmogaus nuotrauką (arba jo piešinį) ir esamą garso failą, gali realiuoju laiku sukurti tikrovišką kalbantį veidą.

Jis gali generuoti veido išraiškas ir galvos judesius pagal esamą nejudantį vaizdą ir atitinkamus lūpų judesius, kad atitiktų kalbą ar dainą. Projekto puslapyje tyrėjai įkėlė daugybę pavyzdžių, o rezultatai atrodo pakankamai gerai, kad galėtų apgauti žmones ir priversti juos manyti, jog jie yra tikri.

Technologija, kuria galima piktnaudžiauti

Nors atidžiau įsižiūrėjus į pavyzdžius lūpų ir galvos judesiai vis dar gali atrodyti šiek tiek robotiški ir nesinchronizuoti, vis tiek aišku, kad šia technologija galima piktnaudžiauti, norint lengvai ir greitai sukurti giliai suklastotus tikrų žmonių vaizdo įrašus.

Patys tyrėjai supranta šią galimybę ir nusprendė neskelbti „internetinės demonstracinės versijos, API, produkto, papildomos įgyvendinimo informacijos ar bet kokių susijusių pasiūlymų“, kol nebus tikri, kad jų technologija „bus naudojama atsakingai ir laikantis tinkamų taisyklių“.

Tačiau jie nepasakė, ar planuoja įgyvendinti tam tikras apsaugos priemones, kad atitinkami vartotojai negalėtų jų naudoti nešvariais tikslais, pavyzdžiui, kurti netikrą pornografiją ar dezinformacijos kampanijas.

Manoma, kad naujas DI įrankis gali turėti daug privalumų

Tyrėjai mano, kad jų technologija, nepaisant galimo piktnaudžiavimo, turi daug privalumų. Jie teigė, kad ji gali būti naudojama siekiant didinti švietimo lygybę, taip pat pagerinti prieinamumą žmonėms, turintiems bendravimo problemų, galbūt suteikiant jiems prieigą prie avataro, kuris gali bendrauti už juos.

Jie taip pat sakė, kad „VASA-1“ gali būti naudojamas programose, kurios suteikia prieigą prie dirbtinio intelekto personažų, su kuriais žmonės gali kalbėtis.

Kartu su pranešimu paskelbtame dokumente teigiama, kad „VASA-1“ buvo apmokytas naudojant „VoxCeleb2“ duomenų rinkinį, kuriame yra „daugiau nei 1 mln. 6 112 įžymybių pasisakymų“, kurie buvo išskirti iš „YouTube“ vaizdo įrašų.

Nors įrankis buvo apmokytas iš realių veidų, jis veikia ir su meninėmis nuotraukomis, pavyzdžiui, Monos Lizos, kurią tyrėjai sujungė su Anne Hathaway virusinės Lil Wayne’o dainos „Paparazzi“ garso failu. Vaizdo įrašas toks puikus, kad jį verta pažiūrėti, net jei abejojate, ar tokia technologija gali būti naudinga.

Patiko? Nusiųsk draugui: