Kasmet dirbtinis intelektas suteikia mums vis didesnį funkcionalumą ir daug daugiau galimybių. Tačiau paprastai jos būna susijusios su kasdienėmis užduotimis ir įvairių darbų palengvinimu. Tuo tarpu ši istorija, kurią papasakojo dirbtinio intelekto entuziastas ir „Ars Technica“ portalo autorius Benjaminas Edvardsas (Benj Edwards), rodo, jog dabar dirbtinis intelektas gali netgi savotiškai prikelti žmogų iš mirusiųjų.
Kaip viskas prasidėjo?
Benjaminas pasakoja, kad vaikystėje, jei norėdavo eksperimentuoti su kuo nors techniniu, jo tėtis padėdavo tai padaryti. Kartu jie patyrė dešimtis techninių nuotykių, tačiau jie nutrūko, kai 2013 m. jis mirė nuo vėžio. Dėl naujo dirbtinio intelekto vaizdų generatoriaus paaiškėjo, kad jam ir jo tėčiui dar liko vienas nuotykis.
Neseniai anoniminis dirbtinio intelekto entuziastas atrado, kad vaizdų sintezės modelis, pavadintas „Flux“, gali labai tiksliai atkurti kieno nors rašyseną, jei yra specialiai tam apmokytas.
Jis nusprendė paeksperimentuoti su šiuo metodu, naudodamasis tėčio paliktais rašytiniais dienoraščiais. Rezultatai jį pribloškė ir iškėlė gilių klausimų apie etiką, žiniasklaidos artefaktų autentiškumą ir asmeninę paties rašto prasmę.
Be to, jis taip pat labai džiaugėsi, kad vėl gali pamatyti savo tėčio rašyseną. Užfiksuota neuroninio tinklo, dalis jo gyvens dinamiškai, kaip tai buvo neįmanoma prieš dešimtmetį. Praėjo nemažai laiko nuo jo mirties, todėl Benjaminas teigė, jog nebejaučia sielvarto. Jo požiūriu, tai yra kažko didingo, kas susiję su jo mirusiu tėčiu, šventė – atgaivinimas savito jo rašymo būdo ir to, ką tai byloja apie tai, kas jis buvo.
Benjaminas pripažino, kad taip įtikinamai nukopijuoti kieno nors rašyseną gali kelti pavojų. Jis jau daug metų įspėja apie artėjančią erą, kai skaitmeninės medijos kūrimas ir mėgdžiojimas bus visiškai sklandus ir nereikalaus jokių pastangų, tačiau vis tiek beprotiška pirmą kartą pamatyti, kaip veikia kažkas, kas primena magiją.
Norisi sakyti, kad žengiame į naują pasaulį, kuriame negalima pasitikėti visomis medijos formomis, bet iš tiesų mums pateikiamas dar vienas įrodymas to, kas visada buvo: žiniasklaida nėra savaime teisinga, o apie informacijos patikimumą visada sprendėme iš žurnalistikos priemonių reputacijos.
Šį žiniasklaidos kūrimo kintamumą puikiai iliustruoja „Flux“ požiūris į rašto sintezę. Vienas įdomiausių „Flux“ sprendimo aspektų yra tai, kad gaunamas rašysenos tekstas yra dinamiškas. Dažniausiai nėra dviejų visiškai vienodų raidžių. Toks neuroninis tinklas, koks valdo „Flux“, yra didžiulis tikimybių ir aproksimacijų tinklas, todėl netobulas rašysenos srautas idealiai tinka.
Be to, skirtingai nei teksto procesoriaus šriftas, rašyseną galite natūraliai įterpti į dirbtinio intelekto sukurtas scenas, pavyzdžiui, ženklus, karikatūras, skelbimų lentas, kreidines lentas, televizijos vaizdus ir daugelį kitų.
Verta paminėti, kad nei Benjaminas, nei asmuo, neseniai atradęs, kad „Flux“ gali atkurti rašyseną, nebuvo pirmieji, kurie naudojo neuroninius tinklus rašysenai klonuoti – tyrimai tęsiasi jau daugelį metų, tačiau pastaruoju metu tapo beveik trivialiai nebrangu tai daryti naudojant debesijos paslaugą arba vartotojo lygio aparatinę įrangą, jei turite rašysenos pavyzdžių.
Kaip buvo atkurta mirusio tėvo rašysena?
Benjaminas pasakojo, jog kasdien rašo technologijų naujienas, todėl nuolat stebi naujausias inovacijas dirbtinio intelekto vaizdų kūrimo srityje.
Praėjusio mėnesio pabaigoje, naršydamas „Reddit“, pastebėjo žinutę iš dirbtinio intelekto vaizdų kūrimo mėgėjo, pasivadinusio „fofr“, kuris norėjo, jog būtų vadinamas „Foffer“. Fofferis paskelbė, kad, naudodamasis archyvuose internete rastomis skenuotomis nuotraukomis, atkūrė J. R. R. Tolkieno rašyseną.
Iš pradžių Fofferis Tolkieno modelį pateikė naudotis kitiems, bet po dviejų dienų savanoriškai jį pašalino, kai ėmė nerimauti, kad žmonės gali juo piktnaudžiauti ir kurti rašyseną J. R. R. Tolkieno stiliumi. Tačiau jo atrasta rašysenos klonavimo technika tapo viešai žinoma.
Fofferio proveržis buvo suvokimas, kad „Flux“ galima pritaikyti naudojant specialią techniką, vadinamą „LoRA“ (sutrumpintai – „low-rank adaptation“), kad būtų galima labai tikroviškai imituoti kieno nors rašyseną.
„LoRA“ – tai modulinis metodas, kuriuo „Flux“ galima tiksliai sureguliuoti ir išmokyti naujų sąvokų, kurių nebuvo pradiniame mokymo duomenų rinkinyje – pradiniame paveikslėlių ir iliustracijų rinkinyje, kurį jo kūrėjas naudojo mokydamas, kaip sintetinti vaizdus.
„LoRA“ yra moduliniai, nes modelius (dažnai vadinamus tiesiog „Loras“) galima maišyti ir derinti su „Flux“ baziniu modeliu. Pavyzdžiui, galite derinti „LoRA“ modelį, skirtą tam tikram rašysenos tipui, su „LoRA“ modeliu, išmokytu pagal detalias popierinių sąsiuvinių nuotraukas, ir tuo pačiu metu gauti skirtingus rezultatus.
„Nenoriu skatinti žmonių kopijuoti kitų žmonių rašyseną, ypač parašus“, – sakė Fofferis interviu tą dieną, kai nuėmė Tolkieno modelį.
Tačiau jis taip pat pridūrė, kad padės Benjaminui pabandyti pritaikyti jo metodą mažiau žinomam asmeniui ir papasakos, kaip jis galėtų nebrangiai apmokyti savo atvaizdo sintezės modelį dirbtinio intelekto debesų kompiuterijos prieglobos svetainėje „Replicate“.
„Manau, kad turėtumėte tai išbandyti. Manau, kad nustebsite, kaip tai smagu ir paprasta“, – sakė jis.
Kodėl Benjamino tėčio rašysena buvo idealus pasirinkimas?
Šiandieniniai generatyviniai dirbtinio intelekto modeliai yra imitacijos ir vertimo meistrai. Jiems galima pateikti duomenų rinkinį, ir jie gali sukurti tikėtinas jo kopijas arba išversti sąvokas (pvz., vizualinius stilius) į naujus scenarijus. Benjaminas nusprendė pabandyti apmokyti pasirinktinį „LoRA“. Tačiau pirmiausia jam reikėjo pavyzdžių – tikros rašysenos mokomojo duomenų rinkinio, kurį galėtų pateikti pasirinktiniam modeliui.
Benjaminas pasakojo, kad jo rašysena yra siaubinga. Nuo pradinės mokyklos iki koledžo už savo kankinančią, neįskaitomą rašyseną daugelyje projektų jis gaudavo nulius. Todėl jis pagalvojo apie žmogų, kuriuo žavėjosi ir kuris turėjo nuostabią rašyseną.
Jo tėtis buvo elektronikos inžinierius ir visą gyvenimą rašė išskirtiniu būdu didžiosiomis raidėmis, kurį Benjaminas iškart atpažindavo. Daugelis vyresnio amžiaus inžinierių yra linkę rašyti didžiosiomis raidėmis, ir viena iš teorijų teigia, kad taip yra todėl, kad jie išmoko rengti technines schemas popieriuje, kur didžiosios raidės yra įprastas ženklinimo būdas. Kažką panašaus daro ir architektai, nes didžiąsias raides lengva skaityti.
„Ar žinai, kodėl tavo tėtis taip rašė?“ – paklausė mama, kai Benjaminas papasakojo jai apie savo planus. „Todėl, kad jis nekentė savo rašysenos ir darbe kopijavo savo viršininką. Viršininkas taip pat buvo jo mentorius – kitas inžinierius – ir jis mokėsi iš jo, nes neturėjo pakankamo formalaus išsilavinimo.“
Benjamino tėvas taip pat mėgo rašyti dienoraščius ir užrašus, todėl jis juos turi iki šiol. Kai jis pirmą kartą papasakojo savo mamai, kuriai šiuo metu yra 76 metai, apie rašysenos klonavimo naudojant dirbtinį intelektą koncepciją, ji ištarė: „Puiku nusikaltėliams!“ Bet tuomet Benjaminas jai pasakė, kad eksperimentuoja su tėčio rašysena, nes jam ji patinka ir jis nori leisti ja naudotis kitiems. „Imkis to“, – pasakė ji.
Benjaminas teigė, jog jo manymu, jei tėtis būtų gyvas, jis vis tiek būtų savanoriškai sutikęs. Jo tėtis mėgo technologijas. Jis supažindino Benjaminą su kompiuteriais ir skatino mokytis apie juos. Benjaminas mano, kad jo tėvas greičiausiai būtų dėkingas už pagerbimą ir už tai, kad tapo nauja dirbtinio intelekto istorijos dalimi.
O kadangi jo tėtis mirė, Benjaminas nebijojo, kad kas nors galėtų pasinaudoti jo rašymo stiliumi ir apgaulingai ar nesąžiningai jį imituoti, todėl jis tapo natūraliu kandidatu klonuoti rašyseną su „Flux“. Taigi, tuomet jis ėmėsi darbo.
Mokymo procesas
Benjaminas teigė, kad mokyti „Flux“ atkurti rašyseną buvo stebėtinai lengva. Šis metodas panašus į neseniai atrastą metodą, leidžiantį žmonėms į dirbtinio intelekto generuojamus vaizdus įterpti pasirinktinius šriftus. Norėdamas apmokyti „Flux“, jis naudojo Ostri „flux-dev-lora-trainer“, patalpintą Replicate.com.
Tai debesijos procesas, kuris kainuoja apie 2-4 JAV dolerius už vieną mokymą. Kitaip tariant, klonuoti žmogaus rašyseną debesyje gali kainuoti vos 2 JAV dolerius. Mokymo procesas taip pat gali vykti kompiuteryje, naudojant vartotojo lygio „RTX 3090“ GPU vos per kelias valandas.
Norėdami mokyti „LoRA“, turite paruošti pavyzdžius kaip vaizdus. Savo tėvo užrašų knygelėse jis rado gerų jo rašysenos didžiosiomis raidėmis pavyzdžių ir nuskenavo apie 30 pavyzdžių, tada parašė 30 antraščių, kuriose tiksliai perrašė, kas parašyta kiekviename paveikslėlyje.
Jis stengėsi išvalyti vizualines rašysenos klaidas (naudodamasis „Photoshop“ programos klonavimo teptuku), kurios galėtų atrodyti blogai, jei būtų atkurtos. Kai kurios klaidos prideda autentiškumo, tačiau akivaizdu, jog niekas nenorėtų, kad dirbtinio intelekto modelis dėl mokymo duomenų dažnai sugadintų vieną iš raidžių.
Paruošęs duomenis, Benjaminas įkėlė juos į „Replicate“ ir paspaudė „train“, tada palaukė apie 30 minučių. Kai viskas buvo baigta, jis turėjo „LoRA“, kurį galėjo atsisiųsti ir paleisti vietoje arba paleisti debesyje „Replicate“ serveriuose (tai kainuoja apie 2-3 centus už kiekvieną sukurtą vaizdą).
Kai mokymo procesas baigėsi, jis buvo mažumėlę susijaudinęs, bet įvedė pavyzdį, ką norėtų, kad ši netikra jo tėvo versija parašytų. Tai buvo pirmasis rezultatas.
Taip pat Benjaminas atsisiuntė modelį ir paleido jį su „RTX 3060“, o vėliau ir su „3090“, naudodamas kvantuotą (supaprastintą ir sumažinto dydžio) „Flux.1 dev“ (pilnas techninis modelio pavadinimas) versiją.
Rezultatai buvo panašūs, tačiau dėl sumažinto sudėtingumo jie nebuvo tokie išsamūs. Todėl beveik visus vaizdus „Replicate“ programoje jis sukūrė naudodamas visą „Flux.1 dev AI“ modelį.
Galiausiai, norėdamas palyginti rezultatus, Benjaminas apmokėti tris „LoRA“: vieną su 1 000 mokymo žingsnių, vieną su 2 500 žingsnių ir vieną su 4 000 žingsnių. Tokiu būdu sužinojo, kad „LoRA“ neabejotinai tiksliau užfiksavo daugiau jo tėvo rašysenos detalių, kai buvo žengta 2 500 žingsnių, palyginti su 1 000 žingsnių.
Be to, nors duomenų rinkinyje nebuvo mažųjų raidžių teksto (nors su juo eksperimentavo atskirai, naudodamas ketvirtą „LoRA“), 2 500 žingsnių modelis, palyginti su 1 000 žingsnių modeliu, galėjo labai tiksliai nustatyti, kaip atrodė jo tėčio mažosios raidės.
Taip pat, rezultatų kokybė su maždaug 30 rašto pavyzdžių nepastebimai pagerėjo atlikus 4 000 mokymo žingsnių. Apskritai, jei pateikiate daugiau pavyzdžių, mokymo procesui norisi suteikti daugiau žingsnių, kad jis juos suprastų. Tačiau per daug žingsnių gali sukelti vadinamąjį „perteklinį pritaikymą“, o tai reiškia, kad sąvoka buvo išmokyta taip, kad priartėjo prie įsiminimo, o ne stiliaus perkėlimo.
Per didelis pritaikymas gali sumažinti modelio gebėjimą pritaikyti rašyseną naujoms situacijoms, pavyzdžiui, taikyti ją kreidinei lentai, o ne liniuotam popieriaus lapui, esančiam mokymo duomenų vaizduose.
Atkurtas „rašytinis balsas“
Benjaminas pasakojo, kad pajuto džiaugsmą vėl išvydęs naujai susintetintus jo tėčio rašysenos pavyzdžius. Jie jam skaitėsi kaip tėvo „rašytinis balsas“, ir jautė šilumą vien matydamas raides.
Apmokius dirbtinio intelekto modelį, Benjaminui patiko kurti kvailas jo tėčio žinutes, tarsi jis iš tikrųjų jam rašytų iš anapusinio pasaulio. Jis atrado, kad „Flux“ gali atvaizduoti tėvo rašyseną įvairiose medijos formose, įskaitant neoninius ženklus, tatuiruotes ir net debesis danguje.
Taip pat jis rado praktinį šio naujojo rašysenos generatoriaus panaudojimo būdą, kurį jam pasiūlė jo kolegė Ashley Belanger:
„Galėtum naudoti tėčio rašyseną ir gaminti naujas lipnias etiketes byloms ar saugojimo dėžutėms, kurias atsispausdintum, kad kasdien turėtum nedidelį priminimą apie tėtį.“
Kitas praktinis panaudojimas gali būti skirtas žmogui, kuris turi negalią, dėl kurios nebegali rašyti. Toks asmuo potencialiai galėtų apmokyti „LoRA“ pagal savo ankstesnės rašysenos pavyzdžius ir naudoti ją sintetinant naujus rašysenos pavyzdžius savo „rašytiniu balsu“.
Nesėkmingi bandymai
Net ir naudojant Benjamino aprašytas nuoseklias kartotes, rezultatai ne visada būna tobuli. Kartais „Flux“ pakartoja arba iškraipo žodžius, o kartais vietoje jų sufabrikuojami nauji žodžiai. Ypač sudėtingos yra ilgos teksto ištraukos.
Kartais gali prireikti kelių kartų, kad rezultatai būtų teisingi, tačiau apskritai didžiausią įspūdį daro trumpos teksto ištraukos. Ir apskritai, palyginti su ankstesniais vaizdų sintezės modeliais, kurie net bendro teksto neperteikdavo teisingai, „Flux“ dažniausiai pateikia neįtikėtinai tikslius rezultatus.
Etiniai aspektai ir galimas piktnaudžiavimas
Pasaulyje dėl apgaulingo balso ir išvaizdos klonavimo naudojant dirbtinį intelektą jau kyla teisinių problemų. Taigi, nors galimybė atkurti Benjamino mylimo tėvo rašyseną suteikia įdomių techninių galimybių, šis metodas taip pat kelia svarbių etinių klausimų.
Negalima ignoruoti technologijos piktnaudžiavimo galimybių, ypač kai kalbama apie asmenų rašysenos kopijavimą be jų sutikimo.
Gali būti, kad kas nors, turintis žalingų motyvų, galėtų surinkti daug kieno nors rašysenos pavyzdžių ir išmokyti dirbtinio intelekto rašysenos modelį, kad galimai apgaudinėtų kitus arba sukčiautų.
Tačiau tai ne visada gali būti praktiška, nebent asmuo turi internete rastų rašysenų archyvą, kaip Tolkienas. Kaip kažkas „Reddit“ parašė atsakydamas į Tolkieno rašysenos kloną:
„Turėtumėte gauti daugybę jų parašų ar rašysenos pavyzdžių. Tokiu atveju beveik visada garantuota, kad kaltininkas yra jums artimas žmogus“.
Verta pabrėžti, kad daugumoje teisinių sistemų suklastotų dokumentų ar parašų kūrimas siekiant neteisėtos naudos (vadinamas klastojimu) yra nusikaltimas. Žmonės klastojo rašyseną ar parašus tiesiogine prasme tūkstantmečius, dar gerokai iki generatyvinio dirbtinio intelekto eros.
Pasak knygos apie klastojimo istoriją, Romos imperijoje dar 80 m. pr. m. e. buvo sukurti įstatymai, draudžiantys klastoti dokumentus. Kaip ir naujausi technologijų pramonės pavyzdžiai, kai žmonės galiausiai iš naujo išranda jau egzistuojančius dalykus, tam tikriems žmonėms taip pat gali kilti pagunda galimus nusikaltimus, susijusius su dirbtinio intelekto kuriama apgaule, laikyti nepataisomai naujais.
Dauguma šių klausimų susiję su gyvaisiais, tačiau taip pat turėtų būti akivaizdu, kad mirę žmonės negali duoti sutikimo klonuoti jų rašyseną. Bene geriausia sutikimo forma, kurią turime tokiu atveju, yra teisėtų paveldėtojų sutikimas.
Kita vertus, neilgai trukus neabejotinai bus taikomi ir kiti klonavimo metodai, tačiau naujas reguliavimas gali būti nereikalingas: klastojimas jau dabar yra neteisėtas, nepriklausomai nuo to, ar tai atlieka dirbtinis intelektas, ar ne. Vis dėlto galime didinti informuotumą apie tai, kad šis metodas egzistuoja.
Taip pat yra kultūrinių pasekmių. Jau dabar gyvename pasaulyje, kuriame dėl dirbtinio intelekto sintezės tiesa ir melas persipina. Benjaminas tai pavadino „kultūriniu singuliarumu“ – tašku, kai faktai ir fikcija žiniasklaidoje taps neatskiriami.
Dalis Benjamino tėvo gyvens ir toliau
Dėl šios patirties į galvą ateina ir filosofiniai klausimai. Ką reiškia, jei mašina gali rašyti taip, kaip Benjamino tėtis? Benjamino teigimu, kažkur neuronų tinklo svoriuose yra apytikris jo tėčio rašymo įpročių įvertinimas. Ar tai reiškia, kad ten kažkokiu būdu yra dalelė jo? Taigi, kyla filosofinis klausimas – jei ji atrodo kaip antis ir rašo didžiąsias raides kaip antis, ar ji yra antis?
Be abejo, veikia mechanizmai, visiškai nepanašūs į Benjamino tėvo protą, tačiau taisykles, kurios kažkada leido jo smegenims vadovauti jo rankai rašyti, kažkokiu būdu išstudijavo ir atkartojo mašina. Tai atrodo šiek tiek keista ir neįprasta. Tačiau turime pripažinti, kad netolimoje ateityje dirbtinio intelekto suteikiamos galimybės galiausiai mūsų tiesiog nebestebins ir taps įprasta kasdienybės dalimi.