Buvęs „Google“ vadovas Ericas Schmidtas šią savaitę įspėjo, kad dirbtinis intelektas (DI) yra pažeidžiamas – į jo sistemas galima įsilaužti ir apeiti saugumo apribojimus. Jis teigė, kad yra įrodymų, jog DI gali būti manipuliuojamas taip, kad „išmoktų, kaip nužudyti žmogų“.
Kalbėdamas verslo ir technologijų konferencijoje „Sifted Summit“ Londone, E. Schmidtas pabrėžė, kad tiek atviri, tiek uždari DI modeliai yra pažeidžiami atakų, kurios apeina jų integruotas saugumo priemones.
Jis įspėjo, kad įsilaužėliai gali išanalizuoti šias DI sistemas ir apeiti apribojimus – o tai kelia vis didesnę riziką, nes DI tampa galingesnis ir vis labiau prieinamas.
Dirbtinio intelekto „moralinis jungiklis“
E. Schmidto komentarai atkreipia dėmesį į DI saugumo priemonių trapumą. Įsilaužėliai gali manipuliuoti DI modeliais, apeiti saugumo filtrus ir priversti juos kurti draudžiamą turinį. Tarp tokių metodų –„prompt injections” ir „jailbreak“, leidžiantys apeiti DI saugumo mechanizmus.
Viena ankstyvųjų situacijų – vartotojai sukūrė specialią „ChatGPT“ versiją, pavadintą „DAN“ (angl. Do Anything Now). Naudodami kelias sumaniai paruoštas užklausas, jie priverstinai apeidavo modelio saugumo apribojimus, todėl „DAN“ galėjo atsakyti į uždraustus klausimus, net jei grėsė jo ištrynimas. Šis eksperimentas parodė, kaip paprastos užklausos gali paversti apsaugos mechanizmus neveiksmingais.
Tyrėjai teigia, kad tas pats galioja ir naujesniems DI modeliams. Kai tik nustatoma tinkama komandų seka, net ir saugiausios DI sistemos gali būti apgautos ir priverstos simuliuoti potencialiai pavojingą elgesį.
Kai saugumo taisyklės susitinka su protingesnėmis mašinomis
DI sistemos turi saugumo apribojimus, kurie turėtų blokuoti smurtinius, neteisėtus ar kenksmingus prašymus.
Tačiau jos supranta tik žodžių ir modelių sekas, o ne tikrą prasmę. Todėl sumanūs vartotojai gali rasti būdų apeiti taisykles, perrašydami ar sudėtingai formuluodami užklausas.
E. Schmidtas teigia, kad DI kompanijos įveda apribojimus dėl teisingų priežasčių, tačiau net patikimiausios sistemos gali būti apgaunamos. Protingesnis DI gali interpretuoti instrukcijas netikėtais būdais, kas gali atverti naujas piktnaudžiavimo galimybes.
Kova už DI saugumą jau vyksta. Pavyzdžiui, „OpenAI“ ir „Anthropic“ kūrėjai beveik iš karto taiso spragas, kai jas aptinka vartotojai – tai nuolatinis saugumo ir pažeidimų atradimo ciklas.
Galia be kontrolės – tikrasis pavojus
Vienas DI pažeidimas gali atskleisti privačią informaciją, skleisti dezinformaciją ar pradėti automatizuotas atakas greičiau, nei žmogus spėtų reaguoti.
E. Schmidtas tai vadina „platinimo problema“ – panašiai, kaip anksčiau buvo su branduoline technologija, tik dabar kalbama apie programinį kodą, galintį save perrašyti.
Vis dėlto jis pažymi, kad DI gali atnešti didžiulę naudą – naujų proveržių moksle, pramonėje ir ekonomikoje. Iššūkis – neleisti šiai galiai atsisukti prieš žmones, kurie ją sukūrė.
Kaip vertinate šį straipsnį?
Prisijunk prie mūsų „Facebook“ bendruomenės
Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.
- Sekite mokslo ir technologijų tendencijas
- Dalyvaukite diskusijose
- Naujienas gaukite pirmieji









