„OpenAI“ paskelbė apie naują dirbtinio intelekto priežiūros metodą, siekiant kontroliuoti susirūpinimą dėl dirbtinio intelekto saugumo. Minčių grandinės (CoT – Chain of Thoughts) stebėjimas turėtų padėti užtikrinti sistemos samprotavimų skaidrumą ir patikimumą.
Pristatomas naujas dirbtinio intelekto priežiūros metodas
Kovo 10 d. bendrovė savo publikacijoje skelbia, kad „CoT“ pritaikymas leidžia stebėti, kaip dirbtinio intelekto modeliai suskaido sudėtingas užduotis į nuoseklias mintis, t. y. vadinamąją minčių grandinę.
Šis metodas gali tapti vienu iš nedaugelio įrankių ateities modelių kontrolėje, siekiant išvengti dirbtinio intelekto nenuspėjamumo.
„CoT“ stebėjimo metodas kūrėjams leis analizuoti dirbtinio intelekto sprendimų priėmimo procesą, aptinkant jų daromas klaidas, tokias kaip vartotojų apgaudinėjimas, pasidavimas, kai problema yra per sunki ar patiriami kodavimo užduočių iššūkiai.
Pavyzdžiui, kai kuriose programavimo užduočių scenarijuose dirbtinio intelekto modeliai gali ieškoti neleistinų būdų gauti geriausią rezultatą užuot ieškoję etiškų sprendimų, todėl „CoT“ turėtų padėti tai išsiaiškinti.
Naujovės vardan didesnio saugumo
„CoT“ samprotavimo modeliai „mąsto“ natūralia, žmonėms suprantama kalba, todėl toks stebėjimas leidžia lengviau identifikuoti netinkamą dirbtinio intelekto elgesį.
Be to, tokiu metodu dirbtinio intelekto sprendimų priėmimo procesas bus nagrinėjamas žingsnis po žingsnio. Tai padeda užtikrinti stebėseną, kad modeliai elgiasi skaidriai ir jų veikimo logika yra suprantama.
Čia naudingi gali būti ir kiti didelių kalbų modeliai (LLM), taip pat ir GPT-4o. Jie gali būti naudojami kaip stebėtojai, kurie įspėja apie bandymus manipuliuoti sistema, pavyzdžiui, kai yra siekiama neteisingai gauti geresnius rezultatus programavimo užduotyse ar išnaudoti sistemos silpnybes.
Kontrolė gali turėti pasekmių
„OpenAI“ pažymi, kad didesnė kontrolė gali turėti ir tam tikrų iššūkių. Bene svarbiausi jų yra susiję su modelių bandymu nuslėpti savo samprotavimus, o ne panaikinti žalingą elgesį.
Kitaip tariant, naujas „CoT“ metodas gali lemti tai, kad modeliai manipuliuos pateikdami atsakymus, t. y. jie atitiks žmogaus lūkestį, bet po jais slėpsis visai kitokie tikslai, kurie jau šįkart bus paslėpti ir sunkiai identifikuojami.
OpenAI supranta kokios pasekmės ateina su šia rizika, todėl ši sritis dar bus ateities tyrimų centre.