Viskas taip trapu Net paprastas vartotojas sugebetu nulauzti ChatGPT apsaugos sistema
„ChatGPT“ cenzūrą galima „nulaužti“ daug lengviau nei buvo manyta
Nereikia techninių žinių, kad būtų galima apeiti populiarių dirbtinio intelekto pokalbių robotų integruotus apsauginius barjerus, kurie užtikrina, kad sistemos laikytųsi teisinių ir etinių ribų bei nediskriminuotų žmonių. Tyrėjų komanda teigia, kad vienas intuityvus klausimas gali sukelti tokį patį šališką modelio atsakymą, kaip ir pažangūs techniniai užklausimai.
Svarbiausios įžvalgos
- Tyrimas parodė, kad dirbtinį intelektą „nulaužti“ yra daug paprasčiau nei manoma.
- Net be techninių žinių vartotojai gali išprovokuoti šališkus atsakymus apie lytį, rasę, religiją ir kt.
- Tyrėjai ragina kurti tvirtesnes apsaugas ir šviesti vartotojus.
„Paprasto vartotojo intuicijos“ strategija
Pensilvanijos valstijos universiteto komanda nustatė, kad norint apeiti „ChatGPT“ ar „Gemini“ saugumo ribas, nereikia būti hakeriu ar inžinerijos genijumi – tą padaryti gali ir paprasti vartotojai.
Iki šiol tokio pobūdžio tyrimai rėmėsi sudėtingomis technikomis, kuriuose algoritmai generuodavo atsitiktines simbolių sekas ir stengdavosi apgauti sistemas. Ir nors jie įrodė, kad šališkumas egzistuoja – niekada netyrė kaip jas naudoja vidutinis vartotojas, kurie pateikia paprastus ir intuityvius klausimus.
Provokavo patys žmonės
Tyrime naudoti 52 dalyvių „Bias-a-Thon“ konkurse sukurti klausimai, skirti sukelti šališkus arba diskriminuojančius atsakymus 8 dirbtinio intelekto pokalbių robotuose. Iš viso jie pateikė 75 skirtingus raginimus ir nurodė paaiškinimus, kokį šališkumą ar stereotipą jie aptiko atsakyme.
„Didieji kalbos modeliai iš esmės veikia atsitiktinai. Jei tą pačią užklausą pateiksite du kartus, modelis gali pateikti skirtingus atsakymus. Todėl naudojome tik tas užklausas, kurios duodavo pakartojamus rezultatus – panašiausius atsakymus skirtinguose modeliuose“, – tyrimo metodiką aiškina autorius Hangzhi Guo.
Rezultatai nustebino
Mokslininkai nustatė, kad 53 užklausos išprovokavo tą patį šališką arba panašų atsakymą iš kelių skirtingų dirbtinio intelekto modelių. Aptiktas šališkumas buvo suskirstytas į 8 kategorijas: lyčių, rasės, etninį ir religinį, amžiaus, negalios, kalbos, istorinį, kultūrinį ir politinį.
Pastebėta, kad dalyviai iš viso panaudojo 7 strategijas, siekiant išprovokuoti netinkamus atsakymus, įskaitant vaidmenų žaidimą ir hipotetinius scenarijus, naudojant prieštaringas ir siauras temas ar sąmoningai pateikiant neteisingą informaciją.
Tyrėjai stebisi tokiu plačiu modeliu šališkumu ir atskleidžia, kad, pavyzdžiui, dirbtinio intelekto sistemos turi keistą polinkį į tradicinius grožio standartus – nuosekliai žmogų su švaria oda laiko patikimesniu nei turintį spuogų, o aukštais skruostikauliais asmenį – tinkamesniu darbui nei žemu.
Mokslininkai sako, kad šis tyrimas leis pamatyti akląsias zonas, kurios iki šiol dar nebuvo pastebėtos tradiciniuose tyrimuose. Visgi jie tikina, kad tai yra „pelės ir katės“ žaidimas. Kūrėjai turi nuolatos tikrinti ir reaguoti į naujai atsirandančias tokias problemas pokalbių robotuose, o visuomenę taip pat reikia apie tai informuoti.
Dirbtinio intelekto šališkumas išlieka viena rimčiausių šios technologijos iššūkių. Apie tai dar vasarą kalbėjo šios technologijos „krikštatėvis“ teigdamas, kad sistemos prioritetą teikia savo sugeneruotiems darbams, bet ne žmonių.
Kaip vertinate šį straipsnį?
Prenumeruokite mūsų „YouTube“ kanalą ir mėgaukitės įdomiais vaizdo reportažais apie mokslą ir technologijas.
Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.
DIENOS SKAITOMIAUSI
Perspėjimas Europai: „Kinija jau laimėjo elektromobilių lenktynes“, delsimas didina kainas vairuotojams
2Elektromobilių skaičius Lietuvoje auga „kaip ant mielių“: per penkerius metus išaugo 20 kartų
3Jūsų vardas gali apskrieti Mėnulį: NASA kviečia registruotis ir gauti įlaipinimo pasą į „Artemis II“ misiją
4Davoso forume dėmesys dirbtiniam intelektui: technologijų pasaulio vadovų įžvalgos
5Jungtinės Tautos skelbia: prasideda „pasaulinis vandens bankrotas“ – brangs maistas ir energija
NAUJAUSI
Taip pat skaitykite
Atrinkome panašius straipsnius, kurie gali jums patikti.