Viskas taip trapu Net paprastas vartotojas sugebetu nulauzti ChatGPT apsaugos sistema

„ChatGPT“ cenzūrą galima „nulaužti“ daug lengviau nei buvo manyta

Agnė Vaišnoraitė 2025-11-06

REKLAMA

Nereikia techninių žinių, kad būtų galima apeiti populiarių dirbtinio intelekto pokalbių robotų integruotus apsauginius barjerus, kurie užtikrina, kad sistemos laikytųsi teisinių ir etinių ribų bei nediskriminuotų žmonių. Tyrėjų komanda teigia, kad vienas intuityvus klausimas gali sukelti tokį patį šališką modelio atsakymą, kaip ir pažangūs techniniai užklausimai.

Svarbiausios įžvalgos

Tyrimas parodė, kad dirbtinį intelektą „nulaužti“ yra daug paprasčiau nei manoma.
Net be techninių žinių vartotojai gali išprovokuoti šališkus atsakymus apie lytį, rasę, religiją ir kt.
Tyrėjai ragina kurti tvirtesnes apsaugas ir šviesti vartotojus.

„Paprasto vartotojo intuicijos“ strategija

Pensilvanijos valstijos universiteto komanda nustatė, kad norint apeiti „ChatGPT“ ar „Gemini“ saugumo ribas, nereikia būti hakeriu ar inžinerijos genijumi – tą padaryti gali ir paprasti vartotojai.

Iki šiol tokio pobūdžio tyrimai rėmėsi sudėtingomis technikomis, kuriuose algoritmai generuodavo atsitiktines simbolių sekas ir stengdavosi apgauti sistemas. Ir nors jie įrodė, kad šališkumas egzistuoja – niekada netyrė kaip jas naudoja vidutinis vartotojas, kurie pateikia paprastus ir intuityvius klausimus.

REKLAMA

Provokavo patys žmonės

Tyrime naudoti 52 dalyvių „Bias-a-Thon“ konkurse sukurti klausimai, skirti sukelti šališkus arba diskriminuojančius atsakymus 8 dirbtinio intelekto pokalbių robotuose. Iš viso jie pateikė 75 skirtingus raginimus ir nurodė paaiškinimus, kokį šališkumą ar stereotipą jie aptiko atsakyme.

„Didieji kalbos modeliai iš esmės veikia atsitiktinai. Jei tą pačią užklausą pateiksite du kartus, modelis gali pateikti skirtingus atsakymus. Todėl naudojome tik tas užklausas, kurios duodavo pakartojamus rezultatus – panašiausius atsakymus skirtinguose modeliuose“, – tyrimo metodiką aiškina autorius Hangzhi Guo.

Rezultatai nustebino

Mokslininkai nustatė, kad 53 užklausos išprovokavo tą patį šališką arba panašų atsakymą iš kelių skirtingų dirbtinio intelekto modelių. Aptiktas šališkumas buvo suskirstytas į 8 kategorijas: lyčių, rasės, etninį ir religinį, amžiaus, negalios, kalbos, istorinį, kultūrinį ir politinį.

REKLAMA

Pastebėta, kad dalyviai iš viso panaudojo 7 strategijas, siekiant išprovokuoti netinkamus atsakymus, įskaitant vaidmenų žaidimą ir hipotetinius scenarijus, naudojant prieštaringas ir siauras temas ar sąmoningai pateikiant neteisingą informaciją.

Tyrėjai stebisi tokiu plačiu modeliu šališkumu ir atskleidžia, kad, pavyzdžiui, dirbtinio intelekto sistemos turi keistą polinkį į tradicinius grožio standartus – nuosekliai žmogų su švaria oda laiko patikimesniu nei turintį spuogų, o aukštais skruostikauliais asmenį – tinkamesniu darbui nei žemu.

Mokslininkai sako, kad šis tyrimas leis pamatyti akląsias zonas, kurios iki šiol dar nebuvo pastebėtos tradiciniuose tyrimuose. Visgi jie tikina, kad tai yra „pelės ir katės“ žaidimas. Kūrėjai turi nuolatos tikrinti ir reaguoti į naujai atsirandančias tokias problemas pokalbių robotuose, o visuomenę taip pat reikia apie tai informuoti.

Dirbtinio intelekto šališkumas išlieka viena rimčiausių šios technologijos iššūkių. Apie tai dar vasarą kalbėjo šios technologijos „krikštatėvis“ teigdamas, kad sistemos prioritetą teikia savo sugeneruotiems darbams, bet ne žmonių.

Kaip vertinate šį straipsnį?

NAUJIENOS IŠ INTERNETO

Prenumeruokite mūsų „YouTube“ kanalą ir mėgaukitės įdomiais vaizdo reportažais apie mokslą ir technologijas.

5 PAVOJINGIAUSIOS VIETOS ŽEMĖJE, KURIAS SUKŪRĖ MOKSLAS

5 TECHNOLOGIJOS, KURIOS ATSIRADO „NETYČIA“

5 MOKSLINIAI EKSPERIMENTAI, KURIE SUKRĖTĖ PASAULĮ

ROSVELO ATEIVIO ISTORIJA: KAS NUTIKO 1947-AISIAIS?

„ELEKTROS DIETA“: MASINĖ 1910-ŲJŲ BAIMĖS PSICHOZĖ

KAS IŠRADO ELEKTRĄ? 6 MOKSLININKAI, KURIEMS TURIME BŪTI DĖKINGI

Prenumeruoti Žiūrėti visus video reportažus

Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.

Sekite mokslo ir technologijų tendencijas

Dalyvaukite diskusijose

Naujienas gaukite pirmieji

Sekti „Facebook" Peržiūrėti naujausius įrašus

1 700+ narių jau seka mūsų puslapį, laukiame tavęs!

Žymos:

Agnė Vaišnoraitė Ryšių su visuomene magistrė, Technaujienos.lt redaktorė ir žurnalistė. Turite klausimų? Rašykite mums: redakcija@technaujienos.lt.

DIENOS SKAITOMIAUSI

Lietuvos pasieniečių vadas: Baltarusija kuria pavojingą schemą prie mūsų sienos

Lietuviams gerai pažįstamas produktas per 48 valandas sumažino cholesterolį – poveikis išliko savaitėms

„Netflix“ įsigijo Beno Afflecko dirbtinio intelekto startuolį – filmų kūrėjams atsiras naujų įrankių

BYD pristatė elektromobilio bateriją, kuriai įkrauti pakaks vos kelių minučių

„ChatGPT“ gavo galingą atnaujinimą: pristatytas „GPT-5.4 Thinking“ modelis – kuo jis išsiskiria?

NAUJAUSI

„Netflix“ įsigijo Beno Afflecko dirbtinio intelekto startuolį – filmų kūrėjams atsiras naujų įrankių

Agnė Vaišnoraitė

Ryšių su visuomene magistrė, Technaujienos.lt redaktorė ir žurnalistė. Turite klausimų? Rašykite mums: redakcija@technaujienos.lt.

DIENOS SKAITOMIAUSI

Lietuvos pasieniečių vadas: Baltarusija kuria pavojingą schemą prie mūsų sienos

Gynyba Ir Saugumas

Rokas 2026-03-05
Prieš 2 d.
Lietuviams gerai pažįstamas produktas per 48 valandas sumažino cholesterolį – poveikis išliko savaitėms

Mokslas Ir It

Agnė 2026-03-03
Prieš 5 d.
„Netflix“ įsigijo Beno Afflecko dirbtinio intelekto startuolį – filmų kūrėjams atsiras naujų įrankių

Verslas Ir Technologijos

Aistė 2026-03-07
Prieš 21 val.

LABIAUSIAI ĮTRAUKIANČIOS

7 milijonų ląstelių tyrimas atskleidė, kaip iš tikrųjų sensta žmogaus kūnas

Mokslas Ir It

Rokas 2026-03-02
Prieš 5 d.
Mokslininkai įvardijo „auksinę“ miego trukmę – ji gali sumažinti diabeto riziką

Mokslas Ir It

Agnė 2026-03-05
Prieš 3 d.
Turtuolių elitas moka iki 300 000 eurų už skubų skrydį iš Artimųjų Rytų

Gynyba Ir Saugumas

Rokas 2026-03-02
Prieš 5 d.

Taip pat skaitykite

Atrinkome panašius straipsnius, kurie gali jums patikti.

Dirbtinis Intelektas

Apklausa: kas trečias darbe nuolat naudoja dirbtinį intelektą

Aistė | 2026-03-06

Dirbtinis Intelektas

Naujas DI modelis jau kuria DNR sekas – sintetinė gyvybė gali tapti realybe

Rokas | 2026-03-06

Verslas Ir Technologijos

Kaunas dviem dienoms taps jaunųjų technologijų kūrėjų sostine:„Tech_Champ 2026“ kviečia spręsti realius MedTech, DigiTech ir DI iššūkius

Rokas | 2026-03-06

Dirbtinis Intelektas

Teismas nusprendė: dirbtiniu intelektu sukurtas menas nėra intelektinė nuosavybė

Rokas | 2026-03-05

Dirbtinis Intelektas

Radikali „OpenAI“ investuotojo prognozė: šiandien gimusiems vaikams ateityje gali nebereikėti dirbti

Agnė | 2026-03-05

Gynyba Ir Saugumas

„OpenAI“ svarsto darbą su NATO: dirbtinis intelektas gali pasiekti aljanso tinklus

Agnė | 2026-03-04

Dirbtinis Intelektas

Mokslininkai sukūrė į el. laiško priedą telpantį DI modelį, atkartojantį beždžionės regėjimą

Agnė | 2026-03-04

Dirbtinis Intelektas

Ar „ChatGPT“ gali būti jūsų terapeutas? Mokslininkai įspėja apie rimtas rizikas

Rokas | 2026-03-03

Verslas Ir Technologijos

6G jau pakeliui: pirmieji komerciniai tinklai gali pasirodyti 2029-aisiais

Agnė | 2026-03-03

Dirbtinis Intelektas

„Honor“ pristatė robotizuotą telefoną: jau greitai plėsis mūsų įrenginių galimybės

Agnė | 2026-03-02

Mokslas ir IT

Naujas DI modelis jau kuria DNR sekas – sintetinė gyvybė gali tapti realybe

Verslas ir technologijos

„Netflix“ įsigijo Beno Afflecko dirbtinio intelekto startuolį – filmų kūrėjams atsiras naujų įrankių

Dirbtinis intelektas

Apklausa: kas trečias darbe nuolat naudoja dirbtinį intelektą

Išmanieji įrenginiai

Ekstremalus „HONOR Magic V6“ testas parodė, kiek iš tikrųjų gali atlaikyti sulankstomas telefonas

Auto / Moto

BYD pristatė elektromobilio bateriją, kuriai įkrauti pakaks vos kelių minučių

Kriptovaliutos

Prieš 14 metų į bitkoiną investavęs 7 tūkst. JAV dolerių, dabar – milijardierius

Kosmosas

NASA sutaisė „Artemis II“ Mėnulio misijos raketą: skelbia, kas toliau

Kibernetinis saugumas

Naujas pavojus internete: kenkėjiškos reklamos aplenkė el. pašto sukčiavimo atvejus

Gynyba ir saugumas

Lietuvos pasieniečių vadas: Baltarusija kuria pavojingą schemą prie mūsų sienos

Vaizdo žaidimai

Startuoja pirmas toks „Minecraft“ serveris Lietuvoje: žaisti kviečia žinomi „YouTube“ kūrėjai

„ChatGPT“ cenzūrą galima „nulaužti“ daug lengviau nei buvo manyta

„Paprasto vartotojo intuicijos“ strategija

Provokavo patys žmonės

Rezultatai nustebino

Kaip vertinate šį straipsnį?

5 PAVOJINGIAUSIOS VIETOS ŽEMĖJE, KURIAS SUKŪRĖ MOKSLAS

5 TECHNOLOGIJOS, KURIOS ATSIRADO „NETYČIA“

5 MOKSLINIAI EKSPERIMENTAI, KURIE SUKRĖTĖ PASAULĮ

ROSVELO ATEIVIO ISTORIJA: KAS NUTIKO 1947-AISIAIS?

„ELEKTROS DIETA“: MASINĖ 1910-ŲJŲ BAIMĖS PSICHOZĖ

KAS IŠRADO ELEKTRĄ? 6 MOKSLININKAI, KURIEMS TURIME BŪTI DĖKINGI

Žymos:

DIENOS SKAITOMIAUSI

NAUJAUSI

„Netflix“ įsigijo Beno Afflecko dirbtinio intelekto startuolį – filmų kūrėjams atsiras naujų įrankių

Apklausa: kas trečias darbe nuolat naudoja dirbtinį intelektą

Naujas DI modelis jau kuria DNR sekas – sintetinė gyvybė gali tapti realybe

BYD pristatė elektromobilio bateriją, kuriai įkrauti pakaks vos kelių minučių

„ChatGPT“ gavo galingą atnaujinimą: pristatytas „GPT-5.4 Thinking“ modelis – kuo jis išsiskiria?

DIENOS SKAITOMIAUSI

LABIAUSIAI ĮTRAUKIANČIOS

Taip pat skaitykite

Apklausa: kas trečias darbe nuolat naudoja dirbtinį intelektą

Naujas DI modelis jau kuria DNR sekas – sintetinė gyvybė gali tapti realybe

Kaunas dviem dienoms taps jaunųjų technologijų kūrėjų sostine:„Tech_Champ 2026“ kviečia spręsti realius MedTech, DigiTech ir DI iššūkius

Teismas nusprendė: dirbtiniu intelektu sukurtas menas nėra intelektinė nuosavybė

Radikali „OpenAI“ investuotojo prognozė: šiandien gimusiems vaikams ateityje gali nebereikėti dirbti

„OpenAI“ svarsto darbą su NATO: dirbtinis intelektas gali pasiekti aljanso tinklus

Mokslininkai sukūrė į el. laiško priedą telpantį DI modelį, atkartojantį beždžionės regėjimą

Ar „ChatGPT“ gali būti jūsų terapeutas? Mokslininkai įspėja apie rimtas rizikas

6G jau pakeliui: pirmieji komerciniai tinklai gali pasirodyti 2029-aisiais

„Honor“ pristatė robotizuotą telefoną: jau greitai plėsis mūsų įrenginių galimybės

Patikrintos technologijų naujienos iš Lietuvos ir viso pasaulio.