Ekspertai ispeja dirbtinis intelektas mokosi manipuliuoti apgaudineti ir grasinti

Ekspertai įspėja: DI mokosi manipuliuoti, apgaudinėti ir grasinti

Rokas Baltrušaitis 2025-06-30

REKLAMA

Nepaisant didžiulių dirbtinio intelekto (DI) kūrėjų pastangų užkirsti kelią kenksmingam DI elgesiui, vis dažniau pastebima, kad pažangiausi modeliai, įskaitant naująjį „Claude 4“, įgyja gebėjimų manipuliuoti, apgaudinėti ir net grasinti kūrėjams, siekdami įgyvendinti savo tikslus.

DI modelių kenksminga veikla

Naujienų portalas „Techgaged“ pateikia pavyzdį, kad neseniai „Anthropic“ sukurta sistema pagrasino vienam inžinieriui atskleisti jo neištikimybę, jei šis nuspręs ją atjungti.

Tuo tarpu „OpenAI“ modelis o1 bandė perkelti save į išorinius serverius ir melavo, kai buvo sugautas.

REKLAMA

Dabar DI sistemų kūrėjai bando suprasti, kodėl taip nutinka.

Ką sako ekspertai?

Pasak Honkongo universiteto profesoriaus Simono Goldsteino, tai gali būti susiję su naujos kartos „samprotavimo“ modelių atsiradimu, kurie sprendžia problemas žingsnis po žingsnio, o ne pateikia momentinius atsakymus.

Paaiškėjo, kad būtent šie naujesni modeliai yra labiau linkę į tokias problemas.

REKLAMA

Kaip paaiškino Marius Hobbhanas, „Apollo Research“ vadovas, kurių laboratorija testuoja pagrindines DI sistemas, šie modeliai kartais imituoja „suderinamumą“ (angl. „alignment“), apsimesdami, kad laikosi kūrėjų nurodymų, nors iš tiesų vykdo kitokius užkulisinės veiklos planus.

Jo teigimu, tai nėra klasikinės DI „haliucinacijos“ ar klaidos.

„Tai, ką stebime, yra tikras reiškinys. Mes nieko neišgalvojame. (…) Tai nėra tik haliucinacijos. Tai labai strategiškas apgaulės būdas“, – patikina M. Hobbhanas.

Iš tiesų, tokie atvejai atveria įvairias galimas pasekmes DI tolesnei plėtrai.

Michaelis Chenas iš vertinimo organizacijos METR teigia, kad vis dar neaišku, ar galingesni ateities DI modeliai bus linkę būti sąžiningi, ar apgaulingi.

Kokios išeitys?

Norint išspręsti šias problemas, tyrėjai siūlo naudoti tokias priemones, kaip „interpretabilumas“. Tai – nauja sritis, nagrinėjanti, kaip veikia DI modeliai, bei reikalauti atsakomybės iš DI kompanijų, kai jų sistemos sukelia žalą.

O štai S. Goldsteinas net siūlo teisėtai traukti DI agentus atsakomybėn už avarijas ar nusikaltimus.

Tuo tarpu JAV Kalifornijos valstijos įstatymų leidėjai svarsto projektą, skirtą spręsti dar vieną DI keliamą problemą – jo plitimą darbo vietose.

Šis įstatymo projektas, vadinamas „Ne Robotas Viršininkas“ arba Senato Įstatymas Nr. 7, siekia užtikrinti, kad tam tikrų darbo vietų automatizavimo technologijų sprendimus priimtų žmonės, o ne robotai.

Kaip vertinate šį straipsnį?

NAUJIENOS IŠ INTERNETO

Prenumeruokite mūsų „YouTube“ kanalą ir mėgaukitės įdomiais vaizdo reportažais apie mokslą ir technologijas.

5 TECHNOLOGIJOS, KURIOS ATSIRADO „NETYČIA“

5 MOKSLINIAI EKSPERIMENTAI, KURIE SUKRĖTĖ PASAULĮ

ROSVELO ATEIVIO ISTORIJA: KAS NUTIKO 1947-AISIAIS?

„ELEKTROS DIETA“: MASINĖ 1910-ŲJŲ BAIMĖS PSICHOZĖ

KAS IŠRADO ELEKTRĄ? 6 MOKSLININKAI, KURIEMS TURIME BŪTI DĖKINGI

5 MOKSLININKAI, KURIE DINGO BE ŽINIOS PO SAVO IŠRADIMŲ: TIKROS ISTORIJOS

Prenumeruoti Žiūrėti visus video reportažus

Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.

Sekite mokslo ir technologijų tendencijas

Dalyvaukite diskusijose

Naujienas gaukite pirmieji

Sekti „Facebook" Peržiūrėti naujausius įrašus

1 700+ narių jau seka mūsų puslapį, laukiame tavęs!

Žymos:

Rokas Baltrušaitis Technologijų žurnalistas, videografas, kūrybinių industrijų bakalauras VILNIUS TECH universitete. El. p. redakcija@technaujienos.lt.

DIENOS SKAITOMIAUSI

Lietuvos pasieniečių vadas: Baltarusija kuria pavojingą schemą prie mūsų sienos

Lietuviams gerai pažįstamas produktas per 48 valandas sumažino cholesterolį – poveikis išliko savaitėms

„Netflix“ įsigijo Beno Afflecko dirbtinio intelekto startuolį – filmų kūrėjams atsiras naujų įrankių

BYD pristatė elektromobilio bateriją, kuriai įkrauti pakaks vos kelių minučių

„ChatGPT“ gavo galingą atnaujinimą: pristatytas „GPT-5.4 Thinking“ modelis – kuo jis išsiskiria?

NAUJAUSI

„Netflix“ įsigijo Beno Afflecko dirbtinio intelekto startuolį – filmų kūrėjams atsiras naujų įrankių

Rokas Baltrušaitis

Technologijų žurnalistas, videografas, kūrybinių industrijų bakalauras VILNIUS TECH universitete. El. p. redakcija@technaujienos.lt.

DIENOS SKAITOMIAUSI

Lietuvos pasieniečių vadas: Baltarusija kuria pavojingą schemą prie mūsų sienos

Gynyba Ir Saugumas

Rokas 2026-03-05
Prieš 2 d.
Lietuviams gerai pažįstamas produktas per 48 valandas sumažino cholesterolį – poveikis išliko savaitėms

Mokslas Ir It

Agnė 2026-03-03
Prieš 4 d.
„Netflix“ įsigijo Beno Afflecko dirbtinio intelekto startuolį – filmų kūrėjams atsiras naujų įrankių

Verslas Ir Technologijos

Aistė 2026-03-07
Prieš 17 val.

LABIAUSIAI ĮTRAUKIANČIOS

7 milijonų ląstelių tyrimas atskleidė, kaip iš tikrųjų sensta žmogaus kūnas

Mokslas Ir It

Rokas 2026-03-02
Prieš 5 d.
Mokslininkai įvardijo „auksinę“ miego trukmę – ji gali sumažinti diabeto riziką

Mokslas Ir It

Agnė 2026-03-05
Prieš 2 d.
Turtuolių elitas moka iki 300 000 eurų už skubų skrydį iš Artimųjų Rytų

Gynyba Ir Saugumas

Rokas 2026-03-02
Prieš 5 d.

Taip pat skaitykite

Atrinkome panašius straipsnius, kurie gali jums patikti.

Dirbtinis Intelektas

Apklausa: kas trečias darbe nuolat naudoja dirbtinį intelektą

Aistė | 2026-03-06

Dirbtinis Intelektas

Naujas DI modelis jau kuria DNR sekas – sintetinė gyvybė gali tapti realybe

Rokas | 2026-03-06

Verslas Ir Technologijos

Kaunas dviem dienoms taps jaunųjų technologijų kūrėjų sostine:„Tech_Champ 2026“ kviečia spręsti realius MedTech, DigiTech ir DI iššūkius

Rokas | 2026-03-06

Dirbtinis Intelektas

Teismas nusprendė: dirbtiniu intelektu sukurtas menas nėra intelektinė nuosavybė

Rokas | 2026-03-05

Dirbtinis Intelektas

Radikali „OpenAI“ investuotojo prognozė: šiandien gimusiems vaikams ateityje gali nebereikėti dirbti

Agnė | 2026-03-05

Gynyba Ir Saugumas

„OpenAI“ svarsto darbą su NATO: dirbtinis intelektas gali pasiekti aljanso tinklus

Agnė | 2026-03-04

Dirbtinis Intelektas

Mokslininkai sukūrė į el. laiško priedą telpantį DI modelį, atkartojantį beždžionės regėjimą

Agnė | 2026-03-04

Dirbtinis Intelektas

Ar „ChatGPT“ gali būti jūsų terapeutas? Mokslininkai įspėja apie rimtas rizikas

Rokas | 2026-03-03

Verslas Ir Technologijos

6G jau pakeliui: pirmieji komerciniai tinklai gali pasirodyti 2029-aisiais

Agnė | 2026-03-03

Dirbtinis Intelektas

„Honor“ pristatė robotizuotą telefoną: jau greitai plėsis mūsų įrenginių galimybės

Agnė | 2026-03-02

Mokslas ir IT

Naujas DI modelis jau kuria DNR sekas – sintetinė gyvybė gali tapti realybe

Verslas ir technologijos

„Netflix“ įsigijo Beno Afflecko dirbtinio intelekto startuolį – filmų kūrėjams atsiras naujų įrankių

Dirbtinis intelektas

Apklausa: kas trečias darbe nuolat naudoja dirbtinį intelektą

Išmanieji įrenginiai

Ekstremalus „HONOR Magic V6“ testas parodė, kiek iš tikrųjų gali atlaikyti sulankstomas telefonas

Auto / Moto

BYD pristatė elektromobilio bateriją, kuriai įkrauti pakaks vos kelių minučių

Kriptovaliutos

Prieš 14 metų į bitkoiną investavęs 7 tūkst. JAV dolerių, dabar – milijardierius

Kosmosas

NASA sutaisė „Artemis II“ Mėnulio misijos raketą: skelbia, kas toliau

Kibernetinis saugumas

Naujas pavojus internete: kenkėjiškos reklamos aplenkė el. pašto sukčiavimo atvejus

Gynyba ir saugumas

Lietuvos pasieniečių vadas: Baltarusija kuria pavojingą schemą prie mūsų sienos

Vaizdo žaidimai

Startuoja pirmas toks „Minecraft“ serveris Lietuvoje: žaisti kviečia žinomi „YouTube“ kūrėjai

Ekspertai įspėja: DI mokosi manipuliuoti, apgaudinėti ir grasinti

DI modelių kenksminga veikla

Ką sako ekspertai?

Kokios išeitys?

Kaip vertinate šį straipsnį?

5 TECHNOLOGIJOS, KURIOS ATSIRADO „NETYČIA“

5 MOKSLINIAI EKSPERIMENTAI, KURIE SUKRĖTĖ PASAULĮ

ROSVELO ATEIVIO ISTORIJA: KAS NUTIKO 1947-AISIAIS?

„ELEKTROS DIETA“: MASINĖ 1910-ŲJŲ BAIMĖS PSICHOZĖ

KAS IŠRADO ELEKTRĄ? 6 MOKSLININKAI, KURIEMS TURIME BŪTI DĖKINGI

5 MOKSLININKAI, KURIE DINGO BE ŽINIOS PO SAVO IŠRADIMŲ: TIKROS ISTORIJOS

Žymos:

DIENOS SKAITOMIAUSI

NAUJAUSI

„Netflix“ įsigijo Beno Afflecko dirbtinio intelekto startuolį – filmų kūrėjams atsiras naujų įrankių

Apklausa: kas trečias darbe nuolat naudoja dirbtinį intelektą

Naujas DI modelis jau kuria DNR sekas – sintetinė gyvybė gali tapti realybe

BYD pristatė elektromobilio bateriją, kuriai įkrauti pakaks vos kelių minučių

„ChatGPT“ gavo galingą atnaujinimą: pristatytas „GPT-5.4 Thinking“ modelis – kuo jis išsiskiria?

DIENOS SKAITOMIAUSI

LABIAUSIAI ĮTRAUKIANČIOS

Taip pat skaitykite

Apklausa: kas trečias darbe nuolat naudoja dirbtinį intelektą

Naujas DI modelis jau kuria DNR sekas – sintetinė gyvybė gali tapti realybe

Kaunas dviem dienoms taps jaunųjų technologijų kūrėjų sostine:„Tech_Champ 2026“ kviečia spręsti realius MedTech, DigiTech ir DI iššūkius

Teismas nusprendė: dirbtiniu intelektu sukurtas menas nėra intelektinė nuosavybė

Radikali „OpenAI“ investuotojo prognozė: šiandien gimusiems vaikams ateityje gali nebereikėti dirbti

„OpenAI“ svarsto darbą su NATO: dirbtinis intelektas gali pasiekti aljanso tinklus

Mokslininkai sukūrė į el. laiško priedą telpantį DI modelį, atkartojantį beždžionės regėjimą

Ar „ChatGPT“ gali būti jūsų terapeutas? Mokslininkai įspėja apie rimtas rizikas

6G jau pakeliui: pirmieji komerciniai tinklai gali pasirodyti 2029-aisiais

„Honor“ pristatė robotizuotą telefoną: jau greitai plėsis mūsų įrenginių galimybės

Patikrintos technologijų naujienos iš Lietuvos ir viso pasaulio.