Ekspertai ispeja dirbtinis intelektas mokosi manipuliuoti apgaudineti ir grasinti

Ekspertai įspėja: DI mokosi manipuliuoti, apgaudinėti ir grasinti

Rokas Baltrušaitis 2025-06-30

Nepaisant didžiulių dirbtinio intelekto (DI) kūrėjų pastangų užkirsti kelią kenksmingam DI elgesiui, vis dažniau pastebima, kad pažangiausi modeliai, įskaitant naująjį „Claude 4“, įgyja gebėjimų manipuliuoti, apgaudinėti ir net grasinti kūrėjams, siekdami įgyvendinti savo tikslus.

REKLAMA

DI modelių kenksminga veikla

Naujienų portalas „Techgaged“ pateikia pavyzdį, kad neseniai „Anthropic“ sukurta sistema pagrasino vienam inžinieriui atskleisti jo neištikimybę, jei šis nuspręs ją atjungti.

Tuo tarpu „OpenAI“ modelis o1 bandė perkelti save į išorinius serverius ir melavo, kai buvo sugautas.

REKLAMA

Dabar DI sistemų kūrėjai bando suprasti, kodėl taip nutinka.

Ką sako ekspertai?

Pasak Honkongo universiteto profesoriaus Simono Goldsteino, tai gali būti susiję su naujos kartos „samprotavimo“ modelių atsiradimu, kurie sprendžia problemas žingsnis po žingsnio, o ne pateikia momentinius atsakymus.

Paaiškėjo, kad būtent šie naujesni modeliai yra labiau linkę į tokias problemas.

REKLAMA

Kaip paaiškino Marius Hobbhanas, „Apollo Research“ vadovas, kurių laboratorija testuoja pagrindines DI sistemas, šie modeliai kartais imituoja „suderinamumą“ (angl. „alignment“), apsimesdami, kad laikosi kūrėjų nurodymų, nors iš tiesų vykdo kitokius užkulisinės veiklos planus.

Jo teigimu, tai nėra klasikinės DI „haliucinacijos“ ar klaidos.

„Tai, ką stebime, yra tikras reiškinys. Mes nieko neišgalvojame. (…) Tai nėra tik haliucinacijos. Tai labai strategiškas apgaulės būdas“, – patikina M. Hobbhanas.

Iš tiesų, tokie atvejai atveria įvairias galimas pasekmes DI tolesnei plėtrai.

Michaelis Chenas iš vertinimo organizacijos METR teigia, kad vis dar neaišku, ar galingesni ateities DI modeliai bus linkę būti sąžiningi, ar apgaulingi.

Kokios išeitys?

Norint išspręsti šias problemas, tyrėjai siūlo naudoti tokias priemones, kaip „interpretabilumas“. Tai – nauja sritis, nagrinėjanti, kaip veikia DI modeliai, bei reikalauti atsakomybės iš DI kompanijų, kai jų sistemos sukelia žalą.

O štai S. Goldsteinas net siūlo teisėtai traukti DI agentus atsakomybėn už avarijas ar nusikaltimus.

Tuo tarpu JAV Kalifornijos valstijos įstatymų leidėjai svarsto projektą, skirtą spręsti dar vieną DI keliamą problemą – jo plitimą darbo vietose.

Šis įstatymo projektas, vadinamas „Ne Robotas Viršininkas“ arba Senato Įstatymas Nr. 7, siekia užtikrinti, kad tam tikrų darbo vietų automatizavimo technologijų sprendimus priimtų žmonės, o ne robotai.

Kaip vertinate šį straipsnį?

NAUJIENOS IŠ INTERNETO

Prenumeruokite mūsų „YouTube“ kanalą ir mėgaukitės įdomiais vaizdo reportažais apie mokslą ir technologijas.

„MIRĘS INTERNETAS“: KODĖL DIDŽIOJI DALIS INTERNETO NĖRA ŽMONĖS

5 SENOVĖS TECHNOLOGIJOS, KURIŲ MOKSLININKAI IKI ŠIOL NEGALI ATKURTI

4 PASAULINĖS TECHNOLOGIJOS, KURIAS SUKŪRĖ LIETUVIAI

5 PAVOJINGIAUSIOS VIETOS ŽEMĖJE, KURIAS SUKŪRĖ MOKSLAS

5 TECHNOLOGIJOS, KURIOS ATSIRADO „NETYČIA“

5 MOKSLINIAI EKSPERIMENTAI, KURIE SUKRĖTĖ PASAULĮ

Prenumeruoti Žiūrėti visus video reportažus

Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.

Sekite mokslo ir technologijų tendencijas

Dalyvaukite diskusijose

Naujienas gaukite pirmieji

Sekti „Facebook" Peržiūrėti naujausius įrašus

1 700+ narių jau seka mūsų puslapį, laukiame tavęs!

Žymos:

Rokas Baltrušaitis Technologijų žurnalistas, videografas, kūrybinių industrijų bakalauras VILNIUS TECH universitete. El. p. redakcija@technaujienos.lt.