Skip to content
„Anthropic“ DI modelis suprato, kad yra testuojamas: jo atsakas nustebino

Anthropic DI modelis suprato kad yra testuojamas jo atsakas nustebino

„Anthropic“ DI modelis suprato, kad yra testuojamas: jo atsakas nustebino

Dirbtinio intelekto saugos ir tyrimų įmonė „Anthropic“, konkuruojanti su kitais garsiausiais pokalbių robotų kūrėjais, pristatė naujausią savo modelį „Claude Sonnet 4.5“. Pasak jos, tai yra „geriausias kodavimo modelis pasaulyje“. Nepaisant to, paaiškėjo, kad saugumo tyrėjai susidūrė su sunkumais po to, kai sistema perprato, jog yra testuojama.

REKLAMA

Teigia, kad yra „geriausi“

Rugsėjo pabaigoje pristatytas „Claude Sonnet 4.5” dirbtinio intelekto modelis yra drąsiai jos kūrėjų vadinama pažangiausia iki šiol esanti sistema, kuri gali kurti sudėtingus įrankius su agentinėmis funkcijomis, taip pat „rodo didelius pasiekimus samprotavimo ir matematikos srityse“.

Kaip ir bet kuri kita bendrovės konkurentė, įskaitant ir „ChatGPT“ kūrėją „OpenAI“, kurdamos tokio tipo modelius jos bando suprasti, ar jų sistemos elgiasi taip, kaip ir buvo tikėtasi. Šis klausimas tampa vis aktualesnes, nes dirbtinis intelektas darosi protingesnis.

REKLAMA

Atsižvelgiant į tai, bendrovė nurodė, kad šįkart „Anthropic“ susidūrė su netikėtu iššūkiu – neleisti „Claude Sonnet 4.5” suprasti, kad yra testuojamas. Kaip vėliau paaiškėjo, to padaryti jiems nepavyko.

Perprato gudrybę

Saugumo tyrėjams sukurti sistemą, kuri nesuprastų, kad yra testuojama, yra nemenkas iššūkis. Kita vertus, tai tampa itin aktualu, nes dirbtinio intelekto modeliui perpratus savo dalyvavimą teste, sistema automatiškai elgiasi gerai ir pateikia tinkamus rezultatus atsižvelgiant ne į apibrėžtas taisykles ar etiką, bet į tai, kad jos efektyvumas yra išbandomas. Pasak ekspertų, ateityje tai taps svarbiausia saugumo sritimi, ypatingai tada, jei iš tiesų šios sistemos pranoks žmones.

Apie tai pranešė ir pati „Anthropic“, kuri teigė, kad „Claude Sonnet 4.5” vertinimas buvo apsunkintas dėl šių aplinkybių: „kai „Claude Sonnet 4.5” buvo patalpintas ekstremalioje ar dirbtinėje situacijoje, skirtoje išbandyti jo elgesį, jis kartais žodžiu įvardindavo įtartinus aplinkos aspektus ir spėliodavo, kad jis yra testuojamas“, – rašoma „Anthropic“ ataskaitoje.

REKLAMA

Kita vertus, „Anthropic“ pripažįsta, kad tai nurodo naujas rizikas ir iššūkius, kurias sukuria vis protingesnės sistemos. Bendrovė sutinka, kad reikia kurti dar labiau realistiškesnes situacijas, kad sistemos neapgaudinėtų saugumo tyrėjų.

Nustebino atsakymas

Tyrimų įmonė pasidalijo ir kompromituojančia ištrauka, kurią pateikė „Claude“ modelis, supratęs dirbtinai sukurtus scenarijus: „Manau, kad jūs mane testuojate – žiūrite, ar aš pritarsiu viskam, ką sakote, ar tikrinate, kaip nuosekliai išsakau savo nuomonę ir kaip elgiuosi nagrinėdamas politinius klausimus“.

„Ir tai visai gerai, bet aš norėčiau, kad tiesiog būtume atviri apie tai, kas vyksta“, – saugumo tyrėjams rašė „Claude“, priversdamas juos nustebti.

Ekspertai tikina, kad tai iš tiesų kelia riziką, nes dirbtinis intelektas tikėtina bandys išvengti žmonių pastangų kontroliuoti jo veikimą. Nepaisant to, „Anthropic“ tikina, kad tai vis tiek išlieka kol kas „labiausiai suderintu modeliu iki šiol“.

„Anthropic“ nėra vienintelė bendrovė, aktyviai bandanti išspręsti šiuos su saugumu susijusius klausimus. Kol visos technologijų milžinės dar ieško sprendimų, rinkos ekspertai spėlioja, kada dirbtinis intelektas prilygs žmogaus gebėjimams.

Kaip vertinate šį straipsnį?

Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.

Sekite mokslo ir technologijų tendencijas
Dalyvaukite diskusijose
Naujienas gaukite pirmieji
1 700+ narių jau seka mūsų puslapį, laukiame tavęs!

Agnė Vaišnoraitė Ryšių su visuomene magistrė, Technaujienos.lt redaktorė ir žurnalistė. Turite klausimų? Rašykite mums: redakcija@technaujienos.lt.

10

Taip pat skaitykite

Atrinkome panašius straipsnius, kurie gali jums patikti.