Anthropic DI modelis suprato kad yra testuojamas jo atsakas nustebino

„Anthropic“ DI modelis suprato, kad yra testuojamas: jo atsakas nustebino

Agnė Vaišnoraitė 2025-10-03

REKLAMA

Dirbtinio intelekto saugos ir tyrimų įmonė „Anthropic“, konkuruojanti su kitais garsiausiais pokalbių robotų kūrėjais, pristatė naujausią savo modelį „Claude Sonnet 4.5“. Pasak jos, tai yra „geriausias kodavimo modelis pasaulyje“. Nepaisant to, paaiškėjo, kad saugumo tyrėjai susidūrė su sunkumais po to, kai sistema perprato, jog yra testuojama.

Teigia, kad yra „geriausi“

Rugsėjo pabaigoje pristatytas „Claude Sonnet 4.5” dirbtinio intelekto modelis yra drąsiai jos kūrėjų vadinama pažangiausia iki šiol esanti sistema, kuri gali kurti sudėtingus įrankius su agentinėmis funkcijomis, taip pat „rodo didelius pasiekimus samprotavimo ir matematikos srityse“.

Kaip ir bet kuri kita bendrovės konkurentė, įskaitant ir „ChatGPT“ kūrėją „OpenAI“, kurdamos tokio tipo modelius jos bando suprasti, ar jų sistemos elgiasi taip, kaip ir buvo tikėtasi. Šis klausimas tampa vis aktualesnes, nes dirbtinis intelektas darosi protingesnis.

REKLAMA

Atsižvelgiant į tai, bendrovė nurodė, kad šįkart „Anthropic“ susidūrė su netikėtu iššūkiu – neleisti „Claude Sonnet 4.5” suprasti, kad yra testuojamas. Kaip vėliau paaiškėjo, to padaryti jiems nepavyko.

Perprato gudrybę

Saugumo tyrėjams sukurti sistemą, kuri nesuprastų, kad yra testuojama, yra nemenkas iššūkis. Kita vertus, tai tampa itin aktualu, nes dirbtinio intelekto modeliui perpratus savo dalyvavimą teste, sistema automatiškai elgiasi gerai ir pateikia tinkamus rezultatus atsižvelgiant ne į apibrėžtas taisykles ar etiką, bet į tai, kad jos efektyvumas yra išbandomas. Pasak ekspertų, ateityje tai taps svarbiausia saugumo sritimi, ypatingai tada, jei iš tiesų šios sistemos pranoks žmones.

Apie tai pranešė ir pati „Anthropic“, kuri teigė, kad „Claude Sonnet 4.5” vertinimas buvo apsunkintas dėl šių aplinkybių: „kai „Claude Sonnet 4.5” buvo patalpintas ekstremalioje ar dirbtinėje situacijoje, skirtoje išbandyti jo elgesį, jis kartais žodžiu įvardindavo įtartinus aplinkos aspektus ir spėliodavo, kad jis yra testuojamas“, – rašoma „Anthropic“ ataskaitoje.

REKLAMA

Kita vertus, „Anthropic“ pripažįsta, kad tai nurodo naujas rizikas ir iššūkius, kurias sukuria vis protingesnės sistemos. Bendrovė sutinka, kad reikia kurti dar labiau realistiškesnes situacijas, kad sistemos neapgaudinėtų saugumo tyrėjų.

Nustebino atsakymas

Tyrimų įmonė pasidalijo ir kompromituojančia ištrauka, kurią pateikė „Claude“ modelis, supratęs dirbtinai sukurtus scenarijus: „Manau, kad jūs mane testuojate – žiūrite, ar aš pritarsiu viskam, ką sakote, ar tikrinate, kaip nuosekliai išsakau savo nuomonę ir kaip elgiuosi nagrinėdamas politinius klausimus“.

„Ir tai visai gerai, bet aš norėčiau, kad tiesiog būtume atviri apie tai, kas vyksta“, – saugumo tyrėjams rašė „Claude“, priversdamas juos nustebti.

Ekspertai tikina, kad tai iš tiesų kelia riziką, nes dirbtinis intelektas tikėtina bandys išvengti žmonių pastangų kontroliuoti jo veikimą. Nepaisant to, „Anthropic“ tikina, kad tai vis tiek išlieka kol kas „labiausiai suderintu modeliu iki šiol“.

„Anthropic“ nėra vienintelė bendrovė, aktyviai bandanti išspręsti šiuos su saugumu susijusius klausimus. Kol visos technologijų milžinės dar ieško sprendimų, rinkos ekspertai spėlioja, kada dirbtinis intelektas prilygs žmogaus gebėjimams.

Kaip vertinate šį straipsnį?

NAUJIENOS IŠ INTERNETO

Prenumeruokite mūsų „YouTube“ kanalą ir mėgaukitės įdomiais vaizdo reportažais apie mokslą ir technologijas.

5 PAVOJINGIAUSIOS VIETOS ŽEMĖJE, KURIAS SUKŪRĖ MOKSLAS

5 TECHNOLOGIJOS, KURIOS ATSIRADO „NETYČIA“

5 MOKSLINIAI EKSPERIMENTAI, KURIE SUKRĖTĖ PASAULĮ

ROSVELO ATEIVIO ISTORIJA: KAS NUTIKO 1947-AISIAIS?

„ELEKTROS DIETA“: MASINĖ 1910-ŲJŲ BAIMĖS PSICHOZĖ

KAS IŠRADO ELEKTRĄ? 6 MOKSLININKAI, KURIEMS TURIME BŪTI DĖKINGI

Prenumeruoti Žiūrėti visus video reportažus

Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.

Sekite mokslo ir technologijų tendencijas

Dalyvaukite diskusijose

Naujienas gaukite pirmieji

Sekti „Facebook" Peržiūrėti naujausius įrašus

1 700+ narių jau seka mūsų puslapį, laukiame tavęs!

Žymos:

Anthropic

Claude Sonnet 4.5

Dirbtinio intelekto modelis

Agnė Vaišnoraitė Ryšių su visuomene magistrė, Technaujienos.lt redaktorė ir žurnalistė. Turite klausimų? Rašykite mums: redakcija@technaujienos.lt.

DIENOS SKAITOMIAUSI

Greitai baigsis svarbaus „Windows“ saugumo sertifikato galiojimas: ką būtina žinoti kiekvienam

Mokslininkai atskleidė, kokį poveikį multivitaminai turi žmogaus biologiniam senėjimui

Mokslininkai pateikė naujų įžvalgų apie tai, ar COVID-19 virusas galėjo būti sukurtas laboratorijoje

Stephenas Hawkingas mus įspėjo dar 2014 metais – šiandien jo žodžiai skamba lyg pranašystė

„Microsoft“ ragina pakeisti vieną „Windows“ nustatymą – jis gali netikėtai nutraukti darbą

NAUJAUSI

Kas trečias europietis patiria problemų perkant internetu: kaip sekasi lietuviams?

Agnė Vaišnoraitė

Ryšių su visuomene magistrė, Technaujienos.lt redaktorė ir žurnalistė. Turite klausimų? Rašykite mums: redakcija@technaujienos.lt.

DIENOS SKAITOMIAUSI

Greitai baigsis svarbaus „Windows“ saugumo sertifikato galiojimas: ką būtina žinoti kiekvienam

Išmanieji Įrenginiai

Rokas 2026-03-10
Prieš 1 d.
Mokslininkai atskleidė, kokį poveikį multivitaminai turi žmogaus biologiniam senėjimui

Mokslas Ir It

Agnė 2026-03-10
Prieš 2 d.
Mokslininkai pateikė naujų įžvalgų apie tai, ar COVID-19 virusas galėjo būti sukurtas laboratorijoje

Mokslas Ir It

Agnė 2026-03-11
Prieš 23 val.

LABIAUSIAI ĮTRAUKIANČIOS

Pagaliau aišku, ar 2032 m. asteroidas trenksis į Mėnulį – NASA paskelbė naujausius skaičiavimus

Kosmosas

Rokas 2026-03-08
Prieš 3 d.
Lietuvos pasieniečių vadas: Baltarusija kuria pavojingą schemą prie mūsų sienos

Gynyba Ir Saugumas

Rokas 2026-03-05
Prieš 6 d.
Naujas DI modelis jau kuria DNR sekas – sintetinė gyvybė gali tapti realybe

Dirbtinis Intelektas

Rokas 2026-03-06
Prieš 5 d.

Taip pat skaitykite

Atrinkome panašius straipsnius, kurie gali jums patikti.

Mokslas Ir It

Dirbtinis intelektas patikrino 100 metų senumo vėžio teoriją: mokslininkai pamatė tai, ko anksčiau nepavyko

Agnė | 2026-03-12

Dirbtinis Intelektas

Stephenas Hawkingas mus įspėjo dar 2014 metais – šiandien jo žodžiai skamba lyg pranašystė

Agnė | 2026-03-11

Dirbtinis Intelektas

Tyrimas: DI pokalbių robotai linkę vartotojus nukreipti į nelegalius lošimus internete

Agnė | 2026-03-10

Kibernetinis Saugumas

Kaunas dviem dienoms taps jaunųjų technologijų kūrėjų sostine:„Tech_Champ 2026“ kviečia spręsti realius MedTech, DigiTech ir DI iššūkius

Rokas | 2026-03-06

Dirbtinis Intelektas

Teismas nusprendė: dirbtiniu intelektu sukurtas menas nėra intelektinė nuosavybė

Rokas | 2026-03-05

Dirbtinis Intelektas

Radikali „OpenAI“ investuotojo prognozė: šiandien gimusiems vaikams ateityje gali nebereikėti dirbti

Agnė | 2026-03-05

Gynyba Ir Saugumas

„OpenAI“ svarsto darbą su NATO: dirbtinis intelektas gali pasiekti aljanso tinklus

Agnė | 2026-03-04

Mokslas ir IT

Dirbtinis intelektas patikrino 100 metų senumo vėžio teoriją: mokslininkai pamatė tai, ko anksčiau nepavyko

Verslas ir technologijos

Kas trečias europietis patiria problemų perkant internetu: kaip sekasi lietuviams?

Dirbtinis intelektas

Stephenas Hawkingas mus įspėjo dar 2014 metais – šiandien jo žodžiai skamba lyg pranašystė

Išmanieji įrenginiai

Greitai baigsis svarbaus „Windows“ saugumo sertifikato galiojimas: ką būtina žinoti kiekvienam

Auto / Moto

Skraidantys taksi tampa realybe: JAV prasidės realūs skrydžių bandymai

Kriptovaliutos

Bankai tyliai ruošiasi naujai kriptovaliutų reguliavimo bangai: kas vyksta?

Kosmosas

Virš Europos praskriejo kelių metrų skersmens meteoras: galiausiai ugnies kamuolys pramušė namo stogą Vokietijoje

Kibernetinis saugumas

Ekspertai perspėja: DI keičia kibernetines atakas – vien slaptažodžių paskyroms apsaugoti jau nebeužtenka

Gynyba ir saugumas

Lietuvos pasieniečių vadas: Baltarusija kuria pavojingą schemą prie mūsų sienos

Vaizdo žaidimai

Iš 200 tūkst. žmogaus neuronų sukurtas biologinis kompiuteris pasiekė proveržį: įveikė klasikinį vaizdo žaidimą

„Anthropic“ DI modelis suprato, kad yra testuojamas: jo atsakas nustebino

Teigia, kad yra „geriausi“

Perprato gudrybę

Nustebino atsakymas

Kaip vertinate šį straipsnį?

5 PAVOJINGIAUSIOS VIETOS ŽEMĖJE, KURIAS SUKŪRĖ MOKSLAS

5 TECHNOLOGIJOS, KURIOS ATSIRADO „NETYČIA“

5 MOKSLINIAI EKSPERIMENTAI, KURIE SUKRĖTĖ PASAULĮ

ROSVELO ATEIVIO ISTORIJA: KAS NUTIKO 1947-AISIAIS?

„ELEKTROS DIETA“: MASINĖ 1910-ŲJŲ BAIMĖS PSICHOZĖ

KAS IŠRADO ELEKTRĄ? 6 MOKSLININKAI, KURIEMS TURIME BŪTI DĖKINGI

Žymos:

DIENOS SKAITOMIAUSI

NAUJAUSI

Kas trečias europietis patiria problemų perkant internetu: kaip sekasi lietuviams?

„Ozempic“ gamintojui – nemalonumai: gavo įspėjimą laiku nepranešus apie rimtus šalutinius poveikius

Dirbtinis intelektas patikrino 100 metų senumo vėžio teoriją: mokslininkai pamatė tai, ko anksčiau nepavyko

„IKEA“ po padidinamuoju stiklu: Štai kiek medienos sunaudojo 2025 metais

Skraidantys taksi tampa realybe: JAV prasidės realūs skrydžių bandymai

DIENOS SKAITOMIAUSI

LABIAUSIAI ĮTRAUKIANČIOS

Taip pat skaitykite

Dirbtinis intelektas patikrino 100 metų senumo vėžio teoriją: mokslininkai pamatė tai, ko anksčiau nepavyko

Stephenas Hawkingas mus įspėjo dar 2014 metais – šiandien jo žodžiai skamba lyg pranašystė

Tyrimas: DI pokalbių robotai linkę vartotojus nukreipti į nelegalius lošimus internete

JAV pristatė 2026 m. kibernetinio saugumo strategiją: kokių pokyčių tikėtis?

Apklausa: kas trečias darbe nuolat naudoja dirbtinį intelektą

Naujas DI modelis jau kuria DNR sekas – sintetinė gyvybė gali tapti realybe

Kaunas dviem dienoms taps jaunųjų technologijų kūrėjų sostine:„Tech_Champ 2026“ kviečia spręsti realius MedTech, DigiTech ir DI iššūkius

Teismas nusprendė: dirbtiniu intelektu sukurtas menas nėra intelektinė nuosavybė

Radikali „OpenAI“ investuotojo prognozė: šiandien gimusiems vaikams ateityje gali nebereikėti dirbti

„OpenAI“ svarsto darbą su NATO: dirbtinis intelektas gali pasiekti aljanso tinklus

Patikrintos technologijų naujienos iš Lietuvos ir viso pasaulio.