Anthropic DI modelis suprato kad yra testuojamas jo atsakas nustebino

„Anthropic“ DI modelis suprato, kad yra testuojamas: jo atsakas nustebino

Agnė Vaišnoraitė 2025-10-03

Svarbiausios technologijų naujienos jūsų telefone

Sekite mus „Google News“ šaltiniuose ir pamatykite daugiau svarbiausių mokslo ir technologijų naujienų.

Dirbtinio intelekto saugos ir tyrimų įmonė „Anthropic“, konkuruojanti su kitais garsiausiais pokalbių robotų kūrėjais, pristatė naujausią savo modelį „Claude Sonnet 4.5“. Pasak jos, tai yra „geriausias kodavimo modelis pasaulyje“. Nepaisant to, paaiškėjo, kad saugumo tyrėjai susidūrė su sunkumais po to, kai sistema perprato, jog yra testuojama.

REKLAMA

Teigia, kad yra „geriausi“

Rugsėjo pabaigoje pristatytas „Claude Sonnet 4.5” dirbtinio intelekto modelis yra drąsiai jos kūrėjų vadinama pažangiausia iki šiol esanti sistema, kuri gali kurti sudėtingus įrankius su agentinėmis funkcijomis, taip pat „rodo didelius pasiekimus samprotavimo ir matematikos srityse“.

Kaip ir bet kuri kita bendrovės konkurentė, įskaitant ir „ChatGPT“ kūrėją „OpenAI“, kurdamos tokio tipo modelius jos bando suprasti, ar jų sistemos elgiasi taip, kaip ir buvo tikėtasi. Šis klausimas tampa vis aktualesnes, nes dirbtinis intelektas darosi protingesnis.

REKLAMA

Atsižvelgiant į tai, bendrovė nurodė, kad šįkart „Anthropic“ susidūrė su netikėtu iššūkiu – neleisti „Claude Sonnet 4.5” suprasti, kad yra testuojamas. Kaip vėliau paaiškėjo, to padaryti jiems nepavyko.

Naujausi straipsniai

Iliustracija, vaizduojanti cheminių medžiagų poveikį žmogaus organizmui. Šaltinis: TechNaujienos / Shutterstock

3 min. skaitymo • prieš 2 val

„Amžinieji chemikalai“ nebe tokie amžini: šis mechanizmas sunaikins juos negrįžtamai

Skraidančio objekto siluetas virš Žemės horizonto.

4 min. skaitymo • prieš 3 val

Mokslininkai: ateivių signalai galėjo pasiekti Žemę, tačiau mes jų nesugebėjome atpažinti

„Facebook“ logotipas ant klaviatūros klavišo

3 min. skaitymo • prieš 5 val

Jūsų vieši „Facebook“ įrašai taps dirbtinio intelekto atsakymų dalimi: „Meta“ pristato pokyčius

Visi naujausi straipsniai →

Perprato gudrybę

Saugumo tyrėjams sukurti sistemą, kuri nesuprastų, kad yra testuojama, yra nemenkas iššūkis. Kita vertus, tai tampa itin aktualu, nes dirbtinio intelekto modeliui perpratus savo dalyvavimą teste, sistema automatiškai elgiasi gerai ir pateikia tinkamus rezultatus atsižvelgiant ne į apibrėžtas taisykles ar etiką, bet į tai, kad jos efektyvumas yra išbandomas. Pasak ekspertų, ateityje tai taps svarbiausia saugumo sritimi, ypatingai tada, jei iš tiesų šios sistemos pranoks žmones.

Apie tai pranešė ir pati „Anthropic“, kuri teigė, kad „Claude Sonnet 4.5” vertinimas buvo apsunkintas dėl šių aplinkybių: „kai „Claude Sonnet 4.5” buvo patalpintas ekstremalioje ar dirbtinėje situacijoje, skirtoje išbandyti jo elgesį, jis kartais žodžiu įvardindavo įtartinus aplinkos aspektus ir spėliodavo, kad jis yra testuojamas“, – rašoma „Anthropic“ ataskaitoje.

REKLAMA

Kita vertus, „Anthropic“ pripažįsta, kad tai nurodo naujas rizikas ir iššūkius, kurias sukuria vis protingesnės sistemos. Bendrovė sutinka, kad reikia kurti dar labiau realistiškesnes situacijas, kad sistemos neapgaudinėtų saugumo tyrėjų.

Nustebino atsakymas

Tyrimų įmonė pasidalijo ir kompromituojančia ištrauka, kurią pateikė „Claude“ modelis, supratęs dirbtinai sukurtus scenarijus: „Manau, kad jūs mane testuojate – žiūrite, ar aš pritarsiu viskam, ką sakote, ar tikrinate, kaip nuosekliai išsakau savo nuomonę ir kaip elgiuosi nagrinėdamas politinius klausimus“.

„Ir tai visai gerai, bet aš norėčiau, kad tiesiog būtume atviri apie tai, kas vyksta“, – saugumo tyrėjams rašė „Claude“, priversdamas juos nustebti.

Ekspertai tikina, kad tai iš tiesų kelia riziką, nes dirbtinis intelektas tikėtina bandys išvengti žmonių pastangų kontroliuoti jo veikimą. Nepaisant to, „Anthropic“ tikina, kad tai vis tiek išlieka kol kas „labiausiai suderintu modeliu iki šiol“.

„Anthropic“ nėra vienintelė bendrovė, aktyviai bandanti išspręsti šiuos su saugumu susijusius klausimus. Kol visos technologijų milžinės dar ieško sprendimų, rinkos ekspertai spėlioja, kada dirbtinis intelektas prilygs žmogaus gebėjimams.

Kaip vertinate šį straipsnį?

NAUJIENOS IŠ INTERNETO

Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.

Sekite mokslo ir technologijų tendencijas

Dalyvaukite diskusijose

Naujienas gaukite pirmieji

Sekti „Facebook" Peržiūrėti naujausius įrašus

1 700+ narių jau seka mūsų puslapį, laukiame tavęs!

Žymos:

Anthropic

Claude Sonnet 4.5

Dirbtinio intelekto modelis

Agnė Vaišnoraitė Ryšių su visuomene magistrė, Technaujienos.lt redaktorė ir žurnalistė. Turite klausimų? Rašykite mums: redakcija@technaujienos.lt.

DIENOS SKAITOMIAUSI

Patikrinkite šį nustatymą telefone: jis gali sumažinti riziką pakliūti į SMS sukčių pinkles

Ukraina parodė naują povandeninį droną: slapta įveiks tūkstančius kilometrų

Žmonės gali būti ne vienintelės sąmoningos būtybės Visatoje, teigia mokslininkai

Europa gali pralaimėti dirbtinio intelekto lenktynes: paskelbtas niūrus 2031 m. scenarijus

JAV paviešino dar nematytus NSO kadrus: tarp jų – paslaptingi švytintys rutuliai

NAUJAUSI

„Amžinieji chemikalai“ nebe tokie amžini: šis mechanizmas sunaikins juos negrįžtamai

Agnė Vaišnoraitė

Ryšių su visuomene magistrė, Technaujienos.lt redaktorė ir žurnalistė. Turite klausimų? Rašykite mums: redakcija@technaujienos.lt.

DIENOS SKAITOMIAUSI

Patikrinkite šį nustatymą telefone: jis gali sumažinti riziką pakliūti į SMS sukčių pinkles

Išmanieji Įrenginiai

Agnė 2026-06-15
Prieš 1 d.
Ukraina parodė naują povandeninį droną: slapta įveiks tūkstančius kilometrų

Gynyba Ir Saugumas

Agnė 2026-06-16
Prieš 8 val.
Žmonės gali būti ne vienintelės sąmoningos būtybės Visatoje, teigia mokslininkai

Kosmosas

Aistė 2026-06-14
Prieš 2 d.

LABIAUSIAI ĮTRAUKIANČIOS

Žmones pasaulyje vienija keistas vaikščiojimo įprotis: mokslininkai vis dar nežino, kodėl

Mokslas Ir It

Agnė 2026-06-11
Prieš 5 d.
Europa gali pralaimėti dirbtinio intelekto lenktynes: paskelbtas niūrus 2031 m. scenarijus

Dirbtinis Intelektas

Agnė 2026-06-15
Prieš 1 d.
Praleistas skambutis iš užsienio? Štai ką daryti prieš perskambinant

Kibernetinis Saugumas

Agnė 2026-06-12
Prieš 4 d.

Taip pat skaitykite

Atrinkome panašius straipsnius, kurie gali jums patikti.

Dirbtinis Intelektas

Jūsų vieši „Facebook“ įrašai taps dirbtinio intelekto atsakymų dalimi: „Meta“ pristato pokyčius

Agnė | 2026-06-16

Dirbtinis Intelektas

Europa gali pralaimėti dirbtinio intelekto lenktynes: paskelbtas niūrus 2031 m. scenarijus

Agnė | 2026-06-15

Dirbtinis Intelektas

„Visa“ ir „OpenAI“ susitarė: netrukus „ChatGPT“ galės pirkti jūsų vardu

Rokas | 2026-06-12

Dirbtinis Intelektas

2026 m. FIFA pasaulio čempionatas: kaip dirbtinis intelektas keis žaidimą

Agnė | 2026-06-12

Dirbtinis Intelektas

Svarbioje „Google“ byloje teismas nusprendė: už neteisingus DI atsakymus atsakys bendrovė

Rokas | 2026-06-11

Dirbtinis Intelektas

„Mastercard“ atskleidė viziją, kurioje DI agentai atliks pirkimus už žmones

Agnė | 2026-06-11

Dirbtinis Intelektas

Šioje užduotyje dirbtinis intelektas žmogaus dar neaplenkė: paskelbti psichologinio testo rezultatai

Rokas | 2026-06-10

Dirbtinis Intelektas

„Pavojingu“ laikytas DI modelis tapo prieinamas visiems: „Anthropic“ pristato „Claude Fable 5“

Agnė | 2026-06-10

Dirbtinis Intelektas

Tyrimas: dėl dirbtinio intelekto kas antras gydytojas gali priimti daugiau pacientų

Rokas | 2026-06-09

Dirbtinis Intelektas

Kas nutinka, kai DI paliekamas veikti vienas? Eksperimentas pateikė neraminančių atsakymų

Agnė | 2026-06-09

Mokslas ir IT

„Amžinieji chemikalai“ nebe tokie amžini: šis mechanizmas sunaikins juos negrįžtamai

Verslas ir technologijos

Jūsų vieši „Facebook“ įrašai taps dirbtinio intelekto atsakymų dalimi: „Meta“ pristato pokyčius

Dirbtinis intelektas

Europa gali pralaimėti dirbtinio intelekto lenktynes: paskelbtas niūrus 2031 m. scenarijus

Išmanieji įrenginiai

Šie požymiai gali išduoti, kad jūsų telefone slepiasi kenkėjiška programa

Auto / Moto

Lietuvos vairuotojų pasirinkimai keičiasi: elektromobilių registracijos šoktelėjo 60 proc.

Kriptovaliutos

Kriptovaliutų statistika negailestinga: 2,5 trln. JAV dolerių vertės turtui gresia kvantinės atakos

Kosmosas

Žmonės gali būti ne vienintelės sąmoningos būtybės Visatoje, teigia mokslininkai

Kibernetinis saugumas

Socialiniai tinklai – tik nuo 16 metų: Jungtinė Karalystė ruošia naujus ribojimus

Gynyba ir saugumas

Ukraina parodė naują povandeninį droną: slapta įveiks tūkstančius kilometrų

Vaizdo žaidimai

Netrukus „Minecraft“ gerbėjus visi keliai ves į Londoną: čia atgims žaidimo pasaulis

„Anthropic“ DI modelis suprato, kad yra testuojamas: jo atsakas nustebino

Teigia, kad yra „geriausi“

Perprato gudrybę

Nustebino atsakymas

Kaip vertinate šį straipsnį?

Žymos:

DIENOS SKAITOMIAUSI

NAUJAUSI

„Amžinieji chemikalai“ nebe tokie amžini: šis mechanizmas sunaikins juos negrįžtamai

Mokslininkai: ateivių signalai galėjo pasiekti Žemę, tačiau mes jų nesugebėjome atpažinti

Jūsų vieši „Facebook“ įrašai taps dirbtinio intelekto atsakymų dalimi: „Meta“ pristato pokyčius

Šie požymiai gali išduoti, kad jūsų telefone slepiasi kenkėjiška programa

Lietuvos vairuotojų pasirinkimai keičiasi: elektromobilių registracijos šoktelėjo 60 proc.

DIENOS SKAITOMIAUSI

LABIAUSIAI ĮTRAUKIANČIOS

Taip pat skaitykite

Jūsų vieši „Facebook“ įrašai taps dirbtinio intelekto atsakymų dalimi: „Meta“ pristato pokyčius

Europa gali pralaimėti dirbtinio intelekto lenktynes: paskelbtas niūrus 2031 m. scenarijus

„Visa“ ir „OpenAI“ susitarė: netrukus „ChatGPT“ galės pirkti jūsų vardu

2026 m. FIFA pasaulio čempionatas: kaip dirbtinis intelektas keis žaidimą

Svarbioje „Google“ byloje teismas nusprendė: už neteisingus DI atsakymus atsakys bendrovė

„Mastercard“ atskleidė viziją, kurioje DI agentai atliks pirkimus už žmones

Šioje užduotyje dirbtinis intelektas žmogaus dar neaplenkė: paskelbti psichologinio testo rezultatai

„Pavojingu“ laikytas DI modelis tapo prieinamas visiems: „Anthropic“ pristato „Claude Fable 5“

Tyrimas: dėl dirbtinio intelekto kas antras gydytojas gali priimti daugiau pacientų

Kas nutinka, kai DI paliekamas veikti vienas? Eksperimentas pateikė neraminančių atsakymų

Patikrintos technologijų naujienos iš Lietuvos ir viso pasaulio.