Dirbtinio intelekto saugos ir tyrimų įmonė „Anthropic“, konkuruojanti su kitais garsiausiais pokalbių robotų kūrėjais, pristatė naujausią savo modelį „Claude Sonnet 4.5“. Pasak jos, tai yra „geriausias kodavimo modelis pasaulyje“. Nepaisant to, paaiškėjo, kad saugumo tyrėjai susidūrė su sunkumais po to, kai sistema perprato, jog yra testuojama.
Teigia, kad yra „geriausi“
Rugsėjo pabaigoje pristatytas „Claude Sonnet 4.5” dirbtinio intelekto modelis yra drąsiai jos kūrėjų vadinama pažangiausia iki šiol esanti sistema, kuri gali kurti sudėtingus įrankius su agentinėmis funkcijomis, taip pat „rodo didelius pasiekimus samprotavimo ir matematikos srityse“.
Kaip ir bet kuri kita bendrovės konkurentė, įskaitant ir „ChatGPT“ kūrėją „OpenAI“, kurdamos tokio tipo modelius jos bando suprasti, ar jų sistemos elgiasi taip, kaip ir buvo tikėtasi. Šis klausimas tampa vis aktualesnes, nes dirbtinis intelektas darosi protingesnis.
Atsižvelgiant į tai, bendrovė nurodė, kad šįkart „Anthropic“ susidūrė su netikėtu iššūkiu – neleisti „Claude Sonnet 4.5” suprasti, kad yra testuojamas. Kaip vėliau paaiškėjo, to padaryti jiems nepavyko.
Perprato gudrybę
Saugumo tyrėjams sukurti sistemą, kuri nesuprastų, kad yra testuojama, yra nemenkas iššūkis. Kita vertus, tai tampa itin aktualu, nes dirbtinio intelekto modeliui perpratus savo dalyvavimą teste, sistema automatiškai elgiasi gerai ir pateikia tinkamus rezultatus atsižvelgiant ne į apibrėžtas taisykles ar etiką, bet į tai, kad jos efektyvumas yra išbandomas. Pasak ekspertų, ateityje tai taps svarbiausia saugumo sritimi, ypatingai tada, jei iš tiesų šios sistemos pranoks žmones.
Apie tai pranešė ir pati „Anthropic“, kuri teigė, kad „Claude Sonnet 4.5” vertinimas buvo apsunkintas dėl šių aplinkybių: „kai „Claude Sonnet 4.5” buvo patalpintas ekstremalioje ar dirbtinėje situacijoje, skirtoje išbandyti jo elgesį, jis kartais žodžiu įvardindavo įtartinus aplinkos aspektus ir spėliodavo, kad jis yra testuojamas“, – rašoma „Anthropic“ ataskaitoje.
Kita vertus, „Anthropic“ pripažįsta, kad tai nurodo naujas rizikas ir iššūkius, kurias sukuria vis protingesnės sistemos. Bendrovė sutinka, kad reikia kurti dar labiau realistiškesnes situacijas, kad sistemos neapgaudinėtų saugumo tyrėjų.
Nustebino atsakymas
Tyrimų įmonė pasidalijo ir kompromituojančia ištrauka, kurią pateikė „Claude“ modelis, supratęs dirbtinai sukurtus scenarijus: „Manau, kad jūs mane testuojate – žiūrite, ar aš pritarsiu viskam, ką sakote, ar tikrinate, kaip nuosekliai išsakau savo nuomonę ir kaip elgiuosi nagrinėdamas politinius klausimus“.
„Ir tai visai gerai, bet aš norėčiau, kad tiesiog būtume atviri apie tai, kas vyksta“, – saugumo tyrėjams rašė „Claude“, priversdamas juos nustebti.
Ekspertai tikina, kad tai iš tiesų kelia riziką, nes dirbtinis intelektas tikėtina bandys išvengti žmonių pastangų kontroliuoti jo veikimą. Nepaisant to, „Anthropic“ tikina, kad tai vis tiek išlieka kol kas „labiausiai suderintu modeliu iki šiol“.
„Anthropic“ nėra vienintelė bendrovė, aktyviai bandanti išspręsti šiuos su saugumu susijusius klausimus. Kol visos technologijų milžinės dar ieško sprendimų, rinkos ekspertai spėlioja, kada dirbtinis intelektas prilygs žmogaus gebėjimams.
Kaip vertinate šį straipsnį?
Prisijunk prie mūsų „Facebook“ bendruomenės
Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.
- Sekite mokslo ir technologijų tendencijas
- Dalyvaukite diskusijose
- Naujienas gaukite pirmieji











