Žmogaus ir roboto rankų prisilietimas. Šaltinis: TechNaujienos / Shutterstock
Šioje užduotyje dirbtinis intelektas žmogaus dar neaplenkė: paskelbti psichologinio testo rezultatai
TRUMPAI
- • Klasikinis psichologinis testas atskleidė netikėtą pažangiausių DI modelių silpnybę.
- • Tyrėjai pastebėjo, kad didėjant šio testo sudėtingumui modelių rezultatai pradeda sparčiai blogėti.
- • Kai kurios žmogaus dėmesio kontrolės savybės DI vis dar išlieka sunkiai pasiekiamos, nors diskusijų yra įvairių.
Pažangiausi dirbtinio intelekto (DI) modeliai gali rašyti tekstus, programuoti ir spręsti sudėtingas užduotis, tačiau naujas tyrimas atskleidė netikėtą jų silpnybę. Mokslininkai nustatė, kad DI sistemų tikslumas smarkiai krenta, kai jos turi ilgiau išlaikyti dėmesį ir ignoruoti trukdančią informaciją. Rezultatai gauti pritaikius vieną žinomiausių psichologinių testų, kuris jau dešimtmečius naudojamas žmogaus dėmesio ir savikontrolės gebėjimams vertinti.
Klasikinis testas, naudojamas ir medicinoje
Birželio pradžioje žurnale „PNAS Nexus“ paskelbtame tyrime mokslininkai pasitelkė „Stroop“ testą – vieną geriausiai žinomų žmogaus dėmesio ir kontrolės vertinimo metodų. Šis testas dešimtmečius naudojamas psichologijoje ir neurologijoje, siekiant įvertinti, kaip žmogus susidoroja su „konkuruojančia informacija“ ir geba laikytis užduoties taisyklių.
Testo metu dalyviui pateikiami spalvų pavadinimai, parašyti skirtingomis spalvomis. Užduotis atrodo paprasta – reikia įvardyti spalvą, kuria parašytas žodis, o ne perskaityti patį žodį. Būtent čia atsiskleidžia gebėjimas atsispirti automatiniams įpročiams ir išlaikyti dėmesį į konkretų tikslą.
Kuo ilgesnė užduotis, tuo daugiau klaidų
Tyrėjai nusprendė patikrinti, kaip su šia užduotimi susidoroja didieji kalbos modeliai, tarp jų – „GPT-4o“, „Claude 3.5 Sonnet“, „GPT-5“, „Claude Opus 4.1“ ir „Gemini 2.5“. Pirmieji rezultatai atrodė daug žadantys: kai modeliams buvo pateikiami trumpi, vos kelių žodžių sąrašai, dauguma jų demonstravo aukštą tikslumą.
Vis dėlto situacija pasikeitė, kai užduotys tapo ilgesnės. Pasak tyrimo išvadų, „GPT-4o“ penkių žodžių sąraše pasiekė 91 proc. tikslumą, tačiau dešimties žodžių užduotyje šis rodiklis sumažėjo iki 57 proc., o keturiasdešimties žodžių sąraše – iki 15 proc. Tuo metu „Claude 3.5 Sonnet“ išlaikė stabilesnius rezultatus, tačiau ilgiausioje užduotyje jo tikslumas taip pat smuko iki 24 proc.
Dar ryškesnė problema išryškėjo tada, kai viename sąraše buvo sumaišyti tiek sutampantys, tiek nesutampantys spalvų ir žodžių deriniai. Tokiais atvejais kai kurių modelių rezultatai tapo itin netikslūs, o klaidų skaičius sparčiai augo.

Ką šie rezultatai reiškia?
Tyrimo autoriai pabrėžia, kad gauti rezultatai nereiškia, jog dabartiniai DI modeliai yra nepakankamai pažangūs ar nesupranta jiems pateikiamų užduočių. Priešingai, daugeliu atvejų jie sėkmingai atpažįsta problemą ir pateikia teisingus atsakymus, kai informacijos kiekis yra ribotas.
Vis dėlto tyrimas atskleidė svarbų skirtumą tarp žmogaus ir šiuolaikinių kalbos modelių. Žmonės, nors ir susiduria su tuo pačiu informacijos konfliktu, paprastai geba išlaikyti aukštą tikslumą net dirbdami su ilgais užduočių sąrašais. Tuo tarpu kai kurie DI modeliai ilgėjant užduočiai vis dažniau grįždavo prie paprasčiausio žodžių skaitymo, tarsi „pamiršdami“ pagrindinę taisyklę.
Tai dar vienas priminimas, jog DI pažanga nėra vienoda visose srityse. Kai kurios žmogui įprastos kognityvinės savybės vis dar išlieka rimtu iššūkiu net pažangiausiems modeliams. Kita vertus, ankstesni tyrimai rodė ir visai kitokį vaizdą – kai kuriose užduotyse DI jau pranoksta savo srities ekspertus, tam tikrose srityse lenkia vidutinį žmogų, tačiau vis dar susiduria su sunkumais mėgindamas atkartoti natūralų žmogaus rašymo stilių.
Plačiau apie tai: DI vs. žmogus: kur dirbtinis intelektas jau lenkia mus
Kaip vertinate šį straipsnį?
Prenumeruokite mūsų „YouTube“ kanalą ir mėgaukitės įdomiais vaizdo reportažais apie mokslą ir technologijas.
Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.
DIENOS SKAITOMIAUSI
Ar LED apšvietimas veikia mūsų ląsteles? Naujas tyrimas pateikė netikėtų užuominų
2DI „krikštatėvis“ perspėja: dirbtinio intelekto lenktynių jau niekas nebesustabdys
3Kas nutinka, kai DI paliekamas veikti vienas? Eksperimentas pateikė neraminančių atsakymų
4Atnaujintas planas žmonijai: kas įvyktų gavus signalą iš ateivių?
5Tyrimas: dėl dirbtinio intelekto kas antras gydytojas gali priimti daugiau pacientų
NAUJAUSI
Taip pat skaitykite
Atrinkome panašius straipsnius, kurie gali jums patikti.