Lyginamajame tyrime „GPT-4“ pralaimėjo „Claude-3“ geriausio didelės kalbos modelio pozicijoje

Lyginamajame tyrime GPT-4 pralaimejo Claude-3 geriausio dideles kalbos modelio pozicijoje

Lyginamajame tyrime „GPT-4“ pralaimėjo „Claude-3“ geriausio didelės kalbos modelio pozicijoje

Atrodo, kad visi, kas tik gali, metė savo kepures ir pinigus į didelių kalbos modelių (LLM) kūrimą. Dėl šio dirbtinio intelekto sprogimo atsirado poreikis juos palyginti. Todėl Berklio, San Diego ir Karnegio Mellono universitetų mokslininkai įkūrė „Large Language Systems Organization“ („LMSYS Org“ arba tiesiog „LMSYS“).

LLM ir juos naudojančių pokalbių robotų įvertinimas  – sudėtingas

Didelių kalbos modelių ir juos naudojančių pokalbių robotų įvertinimas yra sudėtingas. Be faktinių klaidų, gramatinių klaidų ar apdorojimo greičio atvejų skaičiavimo, nėra visuotinai pripažintų objektyvių rodiklių. Kol kas esame priversti naudotis subjektyviais matavimais.

Įveskite „LMSYS“ „Chatbot Arena“ – minios sudarytą lyderių lentelę, kurioje reitinguojami LLM natūralioje aplinkoje. Joje naudojama „Elo“ reitingų sistema, kuri plačiai naudojama žaidėjams reitinguoti nulinės sumos žaidimuose, pavyzdžiui, šachmatuose.

Du LLM varžosi atsitiktinėse tarpusavio rungtynėse, o žmonės aklai sprendžia, kuriam robotui jie teikia pirmenybę, remdamiesi jo rezultatais.

GPT-5 debiutas

Nuo praėjusių metų pradžios „GPT-4“ užima pirmąją vietą „Chatbot Arena“. Ji netgi tapo auksiniu standartu, o aukščiausią reitingą turinčios sistemos apibūdinamos kaip „GPT-4 klasės“ modeliai.

Tačiau vakar „OpenAI“ LLM buvo išstumta iš pirmosios vietos, kai „Anthropic“ „Claude 3 Opus“ nedidele persvara (1253 prieš 1251) aplenkė „GPT-4“. Pergalė buvo tokia artima, kad pagal paklaidą „Claude 3“ ir „GPT-4“ dėl pirmosios vietos dalijasi trimis taškais.

Anthropic“ tikriausiai neilgai išsilaikys pirmoje vietoje. Praėjusią savaitę „OpenAI“ informatoriai nutekino informaciją, kad „GPT-5“ jau beveik pasiruošusi viešam debiutui ir turėtų pradėti veikti „metų viduryje“.

Naujasis LLM modelis yra daug geresnis už „GPT-4“. Šaltinių teigimu, jame konkrečioms užduotims atlikti naudojami keli „išoriniai dirbtinio intelekto agentai”, o tai reiškia, kad jis turėtų būti pajėgus daug greičiau patikimai spręsti sudėtingas problemas.

Patiko? Nusiųsk draugui: