Lyginamajame tyrime „GPT-4“ pralaimėjo „Claude-3“ geriausio didelės kalbos modelio pozicijoje

Atrodo, kad visi, kas tik gali, metė savo kepures ir pinigus į didelių kalbos modelių (LLM) kūrimą. Dėl šio dirbtinio intelekto sprogimo atsirado poreikis juos palyginti. Todėl Berklio, San Diego ir Karnegio Mellono universitetų mokslininkai įkūrė „Large Language Systems Organization“ („LMSYS Org“ arba tiesiog „LMSYS“).

LLM ir juos naudojančių pokalbių robotų įvertinimas – sudėtingas

Didelių kalbos modelių ir juos naudojančių pokalbių robotų įvertinimas yra sudėtingas. Be faktinių klaidų, gramatinių klaidų ar apdorojimo greičio atvejų skaičiavimo, nėra visuotinai pripažintų objektyvių rodiklių. Kol kas esame priversti naudotis subjektyviais matavimais.

Įveskite „LMSYS“ „Chatbot Arena“ – minios sudarytą lyderių lentelę, kurioje reitinguojami LLM natūralioje aplinkoje. Joje naudojama „Elo“ reitingų sistema, kuri plačiai naudojama žaidėjams reitinguoti nulinės sumos žaidimuose, pavyzdžiui, šachmatuose.

Du LLM varžosi atsitiktinėse tarpusavio rungtynėse, o žmonės aklai sprendžia, kuriam robotui jie teikia pirmenybę, remdamiesi jo rezultatais.

Taip pat skaitykite

[Arena Update]

70K+ new Arena votes🗳️ are in!

Claude-3 Haiku has impressed all, even reaching GPT-4 level by our user preference! Its speed, capabilities & context length are unmatched now in the market🔥

Congrats @AnthropicAI on the incredible Claude-3 launch!

More exciting… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) March 26, 2024

GPT-5 debiutas

Nuo praėjusių metų pradžios „GPT-4“ užima pirmąją vietą „Chatbot Arena“. Ji netgi tapo auksiniu standartu, o aukščiausią reitingą turinčios sistemos apibūdinamos kaip „GPT-4 klasės“ modeliai.

Tačiau vakar „OpenAI“ LLM buvo išstumta iš pirmosios vietos, kai „Anthropic“ „Claude 3 Opus“ nedidele persvara (1253 prieš 1251) aplenkė „GPT-4“. Pergalė buvo tokia artima, kad pagal paklaidą „Claude 3“ ir „GPT-4“ dėl pirmosios vietos dalijasi trimis taškais.

„Anthropic“ tikriausiai neilgai išsilaikys pirmoje vietoje. Praėjusią savaitę „OpenAI“ informatoriai nutekino informaciją, kad „GPT-5“ jau beveik pasiruošusi viešam debiutui ir turėtų pradėti veikti „metų viduryje“.

Naujasis LLM modelis yra daug geresnis už „GPT-4“. Šaltinių teigimu, jame konkrečioms užduotims atlikti naudojami keli „išoriniai dirbtinio intelekto agentai”, o tai reiškia, kad jis turėtų būti pajėgus daug greičiau patikimai spręsti sudėtingas problemas.

Patiko? Nusiųsk draugui:

Sekite mūsų naujienas Google News aplikacijoje:

Naujienos iš interneto

traffix.lt