Dirbtinio intelekto veidas.
Sukurtas pirmasis lietuvių kalbos dirbtinio intelekto modelis: lietuvių tyrėjų žingsnis į DI ateitį
Valstybės skaitmeninių sprendimų agentūra (VSSA) kartu su Vytauto Didžiojo universitetu (VDU), UAB „Neurotechnology“, UAB „Tilde Lietuva“ ir MB „Krilas“ įgyvendina projektą „Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas“. Lapkričio 3 d. tapo viešai prieinamas ir atviras naudoti pirmasis praktinis Projekto rezultatas – Mažasis lietuvių kalbos vektorizuotas modelis.
Pirmiausia – duomenys
Sėkmingam ir efektyviam dirbtinio intelekto (DI) technologijų vystymui pirmiausia yra būtini itin gausūs ir kokybiški kalbiniai ištekliai.
Bendrasis lietuvių kalbos tekstynas bus didžiausias lig šiol sukauptas lietuviškas tekstynas. Jį sudarys patikrinti, žmogaus kurti (ne DI generuoti) tekstai – iš viso net 3,5 mlrd. žodžių.
Apmokytas pirmasis neuroninis lietuvių kalbos modelis
Panaudojant Tekstyną, kuriami du iš anksto apmokyti (angl. pre-trained) neuroniniai lietuvių kalbos modeliai – mažasis ir didysis. Tokie modeliai užkoduoja kalbą kompiuteriui suprantamu būdu, taip sudarydami sąlygas DI inovacijų kūrėjams vystyti įvairius DI sprendimus, pvz., pokalbių robotus, teksto generavimo įrankius ir kt.
Pirmasis praktinis Projekto rezultatas – Mažasis lietuvių kalbos vektorizuotas modelis (LT-MLKM-modernBERT) – jau pasiekiamas atvirojoje prieigoje, Hugging Face platformoje.
Mažasis lietuvių kalbos vektorizuotas modelis: VSSA-SDSA (State Digital Solutions Agency (LT))
Mažojo lietuvių kalbos vektorizuoto modelio validavimo kodas: VSSA-AtvirasKodas-LT/LT_AI-NER
Mažojo lietuvių kalbos vektorizuoto modelio metaduomenys: Lietuvos atvirų duomenų portalas | Mažasis lietuvių kalbos vektorizuotas modelis
„Mažasis lietuvių kalbos vektorizuotas modelis yra apmokytas su daugiau nei puse planuojamo sukaupti Tekstyno, t. y. 1,87 mlrd. žodžių. Galima sakyti, kad kol kas tai yra didžiausias tokios kokybės lietuvių kalbos tekstų rinkinys vienoje vietoje“, – teigia tiekėjų grupės vadovas VDU vyresnysis mokslo darbuotojas dr. Andrius Utka.
Rinkoje konkurencingas lietuviškas vektorizuotas modelis
Modelio veikimas patikrintas pritaikius jį konkrečiai užduočiai – įvardytųjų esybių atpažinimui (angl. named entity recognizer; NER). Įsitikinta, kad modelis tekstuose gali sėkmingai atpažinti įvardytąsias esybes, t. y. asmenvardžius, vietovardžius, datas ir kt. Tai svarbu norint anonimizuoti tekstus, atlikti specifinės informacijos paiešką tekstuose ir pan.
Modelis taip pat gali būti pritaikytas sentimentų tekste analizei ir kitoms užduotims. Įvardintųjų esybių atpažinimui pritaikytas modelis (LT-NER-modernBERT) taip pat yra patalpintas atviroje prieigoje.
„Kurdami Mažąjį lietuvių kalbos vektorizuotą modelį atlikome keliasdešimt eksperimentų tiek su skirtingais modeliais, tiek su modifikacijomis. Šis modelis yra žymiai geresnis negu esami rinkoje. Kas yra įdomu, kad tokius lietuvių kalbos modelius buvo kūrę slovėnų, slovakų tyrėjai, bet lietuviško vardo ten nerasi. Dabar yra lietuviškas modelis, kurį sukūrė lietuviai“, – sako UAB „Neurotechnology“ natūralios kalbos apdorojimo vyr. specialistas Vytas Mulevičius.
Įgyvendinus Projektą visi Tekstyno duomenys bus viešai prieinami ir galimi perpanaudoti kitiems lietuvių kalbos modeliams kurti.
Projektu prisidedama prie 2021–2030 metų Lietuvos Respublikos Ekonomikos ir inovacijų ministerijos valstybės skaitmeninimo plėtros programos pažangos priemonės Nr. 05-002-01-07-08 „Kurti technologinius sprendimus ir įrankius, leidžiančius saugiai ir patogiai naudotis paslaugomis“ veiklos „Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra“ įgyvendinimo.
Projektas įgyvendinamas Ekonomikos gaivinimo ir atsparumo didinimo priemonės (RRF) lėšomis.
Kaip vertinate šį straipsnį?
Prenumeruokite mūsų „YouTube“ kanalą ir mėgaukitės įdomiais vaizdo reportažais apie mokslą ir technologijas.
Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.
DIENOS SKAITOMIAUSI
Mokslininkai atrado būdą sustabdyti gausų kraujavimą per vieną sekundę
2Galingiausios pasaulio kariuomenės 2025-aisiais: kokią vietą užima Lietuva?
3Perspėjimas Europai: „Kinija jau laimėjo elektromobilių lenktynes“, delsimas didina kainas vairuotojams
4Elektromobilių skaičius Lietuvoje auga „kaip ant mielių“: per penkerius metus išaugo 20 kartų
5Davoso forume dėmesys dirbtiniam intelektui: technologijų pasaulio vadovų įžvalgos
NAUJAUSI
Taip pat skaitykite
Atrinkome panašius straipsnius, kurie gali jums patikti.