Virusai yra paslaptinga ir menkai suprantama mikrobų ekosistemų jėga. Mokslininkai žino, kad jie gali užkrėsti, nužudyti ir manipuliuoti žmogaus ir bakterijų ląstelėmis beveik kiekvienoje aplinkoje – nuo vandenynų iki jūsų žarnyno.
Tačiau mokslininkai dar neturi išsamaus vaizdo apie tai, kaip virusai veikia juos supančią aplinką, iš esmės dėl jų nepaprastos įvairovės ir gebėjimo greitai evoliucionuoti. Tačiau nauji tyrimai rodo, kad dirbtinio intelekto pagalba galima įminti daugelį vandenynuose ir mūsų žarnyne esančių virusų paslapčių.
Mikrobų bendruomenių tyrimas yra sudėtingas
Mikrobų bendruomenes sunku tirti laboratorijoje. Daugelį mikrobų sudėtinga kultivuoti, o jų natūrali aplinka turi daug daugiau savybių, darančių įtaką jų sėkmei ar nesėkmei, nei mokslininkai gali atkartoti laboratorijoje.
Todėl sistemų biologai dažnai seka visą mėginyje esančią DNR, pavyzdžiui, paciento išmatų mėginį, atskiria virusų DNR sekas, tada anotuoja viruso genomo dalis, kurios koduoja baltymus.
Šios pastabos apie genų vietą, struktūrą ir kitas savybes padeda tyrėjams suprasti, kokias funkcijas virusai gali atlikti aplinkoje, ir padeda nustatyti skirtingas virusų rūšis.
Tyrėjai anotuoja virusus, lygindami mėginyje esančias virusų sekas su anksčiau anotuotomis sekomis, esančiomis viešose virusų genetinių sekų duomenų bazėse.
Tačiau mokslininkai iš aplinkos surinktoje DNR virusų sekas identifikuoja sparčiau nei mes sugebame anotuoti šiuos genus. Tai reiškia, kad mokslininkai skelbia išvadas apie virusus mikrobų ekosistemose naudodami nepriimtinai mažą turimų duomenų dalį.
Siekdami pagerinti tyrėjų gebėjimą tirti virusus visame pasaulyje, mokslininkai sukūrė naują metodą, kaip anotuoti virusų sekas naudojant dirbtinį intelektą.
Taikydami baltymų kalbos modelius, panašius į didelius kalbos modelius, tokius kaip „ChatGPT“, tačiau būdingus tik baltymams, mokslininkai galėjo klasifikuoti anksčiau nematytas virusų sekas. Tai atveria galimybes mokslininkams ne tik daugiau sužinoti apie virusus, bet ir spręsti biologinius klausimus, į kuriuos sunku atsakyti naudojant dabartinius metodus.
Virusų anotavimas naudojant dirbtinį intelektą
Dideli kalbos modeliai naudoja ryšius tarp žodžių dideliuose teksto duomenų rinkiniuose, kad pateiktų galimus atsakymus į klausimus, į kuriuos jie nėra aiškiai „išmokyti“ atsakyti.
Pavyzdžiui, kai pokalbių roboto klausiate „Kokia yra Prancūzijos sostinė?“, modelis neieško atsakymo sostinių lentelėje. Atsakymui išvesti jis naudoja savo mokymą apie didžiulius dokumentų ir informacijos duomenų rinkinius: „Prancūzijos sostinė yra Paryžius.“
Panašiai baltymų kalbos modeliai yra dirbtinio intelekto algoritmai, kurie yra apmokyti atpažinti ryšius tarp milijardų baltymų sekų iš viso pasaulio aplinkų. Šių mokymų dėka jie gali sugebėti padaryti išvadą apie virusinių baltymų esmę ir jų funkcijas.
Mokslininkai svarstė, ar baltymų kalbos modeliai galėtų atsakyti į šį klausimą: „Turint omenyje visas anotuotas virusų genetines sekas, kokia yra šios naujos sekos funkcija?“
Įrodinėdami savo koncepciją, neuroninius tinklus mokslininkai mokė anksčiau anotuotų virusinių baltymų sekų iš anksto parengtuose baltymų kalbos modeliuose ir tada naudojo juos naujų virusinių baltymų sekų anotacijai nuspėti.
Naujas metodas leidžia ištirti, ką modelis „mato“ tam tikroje viruso sekoje, dėl kurios gaunama tam tikra anotacija. Tai padeda identifikuoti dominančius kandidatus į baltymus pagal konkrečias jų funkcijas arba pagal tai, kaip yra sutvarkytas jų genomas, ir taip išskaidyti didžiulių duomenų rinkinių paieškos erdvę.
Nustatydami labiau nutolusių virusų genų funkcijas, baltymų kalbos modeliai gali papildyti dabartinius metodus ir suteikti naujų įžvalgų mikrobiologijos srityje.
Pavyzdžiui, mokslininkai galėjo pasinaudoti savo modeliu ir atrasti anksčiau neatpažintą integrazę – baltymo, galinčio perkelti genetinę informaciją į ląsteles ir iš jų, rūšį – visame pasaulyje gausiai paplitusiose jūrinėse pikocianobakterijose Prochlorocococcus ir Synechococcus.
Pažymėtina, kad ši integrazė gali būti pajėgi perkelti genus į vandenynuose esančias bakterijų populiacijas ir iš jų ir leisti šiems mikrobams geriau prisitaikyti prie kintančios aplinkos.
Pagal naują kalbos modelį taip pat nustatytas naujas viruso kapsidės baltymas, plačiai paplitęs pasauliniuose vandenynuose. Mokslininkai sukūrė pirmąjį jo genų išsidėstymo paveikslą, kuris rodo, kad jame gali būti skirtingi genų rinkiniai, o tai, mokslininkų manymu, rodo, kad šis virusas atlieka skirtingas funkcijas savo aplinkoje.
Šios preliminarios išvados yra tik dvi iš tūkstančių anotacijų, kurias pateikė naujas metodas.
Nežinomo viruso analizė
Dauguma iš šimtų tūkstančių naujai atrastų virusų lieka neklasifikuoti. Daugelis virusų genetinių sekų atitinka baltymų šeimas, kurių funkcijos nėra žinomos arba niekada anksčiau nebuvo pastebėtos. Mokslininkų darbas rodo, kad panašūs baltymų kalbos modeliai galėtų padėti ištirti daugelio mūsų planetos neapibūdintų virusų grėsmę ir perspektyvas.
Nors tyrime daugiausia dėmesio skirta pasaulinio vandenyno virusams, geresnė virusų baltymų anotacija yra labai svarbi siekiant geriau suprasti virusų vaidmenį žmogaus organizmo sveikatai ir ligoms.
Tyrėjai iškėlė hipotezę, kad virusų aktyvumas žmogaus žarnyno mikrobiome gali būti pakitęs sergant. Tai reiškia, kad virusai gali padėti nustatyti stresą mikrobų bendruomenėse.
Tačiau naujasmetodas taip pat yra ribotas, nes jam reikia aukštos kokybės anotacijų. Mokslininkai kuria naujesnius baltymų kalbos modelius, į kurių mokymą įtraukiamos ir kitos „užduotys“, ypač baltymų struktūros prognozavimas, kad būtų galima aptikti panašius baltymus, kad jie būtų galingesni.
Jei visos dirbtinio intelekto priemonės bus prieinamos remiantis FAIR duomenų principais – duomenimis, kuriuos galima rasti, kurie yra prieinami, sąveikaujantys ir pakartotinai naudojami – tai gali padėti mokslininkams plačiąja prasme išnaudoti šių naujų baltymų sekų anotavimo būdų potencialą, lemiantį atradimus, naudingus žmonių sveikatai.