Nepaisant to, kad virusai su mumis sugyvena nuo pat žmonijos atsiradimo, jų visata išlieka labai paslaptinga. Virusai sparčiai mutuoja ir tai parodė naujas dirbtinio intelekto pagalba atliktas tyrimas, kurio metu buvo rasta daugiau nei 70 000 naujų virusų.
Dirbtinis intelektas padeda pažvelgti į virusų pasaulį
Dauguma virusų genetinės medžiagos yra biologinė „tamsioji medžiaga“, – rašė Mangas Shi iš Sun Jat-seno universiteto ir jo kolegos naujame straipsnyje, paskelbtame žurnale „Cell“.
Pasitelkusi dirbtinį intelektą, komanda padarė reikšmingų atradimų. Šis dirbtinis intelektas, pavadintas „LucaProt“, remiasi dideliu kalbos modeliu, kad suprastų virusų genetinės medžiagos fragmentus. Kitas algoritmas toliau analizuoja genetinius duomenis į „lengviau virškinamus“ gabalėlius, kad padidintų veiksmingumą.
Išanalizavęs beveik 10 500 mėginių – kai kurie iš ankstesnių duomenų bazių, kiti surinkti tyrimo metu – dirbtinis intelektas aptiko 70 458 naujus RNR virusus iš mėginių visame pasaulyje.
Virusai turi blogą reputaciją, pvz., Covid-19 pandemija ir kasmetinis gripo sezonas išryškina jų destruktyviąją pusę. Tačiau jie taip pat gali būti naudojami kovojant su antibiotikams atspariomis bakterijomis, perkeliant genų terapiją į ląsteles arba kuriant vakcinas.
Virusinis perdavimas
Žmonių DNR yra genetinis planas. DNR verčiama į RNR – taip pat sudarytą iš keturių genetinių raidžių – kuri perkelia genetinę informaciją į ląstelių gamyklą, kurioje gaminami baltymai.
Virusai yra kitokie. Kai kurie jų visiškai atsisako DNR, o savo genetinį planą tiesiogiai užkoduoja RNR.
Dešimtmečius mokslininkai bandė iššifruoti virusus rinkdami mėginius. Jų šaltiniai – nuo kasdienių – vietinio upelio vandens iki ekstremalių, tokių kaip Antarktidos ledas ar gilus jūros vanduo.
Iš šių mėginių išskirta RNR kruopščiai sekvenuojama ir kaupiama duomenų bazėse. Šis metodas, vadinamas metagenomika, fiksuoja visų virusų RNR fragmentus iš aplinkos. Tačiau klasikiniais skaičiavimo metodais sunku išrinkti šias dideles duomenų bazes, kad būtų galima rasti naudingų įžvalgų.
Tuo tarpu „ESMFold“ programa, sukurta „Meta“, remiasi dideliais kalbos modeliais – ta pačia technologija, kuri naudojama „OpenAI“ programoje „ChatGPT“ ir „Google“ programoje „Gemini“, – ir pagal aminorūgščių „raides“ prognozuoja baltymų struktūras.
Panašūs metodai, įskaitant „DeepMind“ „AlphaFold“ ir Davido Bakerio „RoseTTAFold“, savo kūrėjams neseniai pelnė 2024 m. Nobelio chemijos premiją.
„ESMFold“ priima molekulines sekas ir prognozuoja baltymų 3D struktūras atomų lygmeniu. Atlikdami pirmąją realią užduotį, mokslininkai panaudojo dirbtinį intelektą, kad iššifruotų baltymų „tamsiąją medžiagą“ mikrobuose, apie kuriuos žinome mažiausiai.
Praėjusiais metais dirbtinis intelektas nuspėjo daugiau kaip 700 mln. mikroorganizmų baltymų struktūrą. Dešimt procentų jų buvo visiškai svetimi visiems anksčiau atrastiems.
Atsižvelgdama į tai, Shi komanda ėmė aiškintis, ar panaši strategija galėtų veikti RNR virusų pasaulyje.
Virusų paieška
Anksčiau mokslininkai naudojo dirbtinį intelektą, kad iš petabaitų genetinio sekvenavimo duomenų – kiekis, maždaug prilygstantis 500 milijonų didelės raiškos nuotraukų – išgautų galimus naujus RNR virusus.
Šiuose tyrimuose daugiausia dėmesio skirta nuo RNR priklausomai RNR polimerazei, arba RdRP. Čia RNR sekos koduoja RdRP – baltymų šeimą, žyminčią daugumos RNR virusų genomus. Ankstyvojoje analizėje, remiantis jų genetiniais duomenimis, nustatyta beveik 132 000 naujų RNR virusų.
Tačiau problema ta, kad virusai greitai mutuoja. Jei genetinės raidės, koduojančios RdRP, pasikeičia, pagal šias sekas apmokytas dirbtinis intelektas gali nesugebėti atpažinti mutavusių virusų. Naujajame tyrime ši problema išspręsta sujungus ankstesnį metodą su „ESMFold“ dviejų kanalų dirbtiniu intelektu.
Pirmajame kanale naudojamas transformatoriumi pagrįstas modelis, panašus į „ChatGPT“, siekiant iš didelės duomenų bazės išgauti aminorūgščių sekos „raktažodžius“, koduojančius virusų RdRP.
Apmokius su norimomis sekomis ir kai kuriomis atsitiktinai sugeneruotomis sekomis, dirbtinis intelektas sukūrė maždaug 20 000 dažnai pasitaikančių baltymų sekų, koduojančių RdRP, žodyną.
Palyginti su ankstesniais metodais, šiame etape genetinės bibliotekos suskaidomos į lengviau įsisavinamas dalis, todėl dirbtiniam intelektui lengviau susidoroti su ilgesnėmis genetinėmis sekomis ir aptikti virusų RdRP baltymus.
Antrajame kanale naudojama „ESMFold“ versija. Užuot sparčiai skaitęs baltymo žodžius, jis „skaito“ kiekvieną raidę ir numato, kaip kiekviena raidė struktūriškai jungiasi su kitomis, kad sudarytų 3D baltymo formas.
Šis žingsnis pagrindžia dirbtinį intelektą ir leidžia jam įsivaizduoti, kaip RdRP turėtų atrodyti gyvuose virusuose.
„LucaProt“ buvo apmokytas naudoti beveik 6000 sekų, koduojančių RdRP baltymus, ir daugiau kaip 229 500 sekų, kurios, kaip žinoma, koduoja skirtingus baltymus. Pateikus testinį duomenų rinkinį, kurio atsakymus mokslininkai žinojo, dirbtinis intelektas buvo itin tikslus – klaidingai teigiami rezultatai buvo gauti tik 0,014 proc. atvejų.
Dirbtinis intelektas rado 70 458 potencialius naujus, unikalius virusus. Vienas iš jų, išskirtas iš purvo, turėjo stebėtinai ilgą genomą – „vieną ilgiausių iki šiol nustatytų RNR virusų“. Kiti galėjo klestėti karštose versmėse ir itin sūriuose ežeruose.
Išsiplėtusi virusų sfera papildo žinomas virusų grupes naujais virusais, pavyzdžiui, Flaviviridae, sukeliančiais hepatitą ar geltonąjį drugį. „LucaProt“ taip pat nustatė 60 skirtingų virusų grupių, kurių kiekviena labai skiriasi nuo visų šiandien žinomų virusų.
Tai nereiškia, kad jos sukelia ligas, tačiau ankstesniuose RNR virusų atradimo projektuose į jas iš esmės nebuvo atsižvelgta.
Kas toliau?
Virusams išgyventi reikia gyvo šeimininko. Komanda tobulina savo dirbtinį intelektą, kad galėtų nuspėti šiuos šeimininkus. Dauguma RNR virusų užkrečia eukariotus, kuriems priklauso augalai, gyvūnai ir žmonės. Kai kurie virusai taip pat gali užkrėsti bakterijas.
„RNR virusų evoliucijos istorija yra bent jau tokia pat ilga, jei ne ilgesnė, kaip ir ląstelinių organizmų.“ – tyrime rašo autoriai.
Dažnai ignoruojama trečioji gyvybės šaka – archėjos. Šios gyvybės formos, išsivysčiusios ankstyvaisiais gyvybės etapais Žemėje, turi panašumų į bakterijas ir eukariotus – pavyzdžiui, kaip replikuojasi jų genetinė medžiaga.
Tačiau archėjos yra atskira gyvybės rūšis, kuri klesti ekstremalioje aplinkoje, pavyzdžiui, hidroterminėse versmėse arba itin sūriame vandenyje.
Yra užuominų, kad RNR virusai taip pat gali užkrėsti archėjas. Jei taip, tai galėtų paskatinti naujus tyrimus apie mūsų gyvybės medį ir naujų biotechnologijų kūrimą.