Vienoje (Austrija) vykusiame Europos respiratologų draugijos (ERS) kongrese pristatytame tyrime pokalbių robotas „ChatGPT“ geriau nei gydytojai stažuotojai įvertino sudėtingus kvėpavimo takų ligų atvejus, pavyzdžiui, cistinę fibrozę, astmą ir krūtinės ląstos infekcijas.
Tyrimas taip pat parodė, kad „Google“ pokalbių robotas „Bard“ kai kuriais aspektais pasirodė geriau nei praktikantai, o „Microsoft“ „Bing“ pokalbių robotas pasirodė taip pat gerai kaip praktikantai.
Tyrime teigiama, kad šie dideli kalbos modeliai (LLM) galėtų būti naudojami siekiant padėti gydytojams stažuotojams, slaugytojams ir bendrosios praktikos gydytojams greičiau rūšiuoti pacientus ir sumažinti spaudimą sveikatos priežiūros tarnyboms.
Tyrimą pristatė Edinburgo karališkosios vaikų ir jaunimo ligoninės vaikų pulmonologijos konsultantas ir Edinburgo universiteto (Jungtinė Karalystė) garbės vyresnysis klinikinis dėstytojas daktaras Manjithas Narayananas.
„Dideli kalbos modeliai, tokie kaip „ChatGPT“, per pastaruosius pusantrų metų išpopuliarėjo dėl savo gebėjimo iš pažiūros suprasti natūralią kalbą ir pateikti atsakymus, galinčius tinkamai imituoti pokalbį su žmogumi. Šias priemones galima pritaikyti medicinoje. Mano motyvacija atlikti šį tyrimą buvo įvertinti, kaip gerai LLM gali padėti gydytojams realiame gyvenime.“ – teigė Dr. Manjith Narayanan, vaikų pulmonologijos konsultantas iš Karališkosios vaikų ir jaunimo ligoninės Edinburge.
Kaip vyko tyrimai?
Norėdamas tai ištirti, daktaras Narajananas naudojo klinikinius scenarijus, kurie dažnai pasitaiko vaikų respiratorinėje medicinoje. Scenarijus pateikė šeši kiti vaikų respiracinės medicinos ekspertai, jie apėmė tokias temas kaip cistinė fibrozė, astma, miego sutrikimai, kvėpavimo sutrikimai, dusulys ir krūtinės ląstos infekcijos.
Tai buvo scenarijai, kai nėra aiškios diagnozės ir kai nėra paskelbtų įrodymų, gairių ar ekspertų sutarimo, nurodančių konkrečią diagnozę ar planą.
Dešimčiai gydytojų stažuotojų, kurie turėjo mažiau nei keturių mėnesių klinikinės patirties pediatrijoje, buvo skirta valanda, per kurią jie galėjo naudotis internetu, bet ne pokalbių robotais, ir išspręsti kiekvieną scenarijų, pateikdami 200-400 žodžių aprašomąjį atsakymą. Kiekvienas scenarijus taip pat buvo pateiktas trims pokalbių robotams.
Visus atsakymus vertino šeši vaikų respiracinės medicinos ekspertai, kurie vertino jų teisingumą, išsamumą, naudingumą, tikėtinumą ir nuoseklumą. Jų taip pat buvo paprašyta pasakyti, ar, jų nuomone, kiekvieną atsakymą sukūrė žmogus, ar pokalbių robotas, ir kiekvienam atsakymui skirti bendrą balą iš devynių galimų.
Kiek balų surinko pokalbių robotai
„ChatGPT 3.5“ versijos sprendimai buvo įvertinti vidutiniškai septyniais balais iš devynių ir, kaip manoma, buvo panašesni į žmogaus atsakymus nei kitų pokalbių robotų atsakymai.
„Bard“ surinko vidutiniškai šešis balus iš devynių ir buvo įvertintas kaip labiau „nuoseklus“ nei gydytojai stažuotojai, tačiau kitais atžvilgiais nebuvo nei geresnis, nei blogesnis už gydytojus stažuotojus.
„Bing“ gavo vidutiniškai keturis balus iš devynių, t. y. tiek pat, kiek ir gydytojai stažuotojai. Ekspertai patikimai atpažino „Bing“ ir „Bard“ atsakymus kaip nežmogiškus.
„Mūsų atliktas tyrimas, mūsų žiniomis, yra pirmasis, kuriame LLM ir gydytojai stažuotojai išbandomi situacijose, kurios atspindi realią klinikinę praktiką. Tai padarėme suteikdami gydytojams praktikantams galimybę naudotis visais internete esančiais ištekliais, kaip ir realiame gyvenime. Tokiu būdu dėmesys sutelkiamas ne į atminties testavimą, kur LLM turi akivaizdų pranašumą. Todėl šis tyrimas parodo mums dar vieną būdą, kaip galėtume naudoti LLM ir kaip arti esame įprasto kasdienio klinikinio taikymo.“ – sakė Dr. Narayanan.
„Mes tiesiogiai netyrėme, kaip LLM veiktų atliekant su pacientais susijusias funkcijas. Tačiau juos galėtų naudoti rūšiavimo slaugytojos, gydytojai stažuotojai ir pirminės sveikatos priežiūros gydytojai, kurie dažnai pirmieji peržiūri pacientą.“
Tyrėjai nenustatė jokių akivaizdžių haliucinacijų (iš pažiūros išgalvotos informacijos) atvejų nė su vienu iš trijų LLM.
„Nors mūsų tyrime nepastebėjome nė vieno LLM haliucinacijų atvejo, turime žinoti apie šią galimybę ir numatyti priemones, kurios padėtų ją sumažinti“, – pridūrė daktaras Narajananas.
Atsakymus, kurie buvo įvertinti kaip nesusiję su kontekstu, kartais pateikdavo „Bing“, „Bard“ ir gydytojai stažuotojai.
Dabar daktaras Narajananas ir jo kolegos planuoja išbandyti pokalbių robotus su vyresniais gydytojais ir ištirti naujesnius ir labiau pažengusius LLM.
Hilary Pinnock yra ERS Švietimo tarybos pirmininkė ir Edinburgo universiteto (Jungtinė Karalystė) pirminės kvėpavimo medicinos profesorė, tyrime nedalyvavo.
„Tai įdomus tyrimas. Džiugina, bet gal ir šiek tiek gąsdina, kad tokia plačiai prieinama dirbtinio intelekto priemonė kaip „ChatGPT“ gali padėti išspręsti sudėtingus vaikų kvėpavimo takų ligų atvejus. Tai neabejotinai rodo kelią į drąsų naują dirbtinio intelekto palaikomos priežiūros pasaulį,“ – sakė H. Pinnock.
„Tačiau, kaip pažymi tyrėjai, prieš pradėdami naudoti dirbtinį intelektą įprastoje klinikinėje praktikoje, turime būti tikri, kad jis nepadarys klaidų dėl to, kad „haliucinuoja“ netikrą informaciją arba kad buvo apmokytas naudoti duomenis, kurie nevienodai atspindi mūsų aptarnaujamą populiaciją.“
„Kaip parodė tyrėjai, dirbtinis intelektas žada naują darbo būdą, tačiau prieš pradedant taikyti šią technologiją įprastinėje sveikatos priežiūroje, reikia išsamiai išbandyti klinikinį tikslumą ir saugumą, pragmatiškai įvertinti organizacinį veiksmingumą ir ištirti socialines pasekmes.“