„Google DeepMind“ robotikos komanda moko robotus mokytis taip, kaip mokosi žmogus: žiūrėdami vaizdo įrašus. Komanda paskelbė naują dokumentą, kuriame parodoma, kaip „Google“ robotai RT-2, kuriuose įdiegtas „Gemini 1.5 Pro“ generatyvinis dirbtinio intelekto modelis, gali įsisavinti informaciją iš vaizdo įrašų, kad išmoktų, kaip judėti ir net vykdyti prašymus paskirties vietoje.
Didelis dirbtinio intelekto proveržis
Dėl ilgo „Gemini 1.5 Pro“ modelio kontekstinio lango robotą galima mokyti kaip naują praktikantą. Šis langas leidžia dirbtiniam intelektui vienu metu apdoroti didelį kiekį informacijos. Tyrėjai filmuodavo vaizdo ekskursiją po paskirtą teritoriją, pavyzdžiui, namus ar biurą. Tuomet robotas žiūrėtų vaizdo įrašą ir mokytųsi apie aplinką.
Vaizdo ekskursijų detalės leidžia robotui atlikti užduotis remiantis išmoktomis žiniomis, naudojant ir žodinius, ir vaizdinius rezultatus. Tai įspūdingas būdas parodyti, kaip robotai gali sąveikauti su aplinka žmogaus elgesį primenančiais būdais.
Robotų dirbtinio intelekto ekspertizė
Praktinių bandymų metu „Gemini“ varomi robotai veikė 840 kvadratinių metrų plote ir sėkmingai vykdė daugiau kaip 50 skirtingų naudotojo nurodymų, o jų sėkmės rodiklis siekė 90 proc. Toks aukštas tikslumo lygis atveria daugybę realių dirbtinio intelekto varomų robotų panaudojimo galimybių, padedant namuose atlikti namų ruošos darbus arba darbe atlikti smulkias ar net sudėtingesnes užduotis.
Taip yra todėl, kad vienas iš svarbiausių „Gemini 1.5 Pro“ modelio aspektų yra jo gebėjimas atlikti kelių etapų užduotis. „DeepMind“ tyrimai parodė, kad robotai gali atsakyti į klausimus, pavyzdžiui, ar yra tam tikras gėrimas, pažiūrėdami šaldytuvo turinį, vizualiai apdorodami jame esančius daiktus, o tada grįždami atgal ir atsakydami į klausimą.
Idėja suplanuoti ir atlikti visą veiksmų seką rodo tokį supratimo ir atlikimo lygį, kuris pranoksta dabartinį daugumos robotų vieno žingsnio užsakymų standartą.
Tačiau nesitikėkite, kad greitai pamatysite šį robotą parduodamą. Pirma, kiekvieno nurodymo apdorojimas užtrunka iki 30 sekundžių, o tai daugeliu atvejų yra gerokai lėčiau nei tiesiog atlikti ką nors pačiam. Realių namų ir biurų chaose robotui bus daug sunkiau orientuotis nei kontroliuojamoje aplinkoje, kad ir koks pažangus būtų dirbtinio intelekto modelis.
Vis dėlto dirbtinio intelekto modelių, tokių kaip „Gemini 1.5 Pro“, integravimas į robotiką yra didesnio šuolio į priekį šioje srityje dalis. Robotai su tokiais modeliais, kaip „Gemini“ ar jo konkurentai, galėtų pakeisti sveikatos priežiūros, ekspedijavimo ir net valytojų darbą.