Humanoidinių robotų kūrimas jau daugiau nei du dešimtmečius vyksta sraigės greičiu, tačiau dėl bendradarbiavimo tarp „Figure AI“ ir „OpenAI“ vyksta spartus pagreitėjimas, o rezultatas yra labiausiai stulbinantis realaus humanoidinio roboto vaizdo įrašas, kurį kada nors esame matę.
Mokslinės fantastikos robotas
Trečiadienį pradedančioji robotikos įmonė „Figure AI“ paskelbė atnaujintą vaizdo įrašą (žr. toliau), kuriame rodomas jos robotas „Figure 01“, naudojantis naują vizualinės kalbos modelį (VLM), kuris kažkokiu būdu pavertė robotą iš gana neįdomaus automato į visavertį mokslinės fantastikos robotą, priartėjusį prie „C-3PO“ lygio gebėjimų.
Vaizdo įraše robotas stovi už stalo su lėkšte, obuoliu ir puodeliu. Kairėje pusėje stovi indas. Žmogus atsistoja priešais robotą ir klausia roboto: „Figure 01“, ką tu dabar matai?“.
Po kelių sekundžių „Figure 01“ atsako nepaprastai žmogiškai skambančiu balsu (veido nėra, tik animuota šviesa, kuri juda sinchroniškai su balsu), išsamiai apibūdindamas viską, kas yra ant stalo, ir priešais jį stovinčio žmogaus detales.
„Tai šaunu“, – pamaniau
Tada vyras paklausė: „Ei, ar galiu ko nors užkąsti?“
„Figure 01“ atsako: „Žinoma“, tada vikriais judesiais paima obuolį ir paduoda jį vyrui.
„Vau“, – pagalvojau.
Paskui vyriškis iš šiukšliadėžės priešais „Figure 01“ išpila sutrintas šiukšles ir klausia: „Ar galite paaiškinti, kodėl, rinkdamas šias šiukšles, padarėte tai, ką ką tik padarėte?“
„Figure 01“ negailėdamas laiko paaiškina savo argumentus, kai popierius vėl dedamas į šiukšliadėžę. „Taigi, daviau tau obuolį, nes tai vienintelis valgomas daiktas, kurį galėjau tau duoti nuo stalo.“
Pagalvojau: „Tai negali būti tikra“.
„Kalba į kalbą“
Bendrovė pranešime paaiškino, kad „Figure 01“ užsiima „kalbos į kalbą“ samprotavimais, naudodamas iš anksto apmokytą „OpenAI“ multimodalinį modelį VLM, kad suprastų vaizdus ir tekstus, o kurdamas atsakymus remiasi visu balso pokalbiu. Tai skiriasi nuo, tarkime, „OpenAI“ „GPT-4“, kuris daugiausia dėmesio skiria rašytinėms užuominoms.
Taip pat naudojama tai, ką bendrovė vadina „išmoktomis žemo lygio bimanualinėmis manipuliacijomis“. Sistema suderina tikslius vaizdo kalibravimus (iki pikselių lygio) su neuroniniu tinklu, kad galėtų valdyti judesius.
„Šie tinklai priima vaizdus 10 Hz dažniu ir generuoja 24 DOF veiksmus (riešo padėtis ir pirštų sąnarių kampai) 200 Hz dažniu“, – rašoma „Figure AI“ pranešime.
Įmonė teigia, kad kiekvienas vaizdo įraše matomas elgesys yra pagrįstas sistemos mokymusi ir nėra teleoperuojamas, t. y. niekas už kadro nevadovauja „Figure 01“ lėlėms.
Nematant „Figure 01“ asmeniškai ir neužduodant savo klausimų, sunku patikrinti šiuos teiginius. Gali būti, kad tai ne pirmas kartas, kai „Figure 01“ atlieka šią procedūrą. Tai galėjo būti šimtasis kartas, o tai gali paaiškinti jo greitį ir sklandumą.