Dirbtinio intelekto technologijos milžinė „OpenAI“ paskelbė, kad atnaujino „ChatGPT“ vaizdo generavimo funkciją, kuri nuo šiol kurs itin kokybiškus vaizdus.
Siekiama tobulumo
Kovo 25 d. „OpenAI“ paskelbė, kad atnaujino „ChatGPT“ vaizdų generavimo galimybes su „4o“. Naujoji versija išsiskiria gebėjimu tiksliai atkurti tekstą, turėdama savo žinių bazę ir gerai suprasdama pokalbio kontekstą.
Atnaujinimas prieinamas „Plus“, „Pro“, „Team“ ir „Free“ paskyrose, o netrukus bus pasiekiamas ir kitų planų naudotojams. Jį taip pat bus galima pasiekti „Sora“ sistemoje. O iki šiol buvęs „DALL·E“ dirbtinio intelekto modelis niekur nedings ir vartotojams bus prieinamas.
Be to, bendrovė taiko griežtas apsaugos priemones, todėl bet koks netinkamo turinio generavimas gali būti užblokuotas.
Bendrovės svetainėje pranešama, kad tai pažangiausias iki šiol buvęs vaizdo generatorius:
„OpenAI“ jau seniai tikime, kad vaizdų generavimas turėtų būti pagrindinė mūsų kalbos modelių galimybė. Todėl „GPT-4o“ integravome pažangiausią iki šiol sukurtą vaizdų generatorių. Rezultatas – vaizdų generavimas, kuris yra ne tik gražus, bet ir naudingas.“
Beje, mes išmėginome naująjį dirbtinio intelekto nuotraukų generavimo modelį ir paprašėme sugeneruoti Vilniaus nuotrauką (nuotr. žemiau). Manome, kad gavosi tikrai neblogai. Pilnos kokybės nuotrauką galite peržiūrėti čia.
Kas naujo?
Apskritai „OpenAI“ teigia, kad dirbtinio intelekto modelis buvo apmokamas naudojant internetinius vaizdus kartu su tekstu, todėl pagerinta kontekstinė sąveika. Kūrimo procese atsižvelgta į tai, kad modelis itin gerai suprastų vizualinį turinį, kad vaizdai būtų ne tik estetiški, bet ir tikslūs.
Vienas iš konkrečių atnaujinimų yra teksto atvaizdavimas. Anksčiau generuojant vaizdus dar būdavo rezultatų su teksto iškraipymais dėl kurių vaizdas įprastai būdavo netinkamas, tačiau „4o“ versijoje to likti nebeturėtų.
Atsiranda daugiapakopio generavimo galimybė. Pokalbio su „ChatGPT“ lange bus galima remtis ankstesniais vaizdais, pokalbio istorija ir prašyti sistemos, kad ši juos pakoreguotų. Taip bus užtikrinamas dar didesnis patogumas ir vaizdo nuoseklumas viso kūrybinio proceso metu.
Sistema taip pat gebės sekti detalias instrukcijas ir įtraukti visas tekste minimas smulkmenas, pateiktą tekstą. „4o“ galės apdoroti 10-20 skirtingų objektų.
Tam, kad vaizdo generavimo įrankis pateiktų tiksliausią variantą, vartotojas galės įkelti papildomų vaizdų. Sistema juos analizuos ir mokysis, suteikiant geriausią rezultatą. Kadangi didelis dėmesys buvo skirtas vizualiniam supratimui, naujoje versijoje atsiskleis itin realistiški vaizdai.
Dar ne visi iššūkiai išspręsti
„OpenAI“ tikina, kad atnaujindami vaizdo generavimo įrankį jie pastebėjo dar keletą netikslumų, kuriuos ateityje po pirminio paleidimo dar tobulins.
Pavyzdžiui, kai kurios nuotraukos yra netiksliai apkarpomos, taip pat dar yra sistemos „haliucinacijų“ tikimybė, ypatingai netiksliai pateikus užklausą.
Gali būti netikslumų kuriant vaizdus su dideliu objektų kiekiu, ypatingai viršijant 20 elementų ribą. Taip pat pastebėta, kad ne visos kalbos gali būti tiksliai atkartotos bei daugiapakopiame redagavimo procese sistema dar gali susidurti su nuoseklumo išlaikymo iššūkiais.
„ChatGPT“ ir visos šio pokalbių roboto teikiamos funkcijos vartotojui yra išties naudingos. Visgi, visai neseniai „OpenAI“ bendradarbiaujant su Masačiusetso technologijų instituto tyrimų laboratorija „MIT Media Lab“ nustatė, kad per dažnas šios platformos vartojimas gali lemti emocinį prisirišimą.