„Apple“ pristatė dirbtinio intelekto modelį, kuris gali redaguoti vaizdus pagal teksto komandas
„Apple“ pristatė dirbtinio intelekto modelį, kuris gali redaguoti vaizdus pagal teksto komandas
„Apple“ šiandien nebėra viena iš pagrindinių dirbtinio intelekto (DI) rinkos dalyvių, tačiau naujasis šios kompanijos atvirojo kodo dirbtinio intelekto modelis, skirtas vaizdų redagavimui, rodo, kuo ji gali prisidėti prie šios DI technologijų srities.
Modelis pavadintas „MLLM-Guided Image Editing“ (MGIE), kuriame naudojami daugialypės didelės kalbos modeliai (angl. Multimodal large language models, MLLM) teksto komandoms interpretuoti, kai manipuliuojama vaizdais. Kitaip tariant, naujasis technologijų milžinės įrankis turi galimybę redaguoti nuotraukas pagal naudotojo įvestą tekstą. Nors tai nėra pirmasis įrankis, galintis tai daryti, „žmogaus nurodymai kartais būna per trumpi, kad dabartiniai metodai galėtų juos užfiksuoti ir vykdyti“, rašoma vasario 5 dieną išpublikuotame projekto dokumente (PDF).
Kaip veikia „MGIE“?
Kompanija „MGIE“ sukūrė kartu su Kalifornijos universiteto Santa Barbaroje mokslininkais. „MLLM“ gali paprastus ar dviprasmiškus tekstinius nurodymus paversti išsamesnėmis ir aiškesnėmis instrukcijomis, kuriomis gali vadovautis pats nuotraukų redaktorius. Pavyzdžiui, jei naudotojas nori redaguoti „pepperoni“ picos nuotrauką, kad joje pica atrodytų „sveikiau“, „MLLM“ geba tai interpretuoti kaip „pridėti daržovių priedų“ ir tokiu būdu redaguoti programai pateiktą nuotrauką.
„MGIE“ ne tik keičia pagrindinius vaizduose esančius elementus, bet taip pat gali apkarpyti, keisti dydį ir pasukti nuotraukas, kartu pagerinant jų ryškumą, kontrastą ir spalvų balansą – visa tai galima padaryti naudojant tekstines užklausas. Ji taip pat gali redaguoti konkrečias nuotraukos sritis ir, pavyzdžiui, pakeisti joje esančio asmens plaukus, akis ir drabužius arba pašalinti atitinkamus fono elementus.
Ką „MGIE“ geba atlikti?
„MGIE“ gali atlikti įvairius redagavimo scenarijus – nuo paprastų spalvų koregavimų iki sudėtingų objektų manipuliacijų. Priklausomai nuo naudotojo pageidavimų, modelis taip pat gali atlikti visuotinius ir vietinius redagavimus. Kai kurios „MGIE“ funkcijos ir galimybės yra:
- Išraiškingas instrukcijomis pagrįstas redagavimas: „MGIE „gali parengti glaustas ir aiškias instrukcijas, kuriomis veiksmingai vadovaujamasi redagavimo procese. Tai ne tik pagerina redagavimo kokybę, bet ir bendrą naudotojo patirtį.
- „Photoshop“ stiliaus modifikavimas: „MGIE“ gali atlikti įprastus „Photoshop“ stiliaus pakeitimus, pavyzdžiui, apkarpyti, keisti dydį, pasukti, apversti ir pridėti filtrus. Modelis taip pat gali pasitelkti pažangesnius redagavimo sprendimus, tokius kaip fono keitimas, objektų pridėjimas ar pašalinimas ir vaizdų maišymas.
- Visuotinis nuotraukų optimizavimas: „MGIE“ gali optimizuoti bendrą nuotraukos kokybę, pavyzdžiui, ryškumą, kontrastą ir spalvų balansą. Modelis taip pat gali pritaikyti meninius efektus, pavyzdžiui, eskizavimą, tapybą ir karikatūrą.
- Vietinis redagavimas: „MGIE“ gali redaguoti tam tikras vaizdo sritis ar objektus, pavyzdžiui, veidus, akis, plaukus, drabužius ir aksesuarus. Modelis geba keisti ir šių objektų atributus, pavyzdžiui, formą, dydį, spalvą, tekstūrą ir stilių.
„VentureBeat“ pažymi, kad „Apple“ modelį išleido per „GitHub“, tačiau susidomėjusieji taip pat gali išbandyti šios programos demonstracinę versiją, kuri šiuo metu talpinama svetainėje „Hugging Face Spaces“.
„Apple“ dar neatskleidė, ar planuoja iš šio projekto gautas žinias panaudoti kaip įrankį ar funkciją, kurią galėtų įtraukti į kurį nors iš savo kuriamų produktų.
Nors „MGIE“ yra laikomas dideliu proveržiu, ekspertai teigia, kad siekiant tobulinti daugialypės terpės dirbtinio intelekto sistemas dar reikia daug nuveikti. Tačiau šioje srityje pažanga yra labai sparti. Dėl „MGIE“ išleidimo kilęs ažiotažas rodo, kad tokio tipo pagalbinis dirbtinis intelektas netrukus gali tapti nepakeičiamu kūrybos pagalbininku.
Taip pat skaitykite: 7 įdomūs faktai apie technologijų milžinę „Apple“
Kaip vertinate šį straipsnį?
Prenumeruokite mūsų „YouTube“ kanalą ir mėgaukitės įdomiais vaizdo reportažais apie mokslą ir technologijas.
Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.
DIENOS SKAITOMIAUSI
Perspėjimas Europai: „Kinija jau laimėjo elektromobilių lenktynes“, delsimas didina kainas vairuotojams
2Elektromobilių skaičius Lietuvoje auga „kaip ant mielių“: per penkerius metus išaugo 20 kartų
3Jūsų vardas gali apskrieti Mėnulį: NASA kviečia registruotis ir gauti įlaipinimo pasą į „Artemis II“ misiją
4Davoso forume dėmesys dirbtiniam intelektui: technologijų pasaulio vadovų įžvalgos
5Jungtinės Tautos skelbia: prasideda „pasaulinis vandens bankrotas“ – brangs maistas ir energija
NAUJAUSI
Taip pat skaitykite
Atrinkome panašius straipsnius, kurie gali jums patikti.