„Apple“ šiandien nebėra viena iš pagrindinių dirbtinio intelekto (DI) rinkos dalyvių, tačiau naujasis šios kompanijos atvirojo kodo dirbtinio intelekto modelis, skirtas vaizdų redagavimui, rodo, kuo ji gali prisidėti prie šios DI technologijų srities.
Modelis pavadintas „MLLM-Guided Image Editing“ (MGIE), kuriame naudojami daugialypės didelės kalbos modeliai (angl. Multimodal large language models, MLLM) teksto komandoms interpretuoti, kai manipuliuojama vaizdais. Kitaip tariant, naujasis technologijų milžinės įrankis turi galimybę redaguoti nuotraukas pagal naudotojo įvestą tekstą. Nors tai nėra pirmasis įrankis, galintis tai daryti, „žmogaus nurodymai kartais būna per trumpi, kad dabartiniai metodai galėtų juos užfiksuoti ir vykdyti“, rašoma vasario 5 dieną išpublikuotame projekto dokumente (PDF).
Kaip veikia „MGIE“?
Kompanija „MGIE“ sukūrė kartu su Kalifornijos universiteto Santa Barbaroje mokslininkais. „MLLM“ gali paprastus ar dviprasmiškus tekstinius nurodymus paversti išsamesnėmis ir aiškesnėmis instrukcijomis, kuriomis gali vadovautis pats nuotraukų redaktorius. Pavyzdžiui, jei naudotojas nori redaguoti „pepperoni“ picos nuotrauką, kad joje pica atrodytų „sveikiau“, „MLLM“ geba tai interpretuoti kaip „pridėti daržovių priedų“ ir tokiu būdu redaguoti programai pateiktą nuotrauką.
„MGIE“ ne tik keičia pagrindinius vaizduose esančius elementus, bet taip pat gali apkarpyti, keisti dydį ir pasukti nuotraukas, kartu pagerinant jų ryškumą, kontrastą ir spalvų balansą – visa tai galima padaryti naudojant tekstines užklausas. Ji taip pat gali redaguoti konkrečias nuotraukos sritis ir, pavyzdžiui, pakeisti joje esančio asmens plaukus, akis ir drabužius arba pašalinti atitinkamus fono elementus.
Ką „MGIE“ geba atlikti?
„MGIE“ gali atlikti įvairius redagavimo scenarijus – nuo paprastų spalvų koregavimų iki sudėtingų objektų manipuliacijų. Priklausomai nuo naudotojo pageidavimų, modelis taip pat gali atlikti visuotinius ir vietinius redagavimus. Kai kurios „MGIE“ funkcijos ir galimybės yra:
- Išraiškingas instrukcijomis pagrįstas redagavimas: „MGIE „gali parengti glaustas ir aiškias instrukcijas, kuriomis veiksmingai vadovaujamasi redagavimo procese. Tai ne tik pagerina redagavimo kokybę, bet ir bendrą naudotojo patirtį.
- „Photoshop“ stiliaus modifikavimas: „MGIE“ gali atlikti įprastus „Photoshop“ stiliaus pakeitimus, pavyzdžiui, apkarpyti, keisti dydį, pasukti, apversti ir pridėti filtrus. Modelis taip pat gali pasitelkti pažangesnius redagavimo sprendimus, tokius kaip fono keitimas, objektų pridėjimas ar pašalinimas ir vaizdų maišymas.
- Visuotinis nuotraukų optimizavimas: „MGIE“ gali optimizuoti bendrą nuotraukos kokybę, pavyzdžiui, ryškumą, kontrastą ir spalvų balansą. Modelis taip pat gali pritaikyti meninius efektus, pavyzdžiui, eskizavimą, tapybą ir karikatūrą.
- Vietinis redagavimas: „MGIE“ gali redaguoti tam tikras vaizdo sritis ar objektus, pavyzdžiui, veidus, akis, plaukus, drabužius ir aksesuarus. Modelis geba keisti ir šių objektų atributus, pavyzdžiui, formą, dydį, spalvą, tekstūrą ir stilių.
„VentureBeat“ pažymi, kad „Apple“ modelį išleido per „GitHub“, tačiau susidomėjusieji taip pat gali išbandyti šios programos demonstracinę versiją, kuri šiuo metu talpinama svetainėje „Hugging Face Spaces“.
„Apple“ dar neatskleidė, ar planuoja iš šio projekto gautas žinias panaudoti kaip įrankį ar funkciją, kurią galėtų įtraukti į kurį nors iš savo kuriamų produktų.
Nors „MGIE“ yra laikomas dideliu proveržiu, ekspertai teigia, kad siekiant tobulinti daugialypės terpės dirbtinio intelekto sistemas dar reikia daug nuveikti. Tačiau šioje srityje pažanga yra labai sparti. Dėl „MGIE“ išleidimo kilęs ažiotažas rodo, kad tokio tipo pagalbinis dirbtinis intelektas netrukus gali tapti nepakeičiamu kūrybos pagalbininku.
Taip pat skaitykite: 7 įdomūs faktai apie technologijų milžinę „Apple“