Dirbtinio intelekto pokalbių robotai jau gali „matyti“ pasaulį per vaizdus ir vaizdo įrašus. Tačiau dabar „Google“ paskelbė, kad naujausiame „Gemini Pro“ atnaujinime įdiegtos garso ir kalbos funkcijos.
Dabar „Gemini 1.5 Pro“ pokalbių robotas gali „išgirsti“ į jo sistemą įkeltus garso failus ir tada išgauti tekstinę informaciją.
Bendrovė šią LLM versiją pateikė kaip viešą išankstinę peržiūrą savo „Vertex AI“ kūrimo platformoje.
Tai leis daugiau į įmones orientuotų naudotojų eksperimentuoti su šia funkcija ir praplėsti jos bazę po labiau privataus diegimo vasario mėnesį, kai apie modelį buvo paskelbta pirmą kartą. Iš pradžių jis buvo siūlomas tik ribotai kūrėjų ir įmonių klientų grupei.
Galingiausias „Google“ generatyvinis DI modelis
„Google“ išsamia informacija apie atnaujinimą pasidalijo Las Vegase vykstančioje konferencijoje „Cloud Next“.
Galingiausiu „Gemini“ šeimos modeliu pavadinusi „Gemini Ultra LLM“, kuriuo valdomas „Gemini Advanced“ pokalbių robotas, „Google“ dabar vadina „Gemini 1.5 Pro“ savo galingiausiu generatyviniu modeliu.
Kompanija pridūrė, kad ši dirbtinio intelekto versija geriau mokosi be papildomo modelio derinimo.
„Gemini 1.5 Pro“ yra multimodalinis, nes gali interpretuoti įvairių tipų garso įrašus į tekstą, įskaitant televizijos laidas, filmus, radijo laidas ir konferencinių pokalbių įrašus.
Jis netgi daugiakalbis, nes gali apdoroti garso įrašus keliomis skirtingomis kalbomis. LLM taip pat gali kurti vaizdo įrašų transkripcijas, tačiau, kaip minėjo „TechCrunch“, jo kokybė gali būti nepatikima.
Kai pirmą kartą buvo paskelbta, „Google“ paaiškino, kad „Gemini 1.5 Pro“ neapdorotiems duomenims apdoroti naudoja ženklų sistemą.
Milijonas ženklų prilygsta maždaug 700 000 žodžių arba 30 000 kodo eilučių. Žiniasklaidos pavidalu tai prilygsta valandai vaizdo įrašo arba maždaug 11 valandų garso įrašo.
„Gemini 1.5 Pro“ demonstracijos
Buvo keletas privačių „Gemini 1.5 Pro“ demonstracinių versijų, kuriose pristatoma, kaip LLM gali rasti konkrečius vaizdo įrašo transkripcijos momentus.
Pavyzdžiui, dirbtinio intelekto entuziastas Rowanas Cheungas gavo išankstinę prieigą ir išsamiai aprašė, kaip jo demonstracinė versija rado tikslų sporto varžybų kadrą ir apibendrino įvykį.
Tačiau „Google“ pažymėjo, kad kiti ankstyvieji naudotojai, įskaitant „United Wholesale Mortgage“, „TBS“ ir „Replit“, renkasi labiau į įmones orientuotus naudojimo atvejus, pavyzdžiui, būsto paskolos draudimą, metaduomenų žymėjimo automatizavimą ir kodo generavimą, aiškinimą ir atnaujinimą.