Google dirbtinis intelektas nuo siol gali girdeti
Dirbtinio intelekto pokalbių robotai jau gali „matyti“ pasaulį per vaizdus ir vaizdo įrašus. Tačiau dabar „Google“ paskelbė, kad naujausiame „Gemini Pro“ atnaujinime įdiegtos garso ir kalbos funkcijos.
Dabar „Gemini 1.5 Pro“ pokalbių robotas gali „išgirsti“ į jo sistemą įkeltus garso failus ir tada išgauti tekstinę informaciją.
Bendrovė šią LLM versiją pateikė kaip viešą išankstinę peržiūrą savo „Vertex AI“ kūrimo platformoje.
Tai leis daugiau į įmones orientuotų naudotojų eksperimentuoti su šia funkcija ir praplėsti jos bazę po labiau privataus diegimo vasario mėnesį, kai apie modelį buvo paskelbta pirmą kartą. Iš pradžių jis buvo siūlomas tik ribotai kūrėjų ir įmonių klientų grupei.
Galingiausias „Google“ generatyvinis DI modelis
„Google“ išsamia informacija apie atnaujinimą pasidalijo Las Vegase vykstančioje konferencijoje „Cloud Next“.
Galingiausiu „Gemini“ šeimos modeliu pavadinusi „Gemini Ultra LLM“, kuriuo valdomas „Gemini Advanced“ pokalbių robotas, „Google“ dabar vadina „Gemini 1.5 Pro“ savo galingiausiu generatyviniu modeliu.
Kompanija pridūrė, kad ši dirbtinio intelekto versija geriau mokosi be papildomo modelio derinimo.
„Gemini 1.5 Pro“ yra multimodalinis, nes gali interpretuoti įvairių tipų garso įrašus į tekstą, įskaitant televizijos laidas, filmus, radijo laidas ir konferencinių pokalbių įrašus.
Jis netgi daugiakalbis, nes gali apdoroti garso įrašus keliomis skirtingomis kalbomis. LLM taip pat gali kurti vaizdo įrašų transkripcijas, tačiau, kaip minėjo „TechCrunch“, jo kokybė gali būti nepatikima.
Kai pirmą kartą buvo paskelbta, „Google“ paaiškino, kad „Gemini 1.5 Pro“ neapdorotiems duomenims apdoroti naudoja ženklų sistemą.
Milijonas ženklų prilygsta maždaug 700 000 žodžių arba 30 000 kodo eilučių. Žiniasklaidos pavidalu tai prilygsta valandai vaizdo įrašo arba maždaug 11 valandų garso įrašo.
„Gemini 1.5 Pro“ demonstracijos
Buvo keletas privačių „Gemini 1.5 Pro“ demonstracinių versijų, kuriose pristatoma, kaip LLM gali rasti konkrečius vaizdo įrašo transkripcijos momentus.
Pavyzdžiui, dirbtinio intelekto entuziastas Rowanas Cheungas gavo išankstinę prieigą ir išsamiai aprašė, kaip jo demonstracinė versija rado tikslų sporto varžybų kadrą ir apibendrino įvykį.
Tačiau „Google“ pažymėjo, kad kiti ankstyvieji naudotojai, įskaitant „United Wholesale Mortgage“, „TBS“ ir „Replit“, renkasi labiau į įmones orientuotus naudojimo atvejus, pavyzdžiui, būsto paskolos draudimą, metaduomenų žymėjimo automatizavimą ir kodo generavimą, aiškinimą ir atnaujinimą.
Kaip vertinate šį straipsnį?
Prenumeruokite mūsų „YouTube“ kanalą ir mėgaukitės įdomiais vaizdo reportažais apie mokslą ir technologijas.
Trumpai, aiškiai ir be triukšmo – gaukite svarbiausias technologijų ir mokslo naujienas pirmieji.
DIENOS SKAITOMIAUSI
Perspėjimas Europai: „Kinija jau laimėjo elektromobilių lenktynes“, delsimas didina kainas vairuotojams
2Jungtinės Tautos skelbia: prasideda „pasaulinis vandens bankrotas“ – brangs maistas ir energija
3Elektromobilių skaičius Lietuvoje auga „kaip ant mielių“: per penkerius metus išaugo 20 kartų
4Jūsų vardas gali apskrieti Mėnulį: NASA kviečia registruotis ir gauti įlaipinimo pasą į „Artemis II“ misiją
5Davoso forume dėmesys dirbtiniam intelektui: technologijų pasaulio vadovų įžvalgos
NAUJAUSI
Taip pat skaitykite
Atrinkome panašius straipsnius, kurie gali jums patikti.