Gemini AI je dobio uši, od sada može i da vas čuje

Do sada je mogao da „vidi“ spoljni svet kroz fotografije i video. Sada je Google pustio u opticaj „audio-to-speech“ funkciju pomoću koje Gemini Pro može da čuje audio fajlove

Gemini AI je dobio uši, od sada može i da vas čuje

Google je Gemini 1.5 Pro verziju učinio javno dostupnom kao test verziju Veretx AI platforme za dalji razvoj i unapređenje karakteristika. Ovaj potez će omogućiti većem broju poslovno orijentisanih korisnika da eksperimentišu sa naprednim mogućnostima veštačke inteligencije i prošire bazu znanja modela, nakon što je u februaru prvi put predstavljen odabranoj grupi korisnika mahom programera  i poslovnih klijenata.

Više detalja o ažuriranju svog LLM modela, Google je sa javnošću podelio na svojoj Cloud Next konferenciji, koja se trenutno održava u Las Vegasu. Nakon što je Gemini Ultra LLM koji pokreće Google Gemini Advanced chatbot nazvao najmoćnijim modelom svoje Gemini AI porodice, Google sada Gemini 1.5 Pro naziva svojim najsposobnijim generativnim modelom. Kompanija je dodala da je ova verzija još bolja u učenju bez potrebe dodatnog podešavanja modela.

Gemini AI je dobio sluh od svog tvorca

Gemini 1.5 Pro je multimodalan pri čemu može da interpretira različite vrste zvuka u tekst, uključujući TV emisije, filmove, radio emisije i snimke konferencijskih poziva. Čak je i višejezičan zato što može da obrađuje zvuk na nekoliko različitih jezika. LLM će takođe biti u mogućnosti da kreira transkripte iz video zapisa; međutim, kvalitet u početku može biti diskutabilan, navodi TechCrunch.

Kada je prvi put objavljen, Google je objasnio da Gemini 1.5 Pro koristi sistem tokena za obradu sirovih podataka. Milion tokena je jednako otprilike 700.000 reči ili 30.000 linija koda. U medijskom obliku, to je sat vremena videa ili oko 11 sati zvuka.

Bilo je nekoliko privatnih demo pregleda Gemini 1.5 Pro verzije koji pokazuju kako LLM može da pronađe određene trenutke u video transkriptu. Na primer, AI entuzijasta Rowan Cheung dobio je rani pristup i detaljno je opisao kako je njegov demo pronašao tačan akcioni snimak na sportskom takmičenju i rezimirao događaj, kao što se vidi u prethodnoj twitter objavi.

Međutim, Google je primetio da se drugi korisnici koji su imali prilike da testiraju ovaj AI model, uključujući United Vholesale Mortgage, TBS i Replit, mahom odlučuju za upotrebu koja je više fokusirana na preduzeća, kao što su hipoteka, automatizovano označavanje metapodataka, zatim generisanje, objašnjenje i ažuriranje koda. Dakle, nova funkcija nema samo zabavnu već i konkretnu poslovnu svrhu.

Ostani u toku

Prijavi se na newsletter listu i jednom nedeljno cemo ti poslati email sa najnovijim testovima i vestima iz sveta tehnologije.

Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

Možda vam se svidi