Google je najavio veliku nadogradnju svog sistema za glasovnu pretragu, nazvanu Speech-to-Retrieval (S2R), koja označava početak nove ere u načinu na koji pretraživač razume govor. Za razliku od ranijih modela, koji su prvo pretvarali izgovorene upite u tekst pomoću sistema Cascade ASR, novi S2R model koristi veštačku inteligenciju da direktno procesuira audio signal i povezuje ga sa relevantnim sadržajem na internetu.
Stari sistem često je gubio značenje tokom pretvaranja govora u tekst, što je dovodilo do pogrešnih rezultata. Novi pristup potpuno preskače tu fazu, omogućavajući pretragu koja “razume” govor i kontekstualno ga povezuje sa dokumentima.
Kako funkcioniše Google Speech-to-Retrieval sistem
S2R koristi dva neuronska enkodera koji zajedno uče da mapiraju značenje izgovorenih rečenica i pisanih tekstova u zajednički semantički prostor.
Audio enkoder pretvara glasovni upit u numerički vektor koji odražava njegovo značenje. Na primer, fraza “the scream painting” pozicionira se blizu podataka o Munkovom delu “Krik”. Dokument enkoder radi isto sa tekstualnim sadržajem (npr. veb stranicama), pretvarajući ih u vektore koji predstavljaju njihovu temu.
Tokom obuke, oba enkodera uče da približe srodne audio i tekstualne vektore, dok se nepovezani sadržaji udaljavaju u vektorskom prostoru. Ovaj proces stvara “bogate vektorske predstavnike” koje sadrže značenje, kontekst i nameru korisnika bez oslanjanja na ključne reči.
Preciznije rangiranje i brži rezultati
Kada korisnik izgovori upit, sistem ga odmah pretvara u vektor i upoređuje sa bazom dokumenata čiji su vektori najbliži po značenju. Nakon toga, deo za rangiranje primenjuje klasične Google signale za relevantnost i kvalitet kako bi se odredilo koji rezultati će se prikazati prvi.

Prema Google-u, ovaj pristup omogućava brže, prirodnije i tačnije pretrage, jer uklanja greške nastale u fazi transkripcije i zadržava kontekst izgovora.
Google je potvrdio da je nova tehnologija već aktivna i koristi se u više jezika, uključujući engleski, prenosi SEJ. Kompanija ovaj sistem opisuje kao “novu eru glasovne pretrage”, jer odgovore sada dobija direktno iz izgovorenih rečenica, bez posredovanja teksta:
„Voice Search sada pokreće naš novi Speech-to-Retrieval sistem, koji dobija odgovore direktno iz vašeg izgovorenog upita, omogućavajući bržu i pouzdaniju pretragu za sve korisnike.“
Sada će još bolje da me prisluškuje i predlaže šta da gledam na Youtube-u.
Ima telefon sam da otvara phub i na porodicnom rucku.
Чекамо телепатију и златно доба дигиталне персонализоване приватности.
Samo da mi ne izbacuje privatne snimke Vujadina Savića.