VALL-E 2 generator govora toliko je dobar da se Microsoft plaši da ga pusti u javnost

Opasan po spoljni svet, VALL-E 2 će po rečima Microsoft-a, ostati istraživački projekat zbog potencijalnih rizika od 'zloupotrebe'

VALL-E 2 generator govora toliko je dobar da se Microsoft plaši da ga pusti u javnost

“VALL-E 2 je toliko neverovatan da ne možemo rizikovati njegovo puštanje u širu javnost.” Tako Microsoft u suštini govori o svom najnovijem generatoru govora, VALL-E 2. Da li to odražava stvarne zabrinutosti? Ili je ovo samo pametan marketinški trik osmišljen da privuče pažnju i pokrene online diskusije?

Ako je ovo tačno, šta nam to govori o Microsoftu koji namerno stvara AI alate koji su previše opasni za puštanje u javnost? Prava zagonetka, bez sumnje.

U svakom slučaju, evo osnovnih činjenica o situaciji. Microsoft navodi u nedavnom blogu (prenosi Extremetech) da njihov najnoviji neuronski model za sintezu govora, poznat kao VALL-E 2, postiže “ljudski paritet po prvi put”.

Konkretno, “VALL-E 2 može generisati precizan, prirodan govor u tačnom glasu originalnog govornika, uporediv sa ljudskom izvedbom.” Do neke mere, ovo nije ništa novo. Međutim, neverovatna je brzina kojom VALL-E 2 to postiže, odnosno izuzetno ograničen uzorak ili podsticaj koji je potreban da bi postigao ovaj poduhvat, što je impresivno.

VALL-E 2 može tačno imitirati glas određene osobe na osnovu uzorka dužine samo nekoliko sekundi. To postiže koristeći ogromnu biblioteku treninga koja mapira varijacije izgovora, intonacije, ritma u modelu prema uzorku i daje potpuno ubedljiv sintetički govor.

VALL-E 2 je brz i precizan

Blog post Microsofta sadrži niz audio klipova koji demonstriraju koliko dobro VALL-E 2 (i njegov prethodnik, VALL-E) mogu pretvoriti kratki uzorak od tri do deset sekundi u ubedljiv sintetički govor koji često nije različit od stvarnog ljudskog glasa.

Proces je poznat kao sinteza teksta u govor bez obuke ili skraćeno “Zero-shot TTS”. Ponovo, pristup nije nov, novost su tačnost i kratkoća uzorka zvuka.

Naravno, ideja o pretvaranju takvih alata za stvaranje lažnog sadržaja u zlonamerne svrhe nije nova ideja. Ali sposobnosti VALL-E 2 izgledaju kao da podižu pretnju na potpuno novi nivo. Zbog toga “Etička izjava” priložena blog postu jasno navodi da Microsoft trenutno nema nameru da pusti VALL-E 2 u javnost.

“VALL-E 2 je isključivo istraživački projekat. Trenutno nemamo planove da VALL-E 2 uključimo u proizvod ili proširimo pristup javnosti”, navodi se u izjavi, dodajući da “može nositi potencijalne rizike u zloupotrebi modela, kao što je krivotvorenje identifikacije glasa ili imitiranje određenog govornika. Sproveli smo eksperimente pod pretpostavkom da korisnik pristaje da bude ciljni govornik u sintezi govora. Ako se model generalizuje na neviđene govornike u stvarnom svetu, trebalo bi uključiti protokol kako bi se osiguralo da govornik odobrava upotrebu svog glasa i model za detekciju sintetičkog govora.”

Microsoft je izrazio slične zabrinutosti u vezi sa svojim VASA-1, koji može pretvoriti statičnu sliku osobe u ubedljiv pokretni video. “Nije namerno stvaranje sadržaja koji se koristi za obmanu ili zavaravanje. Međutim, kao i druge tehnike generisanja povezanih sadržaja, i dalje može potencijalno biti zloupotrebljen za imitiranje ljudi”, Microsoft je rekao o VASA-1.

Očigledno je, možda, da problemi koji dolaze sa takvim modelima nisu iznenađenje. Ne morate uspeti u stvaranju savršenog modela sinteze govora da biste zamislili šta bi moglo poći po zlu ako bi takav alat bio pušten u javnost.

Ostani u toku

Prijavi se na newsletter listu i jednom nedeljno cemo ti poslati email sa najnovijim testovima i vestima iz sveta tehnologije.

Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

Komentari (1)
  1. joojant200

    Parola: Mi pustamo samo krseve na trziste

Pridruži se diskusiji
Komentari su zatvoreni.
Možda vam se svidi
Polisa privatnosti

Ova veb stranica koristi kolačiće kako bismo vam pružili najbolje moguće korisničko iskustvo.

Informacije o kolačićima se čuvaju u vašem pretraživaču i obavljaju funkcije poput prepoznavanja kada se vratite na našu veb stranicu i pomažu našem timu da razume koje delove veb sajta smatrate najzanimljivijim i najkorisnijim.