VALL-E 2 generator govora toliko je dobar da se Microsoft plaši da ga pusti u javnost

Opasan po spoljni svet, VALL-E 2 će po rečima Microsoft-a, ostati istraživački projekat zbog potencijalnih rizika od 'zloupotrebe'

VALL-E 2 generator govora toliko je dobar da se Microsoft plaši da ga pusti u javnost

“VALL-E 2 je toliko neverovatan da ne možemo rizikovati njegovo puštanje u širu javnost.” Tako Microsoft u suštini govori o svom najnovijem generatoru govora, VALL-E 2. Da li to odražava stvarne zabrinutosti? Ili je ovo samo pametan marketinški trik osmišljen da privuče pažnju i pokrene online diskusije?

Ako je ovo tačno, šta nam to govori o Microsoftu koji namerno stvara AI alate koji su previše opasni za puštanje u javnost? Prava zagonetka, bez sumnje.

U svakom slučaju, evo osnovnih činjenica o situaciji. Microsoft navodi u nedavnom blogu (prenosi Extremetech) da njihov najnoviji neuronski model za sintezu govora, poznat kao VALL-E 2, postiže “ljudski paritet po prvi put”.

Konkretno, “VALL-E 2 može generisati precizan, prirodan govor u tačnom glasu originalnog govornika, uporediv sa ljudskom izvedbom.” Do neke mere, ovo nije ništa novo. Međutim, neverovatna je brzina kojom VALL-E 2 to postiže, odnosno izuzetno ograničen uzorak ili podsticaj koji je potreban da bi postigao ovaj poduhvat, što je impresivno.

VALL-E 2 može tačno imitirati glas određene osobe na osnovu uzorka dužine samo nekoliko sekundi. To postiže koristeći ogromnu biblioteku treninga koja mapira varijacije izgovora, intonacije, ritma u modelu prema uzorku i daje potpuno ubedljiv sintetički govor.

VALL-E 2 je brz i precizan

Blog post Microsofta sadrži niz audio klipova koji demonstriraju koliko dobro VALL-E 2 (i njegov prethodnik, VALL-E) mogu pretvoriti kratki uzorak od tri do deset sekundi u ubedljiv sintetički govor koji često nije različit od stvarnog ljudskog glasa.

Proces je poznat kao sinteza teksta u govor bez obuke ili skraćeno “Zero-shot TTS”. Ponovo, pristup nije nov, novost su tačnost i kratkoća uzorka zvuka.

Naravno, ideja o pretvaranju takvih alata za stvaranje lažnog sadržaja u zlonamerne svrhe nije nova ideja. Ali sposobnosti VALL-E 2 izgledaju kao da podižu pretnju na potpuno novi nivo. Zbog toga “Etička izjava” priložena blog postu jasno navodi da Microsoft trenutno nema nameru da pusti VALL-E 2 u javnost.

“VALL-E 2 je isključivo istraživački projekat. Trenutno nemamo planove da VALL-E 2 uključimo u proizvod ili proširimo pristup javnosti”, navodi se u izjavi, dodajući da “može nositi potencijalne rizike u zloupotrebi modela, kao što je krivotvorenje identifikacije glasa ili imitiranje određenog govornika. Sproveli smo eksperimente pod pretpostavkom da korisnik pristaje da bude ciljni govornik u sintezi govora. Ako se model generalizuje na neviđene govornike u stvarnom svetu, trebalo bi uključiti protokol kako bi se osiguralo da govornik odobrava upotrebu svog glasa i model za detekciju sintetičkog govora.”

Microsoft je izrazio slične zabrinutosti u vezi sa svojim VASA-1, koji može pretvoriti statičnu sliku osobe u ubedljiv pokretni video. “Nije namerno stvaranje sadržaja koji se koristi za obmanu ili zavaravanje. Međutim, kao i druge tehnike generisanja povezanih sadržaja, i dalje može potencijalno biti zloupotrebljen za imitiranje ljudi”, Microsoft je rekao o VASA-1.

Očigledno je, možda, da problemi koji dolaze sa takvim modelima nisu iznenađenje. Ne morate uspeti u stvaranju savršenog modela sinteze govora da biste zamislili šta bi moglo poći po zlu ako bi takav alat bio pušten u javnost.

Ostani u toku

Prijavi se na newsletter listu i jednom nedeljno cemo ti poslati email sa najnovijim testovima i vestima iz sveta tehnologije.

Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

Komentari (1)
  1. joojant200

    Parola: Mi pustamo samo krseve na trziste

Pridruži se diskusiji
Komentari su zatvoreni.
Možda vam se svidi