“VALL-E 2 je toliko neverovatan da ne možemo rizikovati njegovo puštanje u širu javnost.” Tako Microsoft u suštini govori o svom najnovijem generatoru govora, VALL-E 2. Da li to odražava stvarne zabrinutosti? Ili je ovo samo pametan marketinški trik osmišljen da privuče pažnju i pokrene online diskusije?
Ako je ovo tačno, šta nam to govori o Microsoftu koji namerno stvara AI alate koji su previše opasni za puštanje u javnost? Prava zagonetka, bez sumnje.
U svakom slučaju, evo osnovnih činjenica o situaciji. Microsoft navodi u nedavnom blogu (prenosi Extremetech) da njihov najnoviji neuronski model za sintezu govora, poznat kao VALL-E 2, postiže “ljudski paritet po prvi put”.
Konkretno, “VALL-E 2 može generisati precizan, prirodan govor u tačnom glasu originalnog govornika, uporediv sa ljudskom izvedbom.” Do neke mere, ovo nije ništa novo. Međutim, neverovatna je brzina kojom VALL-E 2 to postiže, odnosno izuzetno ograničen uzorak ili podsticaj koji je potreban da bi postigao ovaj poduhvat, što je impresivno.
VALL-E 2 može tačno imitirati glas određene osobe na osnovu uzorka dužine samo nekoliko sekundi. To postiže koristeći ogromnu biblioteku treninga koja mapira varijacije izgovora, intonacije, ritma u modelu prema uzorku i daje potpuno ubedljiv sintetički govor.
VALL-E 2 je brz i precizan
Blog post Microsofta sadrži niz audio klipova koji demonstriraju koliko dobro VALL-E 2 (i njegov prethodnik, VALL-E) mogu pretvoriti kratki uzorak od tri do deset sekundi u ubedljiv sintetički govor koji često nije različit od stvarnog ljudskog glasa.
Proces je poznat kao sinteza teksta u govor bez obuke ili skraćeno “Zero-shot TTS”. Ponovo, pristup nije nov, novost su tačnost i kratkoća uzorka zvuka.
Naravno, ideja o pretvaranju takvih alata za stvaranje lažnog sadržaja u zlonamerne svrhe nije nova ideja. Ali sposobnosti VALL-E 2 izgledaju kao da podižu pretnju na potpuno novi nivo. Zbog toga “Etička izjava” priložena blog postu jasno navodi da Microsoft trenutno nema nameru da pusti VALL-E 2 u javnost.
“VALL-E 2 je isključivo istraživački projekat. Trenutno nemamo planove da VALL-E 2 uključimo u proizvod ili proširimo pristup javnosti”, navodi se u izjavi, dodajući da “može nositi potencijalne rizike u zloupotrebi modela, kao što je krivotvorenje identifikacije glasa ili imitiranje određenog govornika. Sproveli smo eksperimente pod pretpostavkom da korisnik pristaje da bude ciljni govornik u sintezi govora. Ako se model generalizuje na neviđene govornike u stvarnom svetu, trebalo bi uključiti protokol kako bi se osiguralo da govornik odobrava upotrebu svog glasa i model za detekciju sintetičkog govora.”
Microsoft je izrazio slične zabrinutosti u vezi sa svojim VASA-1, koji može pretvoriti statičnu sliku osobe u ubedljiv pokretni video. “Nije namerno stvaranje sadržaja koji se koristi za obmanu ili zavaravanje. Međutim, kao i druge tehnike generisanja povezanih sadržaja, i dalje može potencijalno biti zloupotrebljen za imitiranje ljudi”, Microsoft je rekao o VASA-1.
Očigledno je, možda, da problemi koji dolaze sa takvim modelima nisu iznenađenje. Ne morate uspeti u stvaranju savršenog modela sinteze govora da biste zamislili šta bi moglo poći po zlu ako bi takav alat bio pušten u javnost.
Parola: Mi pustamo samo krseve na trziste