VALL-E 2 generator govora toliko je dobar da se Microsoft plaši da ga pusti u javnost

“VALL-E 2 je toliko neverovatan da ne možemo rizikovati njegovo puštanje u širu javnost.” Tako Microsoft u suštini govori o svom najnovijem generatoru govora, VALL-E 2. Da li to odražava stvarne zabrinutosti? Ili je ovo samo pametan marketinški trik osmišljen da privuče pažnju i pokrene online diskusije?

Ako je ovo tačno, šta nam to govori o Microsoftu koji namerno stvara AI alate koji su previše opasni za puštanje u javnost? Prava zagonetka, bez sumnje.

U svakom slučaju, evo osnovnih činjenica o situaciji. Microsoft navodi u nedavnom blogu (prenosi Extremetech) da njihov najnoviji neuronski model za sintezu govora, poznat kao VALL-E 2, postiže “ljudski paritet po prvi put”.

Konkretno, “VALL-E 2 može generisati precizan, prirodan govor u tačnom glasu originalnog govornika, uporediv sa ljudskom izvedbom.” Do neke mere, ovo nije ništa novo. Međutim, neverovatna je brzina kojom VALL-E 2 to postiže, odnosno izuzetno ograničen uzorak ili podsticaj koji je potreban da bi postigao ovaj poduhvat, što je impresivno.

VALL-E 2 može tačno imitirati glas određene osobe na osnovu uzorka dužine samo nekoliko sekundi. To postiže koristeći ogromnu biblioteku treninga koja mapira varijacije izgovora, intonacije, ritma u modelu prema uzorku i daje potpuno ubedljiv sintetički govor.

VALL-E 2 je brz i precizan

Blog post Microsofta sadrži niz audio klipova koji demonstriraju koliko dobro VALL-E 2 (i njegov prethodnik, VALL-E) mogu pretvoriti kratki uzorak od tri do deset sekundi u ubedljiv sintetički govor koji često nije različit od stvarnog ljudskog glasa.

Proces je poznat kao sinteza teksta u govor bez obuke ili skraćeno “Zero-shot TTS”. Ponovo, pristup nije nov, novost su tačnost i kratkoća uzorka zvuka.

Naravno, ideja o pretvaranju takvih alata za stvaranje lažnog sadržaja u zlonamerne svrhe nije nova ideja. Ali sposobnosti VALL-E 2 izgledaju kao da podižu pretnju na potpuno novi nivo. Zbog toga “Etička izjava” priložena blog postu jasno navodi da Microsoft trenutno nema nameru da pusti VALL-E 2 u javnost.

“VALL-E 2 je isključivo istraživački projekat. Trenutno nemamo planove da VALL-E 2 uključimo u proizvod ili proširimo pristup javnosti”, navodi se u izjavi, dodajući da “može nositi potencijalne rizike u zloupotrebi modela, kao što je krivotvorenje identifikacije glasa ili imitiranje određenog govornika. Sproveli smo eksperimente pod pretpostavkom da korisnik pristaje da bude ciljni govornik u sintezi govora. Ako se model generalizuje na neviđene govornike u stvarnom svetu, trebalo bi uključiti protokol kako bi se osiguralo da govornik odobrava upotrebu svog glasa i model za detekciju sintetičkog govora.”

Microsoft je izrazio slične zabrinutosti u vezi sa svojim VASA-1, koji može pretvoriti statičnu sliku osobe u ubedljiv pokretni video. “Nije namerno stvaranje sadržaja koji se koristi za obmanu ili zavaravanje. Međutim, kao i druge tehnike generisanja povezanih sadržaja, i dalje može potencijalno biti zloupotrebljen za imitiranje ljudi”, Microsoft je rekao o VASA-1.

Očigledno je, možda, da problemi koji dolaze sa takvim modelima nisu iznenađenje. Ne morate uspeti u stvaranju savršenog modela sinteze govora da biste zamislili šta bi moglo poći po zlu ako bi takav alat bio pušten u javnost.

Komentari (1)

joojant200

12.07.2024

Parola: Mi pustamo samo krseve na trziste
- 2

Pridruži se diskusiji

Komentari su zatvoreni.

Vrati se na početak

Drugi su čitali

Uređaji
26.05.2025
2 min

Ne nasedajte ponovo, najčešće zablude o kamerama na mobilnim telefonima

Više megapiksela i više sočiva ne znače automatski bolje fotografije, evo šta stvarno treba da znate o kamerama na telefonima

Nauka i tehnologija
29.05.2025
2 min

Zaboravite Maska i kinesku dominaciju, istrošene baterije posadite u zemlju i napravite gorivo

Austrija pretvara stare baterije u čistu energiju: Revolucionarno otkriće iz Beča može promeniti svet

Softver i servisi
25.05.2025
2 min

Jedna od najboljih funkcija Gemini asistenta od sada je dostupna svim Android i iOS korisnicima i to potpuno besplatno

Funkcija Gemini Live sa kamerom i deljenjem ekrana sada je dostupna za sve korisnike širom sveta bez ikakve pretplate

Softver i servisi
26.05.2025
3 min

SEO je mrtav, tvrdi Google

Od sada je sve u rukama Google veštačke inteligencije, a klasična SEO strategija pretrage više ne važi

Biznis
26.05.2025
2 min

IBM otpustio 8.000 ljudi zbog AI, ali neočekivano je morao ponovo da zapošljava ljude zbog iste te veštačke inteligencije

Automatizacija i prelazak na AI je trebalo je da uštedi novac i radnu snagu, ali je izazvala bum zapošljavanja u potpuno novim sektorima

Testovi

Pametni satovi
27.05.2025
16 min

Huawei Watch 5 recenzija - Unapređen u svemu

Huawei Watch 5 dolazi sa novitetima koji ga u određenim stvarima čine trenutno najnaprednijim Huawei satom. O čemu se radi, pročitajte u našoj recenziji.

Periferije
26.05.2025
15 min

Canon EOS R50 V recenzija - Bez alata nema (internet) zanata

Canon EOS R50 V je povoljno i kompaktno rešenje za profesionalni video i fotografiju. Kako radi i šta sve nudi, pročitajte u našoj recenziji.

Televizori i monitori
27.05.2025
10 min

Anker Nebula Capsule 3 recenzija - Prenosni projektor, ali i puno više od toga

Ankerov Nebula Capsule 3 prenosni projektor je i mnogo više od toga, koristan za praktično svako mesto i upotrebu. O čemu se radi, pročitajte u našoj recenziji.

VALL-E 2 generator govora toliko je dobar da se Microsoft plaši da ga pusti u javnost

VALL-E 2 je brz i precizan

Naučnici potvrdili nemoguće, postojanje vremenskih refleksija koje pomeraju zakone fizike

Tri decenije Mac klonova: Divlja epizoda iz Appleove prošlosti koja je ostavila trajne posledice

Kineski DeepSeek objavio poboljšani R1 AI model koji preti dominaciji američkih giganata

Samsung pokreće One UI 8 beta verziju, šta je novo i kako se priključiti programu

Vraća se BIOS, čak i na UEFI sisteme

Šta sve korisnici dobijaju sa Google AI Pro i AI Ultra pretplatom?

NASA otkrila skrivenu tajnu Meseca

Sve zbog jednog šrafa ili zašto Apple definitivno neće proizvoditi iPhone u SAD-u

Bolje od YouTube-a, Google Flow TV je besplatna AI televizija koja prikazuje snove stvorene veštačkom inteligencijom

Zaboravite pirinač, Apple i Samsung otkrivaju kako zaista treba sušiti telefon

Apple preskače iOS 19 i direktno prelazi na iOS 26?

Windows 11 konačno dobija neophodna poboljšanja za HDR prikaz

VALL-E 2 je brz i precizan

Ostani u toku