AI VALL-E nakon 3 sekunde može imitirati bilo čiji glas

Istraživački tim kompanije Microsoft objavio je novi model veštačke inteligencije koji pretvara tekst u govor i može proizvesti bilo čiji glas. Novom modelu, pod nazivom VALL-E, sve što je potrebno je snimak zvuka dužine tri sekunde. Nakon što završi proces učenja i nauči nečiju boju glasa, veštačka inteligencija može pustiti zvuk te osobe kako govori bilo šta, pritom zadržavajući emotivni ton, prenosi Ars Technica.

Kompanija Microsoft naziva VALL-E “model jezika neuronskog kodeka”, i izgrađen je na tehnologiji nazvanoj EnCodec koju je kompanija Meta najavila u oktobru 2022. godine. U odnosu na druge “text-to-speech” metode koje proizvode govor manipulišući talasnim dužinama, VALL-E stvara odvojene kodove audio kodeka zahvaljujući tekstualnim i akustičnim pomagalima. U osnovi VALL-E analizira kako osoba zvuči, deli tu informaciju na više komponenata (tokena) zahvaljujući EnCodec tehnologiji, i na kraju spaja deo dobijenih informacija koji se poklapa sa primerom iz prethodno učitanog snimka da bi pretpostavio kako bi osoba zvučala prilikom izgovaranja fraza koje nisu u snimku.

Microsoft je objasnio na sledeći način: “Kako bi stvorio personalizovani govor, VALL-E kreira odgovarajuće akustične tokene uslovljene akustičnim tokenima unapred učitanog zvučnog snimka. Na kraju, stvoreni akustični tokeni se koriste kako bi se kreirao konačni zvučni talas sa odgovarajućim dekoderom neuronskog kodeka.”

VALL-E se usavršavao zahvaljujući zvučnoj biblioteci kompanije Meta

Microsoft je usavršavao mogućnost VALL-E veštačke inteligencije da stvara govor zahvaljujući zvučnoj biblioteci LibriLight, koju je sastavila kompanija Meta. Sama biblioteka sadrži 60.000 časova pričanja engleskog jezika od strane više od 7.000 ljudi, najviše preuzetih od LibriVox javnih zvučnih knjiga.

Grafik rada VALL-E AI (veštačka inteligencija) modela — Izvor: Microsoft

Microsoft ponudio primere, od kojih određeni zvuče veoma uverljivo

Kompanija Microsoft je na internet stranici sa ponuđenim primerima prikazala rezultate VALL-E veštačke inteligencije. Zvučni snimci obeleženi sa “Speaker Prompt” oznakom su snimci dužine tri sekunde, koje VALL-E mora imitirati. Zvučni snimak sa oznakom “Ground Truth” je već snimljeni zvučni prikaz cele fraze, snimljen unapred radi poređenja sa VALL-E verzijom istog teksta. “Baseline” je rezultat koji nudi standardni pretvarač teksta u govor, dok je “VALL-E” verzija ona koju sama VALL-E veštačka inteligencija kreira. Rezultati eksperimenta su mešoviti – kod nekih se čuje da su u pitanju kompjuterski generisani, dok drugi mogu veoma jednostavno biti zamenjeni pravim glasom.

Radi očuvanja vokalnog i emotivnog tona, VALL-E takođe može imitirati i različita akustična okruženja, pa tako na primer da bi rezultat zvučao kao telefonski razgovor biće dodati akustični efekti, kao i frekvencije telefonskog razgovora.

Microsoft svestan rizika koju tehnologija nosi sa sobom

Svesna potencijalnog rizika koju tehnologija donosi, kompanija je izjavila: “Budući da VALL-E može rekreirati govor koji zadržava i identitet, tehnologija sa sobom nosi i potencijalni rizik od korišćenja u pogrešne svrhe. Da bi izbegli ovakve rizike moguće je napraviti detektor koji će utvrditi da li je zvučni snimak kreirao VALL-E.”

Vrati se na početak

Drugi su čitali

Nauka i tehnologija
08.04.2026
2 min

Otkriven Satoši Nakamoto, Bitcoin tvorac? New York Times tvrdi da jeste…

Jedna od najvećih misterija moderne tehnologije navodno je rešena, jer The New York Times tvrdi da je otkriven Satoši Nakamoto, Bitcoin tvorac…

Uređaji
11.04.2026
3 min

Da li iPhone korisnici prelaze na Android?

Da bi se odbranio pred američkim sudom Apple traži odgovor na pitanje da li iPhone korisnici prelaze na Android – od Samsung kompanije!

Softver i servisi
13.04.2026
3 min

Android 17: Objavljena lista modela na koje stiže update

Android 17 stiže na brojne pametne telefone, a objavljena je i lista modela koji će dobiti nadogradnju i onih koji ostaju bez dalje podrške

Softver i servisi
11.04.2026
2 min

YouTube Premium ponovo poskupeo – cene povećane za oko 15%

YouTube Premium podiže cene pretplate za najmanje 15% u svim paketima, uključujući Studentski i YouTube Premium Lite već od narednog meseca

Uređaji
09.04.2026
2 min

Zaboravite AI, Evropljani su proglasili Galaxy S26 Ultra za najbolji telefon zbog drugih inovacija

Galaxy S26 Ultra proglašen je najboljim telefonom u Evropi, ali ne zbog AI funkcija već zbog kamere, baterije i kvaliteta izrade

Testovi

Telefoni
03.04.2026
11 min

Honor 600 Lite recenzija - cena nepromenjena

Cene telefona rastu iz dana u dan a Honor 600 Lite je jedan od svetlih primera na tom planu - uz značajna unapređenja u odnosu na svog prethodnika

Telefoni
15.04.2026
8 min

Motorola G77 - u skladu sa očekivanjima

Na test Benchmark redakcije stigao je još jedan predstavnik G serije sa kojom se družimo već duži niz godina – Motorola G77. Koliko i šta nudi?

Pametni satovi
06.04.2026
10 min

Ne samo za trčanje - Huawei Watch GT Runner 2 recenzija

Huawei Watch GT Runner 2 je pametni sat namenjen trčanju, ali sa mogućnostima koje ga preporučuju svima. Kako radi, pročitajte u našoj recenziji.

Veštačka inteligencija VALL-E nakon 3 sekunde može imitirati bilo čiji glas

VALL-E se usavršavao zahvaljujući zvučnoj biblioteci kompanije Meta

Microsoft ponudio primere, od kojih određeni zvuče veoma uverljivo

Microsoft svestan rizika koju tehnologija nosi sa sobom

GoPro Mission 1 serija: 50 MPx senzor od 1 inča i 8K video

Sony PlayStation 6 stiže u 3 verzije: Glavna, jeftinija i ručna konzola

Intel APU revolucija: Nova Lake desktop CPU sa 12 Xe3P grafičkih jezgara

Apple i Amazon postali partneri, povezuje ih SOS sistem

Kamera u praksi: kako Galaxy S26 serija rešava „one shot” scenario bez ponavljanja

Qualcomm sprema revoluciju u načinu rada AI funkcija na mobilnim uređajima - 3D DRAM NPU stiže do 2027

Google lansira Windows desktop aplikaciju za pretragu, jedna prečica pretražuje sve od fajlova do clouda

YouTube nudi predah od reklama, ali samo ako ispunite dva ključna uslova

Nvidia kupuje velikog PC proizvođača, na meti su Dell i HP

SpaceX razvija sopstveni čip za Starlink Mobile - 5G direktno iz svemira

Windows 11 ukida 30 godina staro ograničenje, FAT32 sada podržava do 2 TB

Google upozorava, kvantni računar probija Bitcoin enkripciju za 9 minuta

VALL-E se usavršavao zahvaljujući zvučnoj biblioteci kompanije Meta

Microsoft ponudio primere, od kojih određeni zvuče veoma uverljivo

Microsoft svestan rizika koju tehnologija nosi sa sobom

Ostani u toku