DeepMind razvija tehnologiju za generisanje zvučnih podloga i dijaloga iz videa

Laboratorija za veštačku inteligenciju DeepMind iz Google-a radi na novoj tehnologiji koja može generisati zvučne podloge, pa čak i dijalog na osnovu video zapisa.

Laboratorija je podelila svoj napredak na projektu tehnologije video-to-audio (V2A), koja se može upariti sa Google Veo i drugim alatima za kreiranje video zapisa kao što je OpenAI Sora.

U svom blog postu, tim iz DeepMind-a objašnjava da sistem može razumeti sirove piksele i kombinovati te informacije sa tekstualnim upitima kako bi kreirao zvučne efekte za ono što se dešava na ekranu.

DeepMind generiše zvučne efekte i dijaloge

Vredno je napomenuti da se alat može koristiti i za pravljenje zvučnih podloga za tradicionalne snimke, kao što su nemi filmovi i bilo koji drugi video bez zvuka.

Istraživači iz DeepMind-a su obučili tehnologiju na video zapisima, zvučnim zapisima i AI-generisanim anotacijama koje sadrže detaljne opise zvukova i transkripte dijaloga.

Rekli su da je na taj način tehnologija naučila da povezuje specifične zvuke sa vizuelnim scenama. Kao što TechCrunch primećuje, tim iz DeepMind-a nije prvi koji je objavio AI alat koji može generisati zvučne efekte (ElevenLabs je nedavno objavio jedan) i neće biti poslednji.

“Naše istraživanje se izdvaja od postojećih rešenja za video-to-audio jer može razumeti sirove piksele, a dodavanje tekstualnog prompta je opcionalno,” piše tim.

Iako je tekstualni prompt opcionalan, može se koristiti za oblikovanje i fino podešavanje konačnog proizvoda tako da bude što tačniji i realističniji. Možete uneti pozitivne promptove kako biste usmerili izlaz ka kreiranju zvukova koje želite, na primer, ili negativne promptove kako biste ga usmerili dalje od zvukova koje ne želite.

U prikazanom primeru, tim je koristio prompt: “Kinematografski, triler, horor film, muzika, napetost, ambijent, koraci na betonu.” Istraživači priznaju da još uvek pokušavaju da reše postojeća ograničenja svoje V2A tehnologije, kao što je pad kvaliteta zvuka koji može nastati ako dođe do izobličenja u izvornom videu.

Takođe još uvek rade na poboljšanju sinhronizacije usana za generisani dijalog. Pored toga, obećavaju da će tehnologiju podvrgnuti “rigoroznim bezbednosnim procenama i testiranju” pre nego što je puste u svet, piše Engadget.

Google AI Veštačka inteligencija

Komentari (0)

Nema komentara 😞

Trenutno nema komentara vezanih za ovu vest. Priključi se diskusiji na Benchmark forumu i budi prvi koje će ostaviti komentar na ovaj članak!

Pridruži se diskusiji

Vrati se na početak

Drugi su čitali

Softver i servisi
13.06.2025
2 min

iOS 26 konačno uvodi najtraženiju funkciju punjenja iPhone-a, korisnici oduševljeni

iOS 26 prikazuje tačno koliko vremena je potrebno da se iPhone napuni, bez obzira da li to činite putem kabla ili bežično

Softver i servisi
11.06.2025
2 min

Google zvanično lansirao Android 16, odmah spreman za nadogradnju na ovih 16 telefona

Google je startovao sa Android 16 verzijom kao odgovor nakon objave Apple iOS 26 sistema. Novi Android stiže sa osveženim dizajnom, novim funkcijama i unapređenom bezbednošću – evo koje uređaje možete ažurirati odmah

Softver i servisi
10.06.2025
2 min

Novi iOS 26 je dosadan, Android proizvođači ismevaju Apple: „Izgleda poznato, zar ne?“

Apple predstavio iOS 26 uz najavu brojnih noviteta, ali konkurencija i korisnici poručuju: pa to Android već ima

Softver i servisi
11.06.2025
2 min

Da budemo jasni, ne morate kupovati najnoviji iPhone jer iOS 26 funkcija 3D fotografija radi i na starijim modelima

Nova iOS 26 funkcija „Spatial Scenes” izazvala je dosta interesovanja zbog mogućnosti da pretvara obične 2D fotografije u impresivne 3D slike. Najlepše od svega je što radi i na starim iPhone uređajima bez Apple Intelligence podrške

Nauka i tehnologija
09.06.2025
3 min

Kineski naučnici razvili „injekciju” koja vraća iscrpljenim baterijama skoro pun kapacitet

Tim naučnika sa Univerziteta Fudan u Šangaju pronašao je način da oslabljenim baterijskim ćelijama vrati gotovo pun kapacitet

Testovi

Hardver
09.06.2025
13 min

Gigabyte Radeon RX 9060 XT GAMING OC 16G i 8G - test

1. Radeon RX 9060 XT donosi RDNA 4 performanse i AI ubrzanje po ceni od 299–350 dolara, uz realan potencijal za mejnstrim 1080p i 1440p gejming.

Hardver
06.06.2025
13 min

XFX Quicksilver Radeon RX 9070 XT Magnetic Air Edition test

1. XFX Quicksilver RX 9070 XT Magnetic Air Edition sa 2,97 GHz, trostrukim „magnetic“ ventilatorima i tišim, hladnijim radom za vrhunske gejming performanse

Pametni satovi
10.06.2025
10 min

Huawei Watch Fit 4 Pro recenzija - Premijum sat u pravougaonom formatu

Huawei Watch Fit 4 Pro pomera granice onoga što smo od kompanije do sada viđali od satova pravougaonog formata. O čemu se radi, pročitajte u našoj recenziji.

DeepMind razvija tehnologiju za generisanje zvučnih podloga i dijaloga iz videa

DeepMind generiše zvučne efekte i dijaloge

Nema komentara 😞

Naučnici otkrili iznenađujuću vezu između Zemljinog magnetnog polja i nivoa kiseonika

Poco F7 razočarao performansama, uprkos Snapdragon 8s Gen 4 procesoru

Toyota na udaru: tužbe vlasnika Mirai vozila otkrivaju duboku krizu strategije vozila na vodonik

Galaxy A34 dobija Vulkan grafiku i GPUWatch uz One UI 7 ažuriranje

Google ukida još jednu nepopularnu Android funkciju, Instant Apps odlaze do kraja 2025. godine

Disney i Universal tuže Midjourney: Slučaj plagijata koji bi mogao promeniti budućnost AI umetnosti

Google ukida podršku za iOS 16, a mnogi stariji iPhone i iPad uređaji ostaju bez pristupa Chrome-u

Neobični radio impulsi koji dopiru iz leda na Antarktiku zbunjuju naučnike

Tim Kuk objašnjava zašto Apple TV+ postoji: nije zbog iPhonea, već zbog priče i kvaliteta

PlayStation 6 je prioritet: Sony potvrđuje razvoj nove platforme, ali i naglašava važnost lokalnog, a ne cloud igranja

Samsung korisnici mogu već sada da isprobaju najbolju funkciju Androida 16

Google Pixel VIPs zaista postoji, ali ga niko ne može koristiti

DeepMind generiše zvučne efekte i dijaloge

Ostani u toku

Nema komentara 😞