NVIDIA je po svemu sudeći koristila ogromne količine sadržaja zaštićenog autorskim pravima za obuku svojih AI modela. U ponedeljak, Samantha Cole iz 404 Media izvestila je da je kompanija vredna 2,4 triliona dolara zatražila od svojih radnika da preuzmu video zapise sa YouTube-a, Netflix-a i drugih dataset-ova za razvoj komercijalnih AI projekata.
Proizvođač grafičkih kartica je među tehnološkim kompanijama koje kao da su usvojile moto “brzo se kreći i razbijaj stvari” dok se utrkuju da uspostave dominaciju u ovoj grozničavoj, često sramotnoj, AI zlatnoj groznici.
Obuka je navodno bila usmerena na razvoj modela za proizvode kao što su njihov Omniverse generator 3D svetova, sistemi za samovozeće automobile i “digitalni ljudi”.
Portparol kompanije NVIDIA rekao je za Engadget da je njihovo istraživanje “u potpunom skladu sa slovom i duhom zakona o autorskim pravima”, tvrdeći da zakoni o intelektualnoj svojini štite specifične izraze “ali ne i činjenice, ideje, podatke ili informacije.” Kompanija je ovu praksu uporedila sa pravom osobe da “uči činjenice, ideje, podatke ili informacije iz drugog izvora i koristi ih za stvaranje svog izraza.” Čovek, računar… u čemu je razlika?
YouTube se ne slaže. Portparol Jack Malon izdvojio je na Bloomberg tekst iz aprila, citirajući izvršnog direktora Neala Mohana koji je rekao da bi korišćenje YouTube-a za obuku AI modela bilo “jasno kršenje” njegovih uslova korišćenja. “Naša prethodna izjava i dalje stoji”.
Nvidia u centru skandala u vezi obuke svojih AI modela
Taj citat od Mohana iz aprila bio je odgovor na izveštaje da je OpenAI obučavao svoj Sora generator teksta u video na YouTube video zapisima bez dozvole. Prošlog meseca, izveštaj je pokazao da je startup Runway AI sledio isti primer.
NVIDIA zaposlenima koji su izrazili etičke i pravne zabrinutosti u vezi sa praksom, njihovi menadžeri su navodno rekli da je kompanija već dobila zeleno svetlo sa najvišeg nivoa. “Ovo je izvršna odluka,” odgovorio je Ming-Yu Liu, potpredsednik istraživanja u NVIDIA-i. “Imamo opšte odobrenje za sve podatke.” Drugi u kompaniji su navodno opisali njihovo prikupljanje podataka kao “otvoreno pravno pitanje” koje će rešavati kasnije.
Sve ovo zvuči slično starom motu Facebook-a (Meta-e) “brzo se kreći i razbijaj stvari,” koji je uspešno razbio prilično stvari, uključujući i privatnost miliona ljudi.
Pored YouTube i Netflix video zapisa, NVIDIA je navodno naložila radnicima da treniraju na bazi podataka filmskih trejlera MovieNet, internim bibliotekama snimaka video igara i Github video dataset-ovima WebVid (sada uklonjen nakon naredbe za prestanak i odustajanje) i InternVid-10M. Potonji je dataset koji sadrži 10 miliona YouTube video ID-ova.
Neki od podataka koje je NVIDIA navodno koristila za obuku bili su označeni kao podobni samo za akademsku (ili drugačije nekomercijalnu) upotrebu. HD-VG-130M, biblioteka od 130 miliona YouTube video zapisa, uključuje licencu za korišćenje koja je namenjena samo za akademska istraživanja. NVIDIA je navodno zanemarila deo oko uslova za akademsku upotrebu, insistirajući da ti skupovi podataka potpadaju pod “fair use” za njihove komercijalne AI proizvode.
Da bi izbegli otkrivanje od strane YouTube-a, NVIDIA je navodno preuzimala sadržaj koristeći virtuelne mašine (VM) sa rotirajućim IP adresama kako bi izbegli zabrane, prenosi Engadget.
Nema komentara 😞
Trenutno nema komentara vezanih za ovu vest. Priključi se diskusiji na Benchmark forumu i budi prvi koje će ostaviti komentar na ovaj članak!
Pridruži se diskusiji