Kineska AI laboratorija DeepSeek ponovo je u centru pažnje nakon što je tiho objavila ažuriranu verziju svog R1 reasoning modela. Novi model, R1-0528, pokazao je izuzetne rezultate u benchmark testovima iz oblasti matematike i programiranja, ali i pobudio sumnje u poreklo podataka korišćenih za njegovo treniranje.
Naime, neki istraživači i AI developeri tvrde da R1-0528 „zvuči“ sumnjivo slično Google Gemini 2.5 Pro modelu, što bi moglo ukazivati na neovlašćeno korišćenje Gemini izlaznih podataka u procesu treniranja.
Mogući tragovi Gemini modela
Australijski developer Sam Paech, koji se bavi testiranjem emocionalne inteligencije kod AI sistema, tvrdi da novi DeepSeek model koristi izraze i obrasce slične onima koje preferira Google Gemini. U svojoj objavi na mreži X, Paech navodi da R1-0528 „govori“ kao Gemini.
Ovu teoriju podržava i kreator alata SpeechMap, poznat pod pseudonimom, koji tvrdi da su tzv. traces, tekstualni tragovi koji prate rezonovanje AI modela gotovo identični onima koje generiše Gemini.
Već poznat obrazac ponašanja
Ovo nije prvi put da se DeepSeek dovodi u vezu sa neautorizovanim preuzimanjem podataka od konkurencije. U decembru prošle godine, primećeno je da je njihov V3 model ponekad sam sebe identifikovao kao ChatGPT, što je izazvalo sumnju da je treniran na OpenAI-evim razgovorima korisnika.
OpenAI i Microsoft su krajem 2024. godine detektovali veliku količinu podataka koja je odlazila iz OpenAI developerskih naloga, a tragovi su vodili ka DeepSeeku. Spekuliše se da je korišćena tehnika distilacije, kojom se manji modeli treniraju tako što „uče“ na izlazima većih, naprednijih modela.
Siva zona u treniranju modela
Distilacija kao metoda nije ilegalna, ali OpenAI zabranjuje korišćenje izlaza iz svojih modela za treniranje konkurentskih proizvoda, što je u ovom slučaju potencijalno prekršeno. Slična pravila važe i za druge kompanije poput Google-a i Anthropic-a.
Dodatni problem je „kontaminacija interneta“, kako je nazivaju stručnjaci. Sa sve većom količinom AI-generisanog sadržaja na webu, postaje teško razlikovati originalan ljudski tekst od AI izlaza što komplikovanjem čišćenja datasetova otvara vrata za nenamernu (ili namernu) upotrebu tuđih AI rezultata u treniranju.
AI industrija podiže zaštitu
Kako bi sprečili ovakve slučajeve, veliki AI igrači su pojačali mere zaštite:
- OpenAI od aprila zahteva verifikaciju identiteta korisnika za pristup naprednijim modelima.
- Google je počeo da „sažima“ traces koje modeli generišu, čime se onemogućava njihova upotreba u distilaciji.
- Anthropic je najavio sličan potez u maju, štiteći ono što naziva „konkurentskom prednošću“.
Iako direktni dokazi protiv DeepSeeka još uvek nisu potvrđeni, sve veći broj indicija ukazuje na moguće zloupotrebe podataka iz rivalskih AI sistema. U borbi za što bolji model, pitanje etike i vlasništva nad podacima sve više dolazi u fokus i to ne samo kao tehnički, već i kao pravni i komercijalni izazov za budućnost AI industrije, piše Techcrunch.
Nema komentara 😞
Trenutno nema komentara vezanih za ovu vest. Priključi se diskusiji na Benchmark forumu i budi prvi koje će ostaviti komentar na ovaj članak!
Pridruži se diskusiji