DeepSeek ponovo pod sumnjom: Novi kineski AI model možda koristi podatke iz Google Gemini-ja

Nakon što je ažurirani DeepSeek R1-0528 model postigao zapažene rezultate, AI zajednica sumnja da je treniran na podacima iz Google Gemini-ja, potencijalno kršeći uslove korišćenja

DeepSeek ponovo pod sumnjom: Novi kineski AI model možda koristi podatke iz Google Gemini-ja

Kineska AI laboratorija DeepSeek ponovo je u centru pažnje nakon što je tiho objavila ažuriranu verziju svog R1 reasoning modela. Novi model, R1-0528, pokazao je izuzetne rezultate u benchmark testovima iz oblasti matematike i programiranja, ali i pobudio sumnje u poreklo podataka korišćenih za njegovo treniranje.

Naime, neki istraživači i AI developeri tvrde da R1-0528 „zvuči“ sumnjivo slično Google Gemini 2.5 Pro modelu, što bi moglo ukazivati na neovlašćeno korišćenje Gemini izlaznih podataka u procesu treniranja.

Mogući tragovi Gemini modela

Australijski developer Sam Paech, koji se bavi testiranjem emocionalne inteligencije kod AI sistema, tvrdi da novi DeepSeek model koristi izraze i obrasce slične onima koje preferira Google Gemini. U svojoj objavi na mreži X, Paech navodi da R1-0528 „govori“ kao Gemini.

Ovu teoriju podržava i kreator alata SpeechMap, poznat pod pseudonimom, koji tvrdi da su tzv. traces, tekstualni tragovi koji prate rezonovanje AI modela gotovo identični onima koje generiše Gemini.

Već poznat obrazac ponašanja

Ovo nije prvi put da se DeepSeek dovodi u vezu sa neautorizovanim preuzimanjem podataka od konkurencije. U decembru prošle godine, primećeno je da je njihov V3 model ponekad sam sebe identifikovao kao ChatGPT, što je izazvalo sumnju da je treniran na OpenAI-evim razgovorima korisnika.

Prijavi se na nedeljni Benchmark newsletter
Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

OpenAI i Microsoft su krajem 2024. godine detektovali veliku količinu podataka koja je odlazila iz OpenAI developerskih naloga, a tragovi su vodili ka DeepSeeku. Spekuliše se da je korišćena tehnika distilacije, kojom se manji modeli treniraju tako što „uče“ na izlazima većih, naprednijih modela.

Siva zona u treniranju modela

Distilacija kao metoda nije ilegalna, ali OpenAI zabranjuje korišćenje izlaza iz svojih modela za treniranje konkurentskih proizvoda, što je u ovom slučaju potencijalno prekršeno. Slična pravila važe i za druge kompanije poput Google-a i Anthropic-a.

Dodatni problem je „kontaminacija interneta“, kako je nazivaju stručnjaci. Sa sve većom količinom AI-generisanog sadržaja na webu, postaje teško razlikovati originalan ljudski tekst od AI izlaza što komplikovanjem čišćenja datasetova otvara vrata za nenamernu (ili namernu) upotrebu tuđih AI rezultata u treniranju.

AI industrija podiže zaštitu

Kako bi sprečili ovakve slučajeve, veliki AI igrači su pojačali mere zaštite:

  • OpenAI od aprila zahteva verifikaciju identiteta korisnika za pristup naprednijim modelima.
  • Google je počeo da „sažima“ traces koje modeli generišu, čime se onemogućava njihova upotreba u distilaciji.
  • Anthropic je najavio sličan potez u maju, štiteći ono što naziva „konkurentskom prednošću“.

Iako direktni dokazi protiv DeepSeeka još uvek nisu potvrđeni, sve veći broj indicija ukazuje na moguće zloupotrebe podataka iz rivalskih AI sistema. U borbi za što bolji model, pitanje etike i vlasništva nad podacima sve više dolazi u fokus i to ne samo kao tehnički, već i kao pravni i komercijalni izazov za budućnost AI industrije, piše Techcrunch.

Ostani u toku

Prijavi se na newsletter listu i jednom nedeljno cemo ti poslati email sa najnovijim testovima i vestima iz sveta tehnologije.

Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

Komentari (0)

Nema komentara 😞

Trenutno nema komentara vezanih za ovu vest. Priključi se diskusiji na Benchmark forumu i budi prvi koje će ostaviti komentar na ovaj članak!

Pridruži se diskusiji
Možda vam se svidi
Polisa privatnosti

Ova veb stranica koristi kolačiće kako bismo vam pružili najbolje moguće korisničko iskustvo.

Informacije o kolačićima se čuvaju u vašem pretraživaču i obavljaju funkcije poput prepoznavanja kada se vratite na našu veb stranicu i pomažu našem timu da razume koje delove veb sajta smatrate najzanimljivijim i najkorisnijim.