Došli smo do same granice znanja i to postaje veliki problem, veštačkoj inteligenciji ponestaje ljudskih informacija za dalji razvoj 

Nestašica podataka stvorenih od strane ljudi, mogao bi usporiti razvoj AI sistema, čak i više od toga

Došli smo do same granice znanja i to postaje veliki problem, veštačkoj inteligenciji ponestaje ljudskih informacija za dalji razvoj 

Veštačka inteligencija napreduje nezapamćenom brzinom, ali prema rečima Elona Maska, njen rast možda je već dostigao krajnju granicu. On tvrdi da smo dostigli „vrhunac podataka“, odnosno tačku u kojoj ljudski generisane informacije više nisu dovoljne za obuku naprednih modela. 

Kriza podataka: prelomni trenutak za AI? 

Teorija o vrhuncu podataka sugeriše da je internet već pružio sve korisne ljudske informacije koje može, ostavljajući AI istraživače u potrazi za alternativama. Mask tvrdi da je ključni preokret već nastupio 2024. godine, što znači da sistemi poput ChatGPT-a, Geminija i Claude-a već osećaju posledice. 

Ova tvrdnja poklapa se sa ranijim upozorenjima Ilje Sutskevera, bivšeg glavnog naučnika OpenAI-ja, koji je još 2022. godine predvideo da se kvalitetni podaci za obuku brzo troše. Prema istraživanju Epoch Research Institute-a, tekstualni podaci mogli bi biti iscrpljeni do 2027. godine, dok bi vizuelni sadržaji mogli trajati do 2060. Međutim, s obzirom na rastuću potrošnju podataka od strane AI modela, stvarna situacija mogla bi postati kritična i ranije. 

Bez svežih ljudskih podataka, AI modeli rizikuju stagnaciju, povećanu pristrasnost i čak nazadovanje u sposobnostima, što bi moglo dovesti do netačnih i manje inovativnih sistema. 

Može li sintetički sadržaj spasiti AI – ili će ga uništiti? 

Kako ponestaje realnih podataka, tehnološka industrija se okreće sintetičkim podacima – sadržajima koje generiše sama AI, umesto da potiču iz ljudskih aktivnosti. 

Kompanije poput Microsofta, Mete, OpenAI-ja i Anthropica već uvode sintetičke podatke u svoje sisteme, pri čemu se procenjuje da je 60% podataka za obuku AI modela u 2024. godini veštački generisano. Iako ovo može rešiti probleme sa privatnošću i autorskim pravima, postoji ozbiljan rizik: kolaps modela. 

Prijavi se na nedeljni Benchmark newsletter
Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

Prema studiji objavljenoj u časopisu *Nature*, preterana upotreba sintetičkih podataka može dovesti do samo-referencijalnih petlji u kojima AI gubi raznovrsnost, pojačava pristrasnost i degradira u kvalitetu. Umesto napretka, veštačka inteligencija bi mogla početi da „jede samu sebe“, pretvarajući se u zatvoreni sistem dezinformacija. 

Budućnost AI zavisi od ravnoteže podataka 

Uprkos rizicima, kompanije poput Google-a, Microsofta i OpenAI-ja nastavljaju sa integracijom sintetičkih podataka. Modeli kao što su Phi-4, Claude 3.5 Sonnet i Gemma već koriste veštački generisane podatke u značajnoj meri. Ključno pitanje sada glasi: koliko sintetičkih podataka je previše? 

Balansiranje između realnih i sintetičkih podataka moglo bi odrediti pravac razvoja veštačke inteligencije u narednoj deceniji. Previše oslanjanja na veštački sadržaj može dovesti do stagnacije i gubitka kreativnosti, dok bi njegovo potpuno izostavljanje moglo usporiti razvoj AI tehnologije. 

Ova rasprava prevazilazi tehničke aspekte – ona postaje etičko i društveno pitanje. Kako AI postaje sve prisutniji u svakodnevnom životu, način na koji ga obučavamo uticaće na njegovu tačnost, pravičnost i pouzdanost, prenosi IDR.

Ostani u toku

Prijavi se na newsletter listu i jednom nedeljno cemo ti poslati email sa najnovijim testovima i vestima iz sveta tehnologije.

Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

Možda vam se svidi