Veštačka inteligencija napreduje nezapamćenom brzinom, ali prema rečima Elona Maska, njen rast možda je već dostigao krajnju granicu. On tvrdi da smo dostigli „vrhunac podataka“, odnosno tačku u kojoj ljudski generisane informacije više nisu dovoljne za obuku naprednih modela.
Kriza podataka: prelomni trenutak za AI?
Teorija o vrhuncu podataka sugeriše da je internet već pružio sve korisne ljudske informacije koje može, ostavljajući AI istraživače u potrazi za alternativama. Mask tvrdi da je ključni preokret već nastupio 2024. godine, što znači da sistemi poput ChatGPT-a, Geminija i Claude-a već osećaju posledice.
Ova tvrdnja poklapa se sa ranijim upozorenjima Ilje Sutskevera, bivšeg glavnog naučnika OpenAI-ja, koji je još 2022. godine predvideo da se kvalitetni podaci za obuku brzo troše. Prema istraživanju Epoch Research Institute-a, tekstualni podaci mogli bi biti iscrpljeni do 2027. godine, dok bi vizuelni sadržaji mogli trajati do 2060. Međutim, s obzirom na rastuću potrošnju podataka od strane AI modela, stvarna situacija mogla bi postati kritična i ranije.
Bez svežih ljudskih podataka, AI modeli rizikuju stagnaciju, povećanu pristrasnost i čak nazadovanje u sposobnostima, što bi moglo dovesti do netačnih i manje inovativnih sistema.
Može li sintetički sadržaj spasiti AI – ili će ga uništiti?
Kako ponestaje realnih podataka, tehnološka industrija se okreće sintetičkim podacima – sadržajima koje generiše sama AI, umesto da potiču iz ljudskih aktivnosti.
Kompanije poput Microsofta, Mete, OpenAI-ja i Anthropica već uvode sintetičke podatke u svoje sisteme, pri čemu se procenjuje da je 60% podataka za obuku AI modela u 2024. godini veštački generisano. Iako ovo može rešiti probleme sa privatnošću i autorskim pravima, postoji ozbiljan rizik: kolaps modela.
Prema studiji objavljenoj u časopisu *Nature*, preterana upotreba sintetičkih podataka može dovesti do samo-referencijalnih petlji u kojima AI gubi raznovrsnost, pojačava pristrasnost i degradira u kvalitetu. Umesto napretka, veštačka inteligencija bi mogla početi da „jede samu sebe“, pretvarajući se u zatvoreni sistem dezinformacija.
Budućnost AI zavisi od ravnoteže podataka
Uprkos rizicima, kompanije poput Google-a, Microsofta i OpenAI-ja nastavljaju sa integracijom sintetičkih podataka. Modeli kao što su Phi-4, Claude 3.5 Sonnet i Gemma već koriste veštački generisane podatke u značajnoj meri. Ključno pitanje sada glasi: koliko sintetičkih podataka je previše?
Balansiranje između realnih i sintetičkih podataka moglo bi odrediti pravac razvoja veštačke inteligencije u narednoj deceniji. Previše oslanjanja na veštački sadržaj može dovesti do stagnacije i gubitka kreativnosti, dok bi njegovo potpuno izostavljanje moglo usporiti razvoj AI tehnologije.
Ova rasprava prevazilazi tehničke aspekte – ona postaje etičko i društveno pitanje. Kako AI postaje sve prisutniji u svakodnevnom životu, način na koji ga obučavamo uticaće na njegovu tačnost, pravičnost i pouzdanost, prenosi IDR.