Eksplozija popularnosti ChatGPT-a i niza konkurentskih generativnih modela koji su usledili nakon njega, toliko je zagadila internet beskorisnim AI generisanim sadržajem, da već sada otežava razvoj budućih AI modela.
Kako AI podaci zamagljuju ljudsku kreaciju, a od koje ovi modeli toliko zavise, sve je izvesnije da će veći deo onoga što ove takozvane “inteligencije” uče i imitiraju, biti sam lažni AI proizvod.
Ponovite ovaj proces dovoljno puta i razvoj veštačke inteligencije postaje igra gluvih telefona. Ne samo da se kvalitet generisanog sadržaja smanjuje, sve više udaljavajući se od originala, već i sami “učesnici” postaju sve gluplji. Industrija ovaj fenomen naziva “kolapsom modela“.
Kao posledica, ograničena količina podataka nastalih pre ChatGPT-a postaje izuzetno vredna.
“Analogija funkcioniše jer vam je potrebno nešto nastalo pre određenog datuma,” rekao je Chiodo. “Ako prikupljate podatke nastale pre 2022. godine, možete biti prilično sigurni da su minimalno zagađeni generativnom AI. Sve pre tog datuma je „bezbedno, čisto“, sve posle je prljavo.
Godine 2024. Chiodo je bio koautor studije koja ukazuje na potrebu za “čistim” podacima ne samo da bi se sprečio kolaps modela, već i da bi se osigurala fer konkurencija između AI programera. U suprotnom, pioniri ove tehnologije bi imali ogromnu prednost kao jedini koji su imali pristup čistijim izvorima podataka za obuku.
Pitanje koliko je kolaps modela zbog zagađenih podataka realna pretnja i dalje je predmet debate. Međutim, mnogi istraživači već godinama upozoravaju na ovaj problem.
“Ne znamo tačno koliko će kolaps modela biti ozbiljan problem, ali ako postane realnost, a mi smo već zagadili okruženje podacima, čišćenje će biti astronomski skupo, verovatno nemoguće,” rekao je Chiodo.
Jedna oblast u kojoj se ovaj problem već manifestovao je Retrieval-Augmented Generation (RAG) tehnika, gde AI modeli dopunjuju svoje zastarele podatke informacijama sa interneta u realnom vremenu. Međutim, ni ovi novi podaci nisu zaštićeni od AI zagadjenja, a neka istraživanja pokazuju da zbog toga četbotovi daju više “nesigurnih” odgovora.
Ova dilema odražava i širu debatu o “skaliranju”, poboljšanju AI modela dodavanjem više podataka i procesorske moći. Nakon što su OpenAI i drugi programeri krajem 2024. priznali opadajuće tendencije rezultata svojih najnovijih modela, neki stručnjaci su proglasili da je skaliranje “naletelo na zid”. A ako su podaci sve više puni “đubreta”, taj zid će postati još neprobojniji.
Chiodo smatra da bi stroža regulativa (kao označavanje AI sadržaja) mogla pomoći u “čišćenju” zagađenja, ali to će biti teško sprovesti. AI industrija, koja se protivi bilo kakvoj državnoj intervenciji, možda je sama sebi najveći neprijatelj, piše Futurism.
“Trenutno smo u prvoj fazi regulative gde se plašimo da previše regulišemo jer želimo da ostane prostor za inovacije,” rekao je Rupprecht Podszun, profesor prava i koautor studije sa Chiodom. “To je tipično za svaku novu tehnologiju. AI je sada u centru pažnje, zato pustimo ga da se razvija, pa ćemo videti.”
Nema komentara 😞
Trenutno nema komentara vezanih za ovu vest. Priključi se diskusiji na Benchmark forumu i budi prvi koje će ostaviti komentar na ovaj članak!
Pridruži se diskusiji