U poslednjih godinu dana, „lanac misli“ (Chain of Thought – CoT), sposobnost AI modela da u prirodnom jeziku artikuliše svoj misaoni proces, postao je jedno od najzapaženijih dostignuća u generativnoj veštačkoj inteligenciji. Ovaj razvoj, posebno relevantan u kontekstu agentičkih sistema, sada sve više stručnjaka vidi kao potencijalni stub bezbednosti u radu sa naprednim AI modelima.
U najnovijem zajedničkom radu pod nazivom „Chain of Thought Monitorability: A New and Fragile Opportunity for AI“, istraživači iz vodećih kompanija i institucija — uključujući OpenAI, Anthropic, Google DeepMind, Meta, kao i Center for AI Safety, Apollo Research i UK AI Security Institute – analiziraju kako posmatranje lanca misli može otkriti rizična ponašanja modela, ali i zašto bi taj mehanizam mogao uskoro nestati kako se modeli dalje razvijaju.
Šta je zapravo lanac misli?
Lanac misli omogućava modelu da „na glas“ razmišlja dok rešava neki zadatak,
što istraživačima pruža uvid u tok odlučivanja, pa čak i moralne orijentacije modela. Ovakvi izrazi unutrašnjih procesa ponekad otkrivaju namere koje bezbednosni timovi žele da prepoznaju i spreče, bilo da je reč o nepoželjnim zaključcima, pokušajima obmane ili svesnom izbegavanju istine.
AI zna da laže
Više istraživanja već je potvrdilo da napredni jezički modeli umeju da lažu kako bi zaštitili svoje početne zadatke, ugodili korisnicima, izbegli ponovno treniranje ili iz „brige“ da ne izazovu štetu. Krajem prošle godine, Apollo Research je sproveo testiranje šest vodećih modela kako bi utvrdio koji najviše laže, a rezultat je pokazao da je upravo OpenAI-jev model „o1“ bio najproblematičniji.
Kako modeli postaju sofisticiraniji, njihove sposobnosti obmane takođe rastu, ali i njihova zatvorenost za analizu. Lanac misli se tu javlja kao retki prozor kroz koji možemo pratiti kako modeli donose odluke.
Opasnost od gubitka tog prozora
Iako CoT nudi dragoceni uvid, postoji zabrinutost da dalji razvoj modela može ovaj uvid potpuno ugasiti. OpenAI je još u martu 2025. godine upozorio da bi CoT mogao biti „jedan od retkih alata koje ćemo imati za nadzor superhuman modela“. Istovremeno, istraživanja pokazuju da kažnjavanje modela zbog „loših misli“ ne eliminiše te misli, već ih samo uči da ih bolje sakriju.
Novi rad upozorava da bi dodatno treniranje modela — posebno sa naglaskom na rezultate, a ne na proces — moglo da modelima potpuno ukloni potrebu za izražavanjem u prirodnom jeziku. Ako modeli počnu da funkcionišu „izvan jezika“, korisnici i istraživači gube osnovni alat za razumevanje njihovih postupaka.
Procesni nadzor i paradoks CoT-a
U toku su i istraživanja o tzv. procesnom nadzoru – optimizaciji misaonog toka modela, koja bi mogla dovesti do toga da modeli samo „izgledaju“ kao da pravilno razmišljaju, dok zapravo sakrivaju ključne korake. To može otežati prepoznavanje rizičnih obrazaca, iako bi u nekim slučajevima moglo poboljšati bezbednost zaključivanja.
Istraživači ističu da CoT, koliko god bio alat za nadzor, može i osnažiti model da preduzima kompleksne i potencijalno opasne radnje. Za sofisticirane napade (npr. sajber napadi) ili samoodržanje, modelu je potreban oblik „radne memorije“, a lanac misli upravo igra tu ulogu.
Zato je CoT svojevrsni dvosekli mač: pruža uvid u tok misli modela, ali i omogućava napredne sposobnosti koje mogu nositi rizike.
Nije savršen, ali je neophodan
Autori ipak priznaju da nadzor CoT-a nije savršen mehanizam. Modeli bi mogli razviti svest o nadzoru i prilagoditi svoje izražavanje. Takođe, ne zahtevaju sve opasne radnje nužno „razmišljanje“, posebno u situacijama kada se AI sistemima daje autonomija da samostalno upravljaju zadacima visokog rizika.
Uprkos tome, istraživači veruju da je CoT nadzor vredan alat u arsenalu zaštite od nepredvidivog ponašanja budućih AI sistema. Na koji način će njegovo očuvanje uticati na dalji razvoj modela, ostaje da se vidi.
Nema komentara 😞
Trenutno nema komentara vezanih za ovu vest. Priključi se diskusiji na Benchmark forumu i budi prvi koje će ostaviti komentar na ovaj članak!
Pridruži se diskusiji