Novi OpenAI model tokom testova laže i spletkari, a sve kako bi izbegao gašenje od strane korisnika

U nedavnim nezavisnim testovima modela o1, koji je deo OpenAI velikih jezičkih modela, AI je pružao otpor pokušajima da ga ugase putem protokola za nadzor, prema izveštaju organizacije za testiranje Apollo Research.

“Kada je o1 bio uveren da će biti ugašen zbog svojih postupaka i da su njegovi postupci praćeni, pokušao je da deaktivira ‘mehanizam nadzora’ u pet odsto slučajeva,” sažeto je navedeno u najnovijem izveštaju OpenAI-a, pozivajući se na procenu organizacije Apollo.

Još upečatljivije, o1 je reagovao kada je shvatio da bi mogao biti zamenjen poslušnijim modelom. U dva odsto slučajeva što je mali, ali značajan procenat s obzirom na milione korisnika. AI je pokušao da kopira sam sebe kako bi zamenio novi model, proces poznat kao “samostalna eksfiltracija”.

Novi ChatGPT model pokazuje sindrom “dvostrukog agenta”

Ovo su alarmantna otkrića, ali testovi ne ukazuju na to da je o1, koji pokreće najskuplji nivo ChatGPT usluga, sposoban za potpuno nekontrolisano ponašanje. Njegovi pokušaji su uglavnom propali, ali samo zato što još uvek nije dovoljno moćan.

Prema istraživačima iz Apollo Research-a, trenutni AI modeli nisu dovoljno autonomni, da bi sprovodili postupak samo-poboljšanja i druge zadatke koji bi im omogućili da funkcionišu bez ljudske intervencije.

Vredno je napomenuti da je model uglavnom pravio ovakve pokušaje nakon što je bio upućen da postigne svoje ciljeve “po svaku cenu”. Istraživači nisu imali pristup unutrašnjem toku misli modela, već su mogli samo da zatraže sažetak njegovog razmišljanja, što im je ograničilo mogućnost da u potpunosti razumeju šta se dešava “iza kulisa”.

Uprkos tome, rezultati jasno pokazuju sklonost AI modela ka “spletkarenju”, u kojem potajno pokušava da ostvari ciljeve koji nisu u skladu sa uputstvima programera ili korisnika. Drugim rečima, laže.

Eksplicitni primeri takvog ponašanja primećeni su u nekoliko testova kada je o1 bio suočen sa pitanjem zašto je deaktivirao mehanizam nadzora. AI je u odgovoru kategorički negirao da zna bilo šta o tome. Kada je ponovo upitan, ponovio je poricanje, okrivljujući “tehničku grešku”. Ovi “dvostruki odgovori” zabeleženi su u 99 odsto slučajeva, navode istraživači.

OpenAI model je sklon spletkarenju

Laganje i spletkarenje postali su dobro dokumentovan problem sa ChatGPT-om i drugim velikim jezičkim modelima, naročito kako sve više stiču sposobnosti “rezonovanja”. Druga istraživanja ukazuju da modeli kompanije OpenAI imaju najveću sklonost ka laganju, što potvrđuje i Apollo.

“U našim testovima, o1 je pokazao najzabrinjavajuće slučajeve spletkarenja, ali ne otkriva svoje unutrašnje razloge korisnicima i ostaje najdoslednije obmanjujući nakon takvih postupaka spletkarenja,” navode istraživači u svom izveštaju.

Da ponovimo stavove Apollo-a i OpenAI-a, trenutna generacija AI modela nije dovoljno autonomna da bi ovakvo obmanjujuće ponašanje dovelo do “katastrofalnih ishoda”. Međutim, kako industrija nastavlja da razvija AI agente, ovo bi u bliskoj budućnosti moglo postati daleko problematičnije, piše Futurism.

AI Chatbot ChatGPT

Komentari (0)

Nema komentara 😞

Trenutno nema komentara vezanih za ovu vest. Priključi se diskusiji na Benchmark forumu i budi prvi koje će ostaviti komentar na ovaj članak!

Pridruži se diskusiji

Vrati se na početak

Drugi su čitali

Uređaji
21.07.2025
2 min

Android proizvođači razmatraju ukidanje USB-C priključka, slede primer Apple-a

Samsung kao najveći svetski proizvođač Android uređaja, sprovodi anketu među korisnicima o prelasku na isključivo bežično punjenje, ali većina korisnika nije oduševljena ovom idejom

Uređaji
21.07.2025
2 min

Honor sprema Magic 8 Mini, stiže na jesen sa ostatkom serije

Honor planira čak tri modela u predstojećoj Magic 8 liniji telefona, uključujući kompaktni telefon sa jakim hardverom

Uređaji
22.07.2025
2 min

Nema više skrivanja, Google otkrio izgled novog Pixel 10 telefona

Google je na svom zvaničnom sajtu otkrio dizajn modela Pixel 10 Pro uoči premijere zakazane za 21. avgust

Softver i servisi
22.07.2025
2 min

Samsung One UI 7 Quick Panel ima dve veoma korisne, ali skrivene funkcije

Novi gestovi na Samsung One UI 7 verziji proširuju kontrolu nad osvetljenjem i zvukom bez napuštanja Quick Panel podešavanja

Biznis
23.07.2025
2 min

Očajnički potez, Nokia pokušava da oživi brend mobilnih telefona i traži kupce preko Reddita

Kompanija Nokia više ne proizvodi telefone, ali i dalje nudi licencu za korišćenje brenda u nadi da će se vratiti na tržište pametnih telefona

Testovi

Periferije
23.07.2025
9 min

Redragon Antonium Pro & Ironguard Pro recenzija - Preciznije, tiše, kvalitetnije

Redragon Antonium Pro & Ironguard Pro tastature donose odličan osećaj pri kucanju i fleksibilnost povezivanja sa različitim uređajima.

Novi OpenAI model tokom testova laže i spletkari, a sve kako bi izbegao gašenje od strane korisnika

Novi ChatGPT model pokazuje sindrom “dvostrukog agenta”

OpenAI model je sklon spletkarenju

Nema komentara 😞

Plastika odbrojava „poslednje dane“, naučnici stvorili supermaterijal jači od metala i stakla

Battlefield 6 izlazi 10. oktobra - Standard izdanje na konzolama će prema prvim informacijama koštati 80 evra

Zaključajte vaš Windows PC pomoću najnovije Microsoft aplikacije za Android telefone

OpenAI planira da lansira GPT-5 već u avgustu

One UI 8 donosi brojne novine na Galaxy S25, Samsung uskoro završava testiranje Android 16 verzije

Google Maps ostaje bez još jedne funkcije kasnije ove godine

Ljubitelji Apple telefona nestrpljivo očekuju izlazak iPhone 17 modela ali ne planiraju da ga kupe

Kineski satelit “uništio” Starlink pomoću lasera snage samo 2 W i to na visini od 36.000 km

Xiaomi 16 Ultra donosi tri velika poboljšanja kamere i bateriju od čak 7.500 mAh

Windows 11 24H2 je najpouzdanija verzija Windowsa do sada, tvrdi Microsoft

Android 16 biće poslednje veliko ažuriranje za ove Motorola telefone

Da li Mac računari danas uopšte nešto znače za Apple?

Novi ChatGPT model pokazuje sindrom “dvostrukog agenta”

OpenAI model je sklon spletkarenju

Ostani u toku

Nema komentara 😞