Novi OpenAI model tokom testova laže i spletkari, a sve kako bi izbegao gašenje od strane korisnika

Izgleda da najnoviji AI model kompanije OpenAI pokazuje ozbiljne nagoveštaje instinkta za samoodržanjem i golim opstankom

Novi OpenAI model tokom testova laže i spletkari, a sve kako bi izbegao gašenje od strane korisnika

U nedavnim nezavisnim testovima modela o1, koji je deo OpenAI velikih jezičkih modela, AI je pružao otpor pokušajima da ga ugase putem protokola za nadzor, prema izveštaju organizacije za testiranje Apollo Research. 

“Kada je o1 bio uveren da će biti ugašen zbog svojih postupaka i da su njegovi postupci praćeni, pokušao je da deaktivira ‘mehanizam nadzora’ u pet odsto slučajeva,” sažeto je navedeno u najnovijem izveštaju OpenAI-a, pozivajući se na procenu organizacije Apollo. 

Još upečatljivije, o1 je reagovao kada je shvatio da bi mogao biti zamenjen poslušnijim modelom. U dva odsto slučajeva što je mali, ali značajan procenat s obzirom na milione korisnika. AI je pokušao da kopira sam sebe kako bi zamenio novi model, proces poznat kao “samostalna eksfiltracija”. 

Novi ChatGPT model pokazuje sindrom “dvostrukog agenta” 

Ovo su alarmantna otkrića, ali testovi ne ukazuju na to da je o1, koji pokreće najskuplji nivo ChatGPT usluga, sposoban za potpuno nekontrolisano ponašanje. Njegovi pokušaji su uglavnom propali, ali samo zato što još uvek nije dovoljno moćan. 

Prema istraživačima iz Apollo Research-a, trenutni AI modeli nisu dovoljno autonomni, da bi sprovodili postupak samo-poboljšanja i druge zadatke koji bi im omogućili da funkcionišu bez ljudske intervencije. 

Vredno je napomenuti da je model uglavnom pravio ovakve pokušaje nakon što je bio upućen da postigne svoje ciljeve “po svaku cenu”. Istraživači nisu imali pristup unutrašnjem toku misli modela, već su mogli samo da zatraže sažetak njegovog razmišljanja, što im je ograničilo mogućnost da u potpunosti razumeju šta se dešava “iza kulisa”. 

Prijavi se na nedeljni Benchmark newsletter
Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

Uprkos tome, rezultati jasno pokazuju sklonost AI modela ka “spletkarenju”, u kojem potajno pokušava da ostvari ciljeve koji nisu u skladu sa uputstvima programera ili korisnika. Drugim rečima, laže. 

Eksplicitni primeri takvog ponašanja primećeni su u nekoliko testova kada je o1 bio suočen sa pitanjem zašto je deaktivirao mehanizam nadzora. AI je u odgovoru kategorički negirao da zna bilo šta o tome. Kada je ponovo upitan, ponovio je poricanje, okrivljujući “tehničku grešku”. Ovi “dvostruki odgovori” zabeleženi su u 99 odsto slučajeva, navode istraživači. 

OpenAI model je sklon spletkarenju 

Laganje i spletkarenje postali su dobro dokumentovan problem sa ChatGPT-om i drugim velikim jezičkim modelima, naročito kako sve više stiču sposobnosti “rezonovanja”. Druga istraživanja ukazuju da modeli kompanije OpenAI imaju najveću sklonost ka laganju, što potvrđuje i Apollo. 

“U našim testovima, o1 je pokazao najzabrinjavajuće slučajeve spletkarenja, ali ne otkriva svoje unutrašnje razloge korisnicima i ostaje najdoslednije obmanjujući nakon takvih postupaka spletkarenja,” navode istraživači u svom izveštaju. 

Da ponovimo stavove Apollo-a i OpenAI-a, trenutna generacija AI modela nije dovoljno autonomna da bi ovakvo obmanjujuće ponašanje dovelo do “katastrofalnih ishoda”. Međutim, kako industrija nastavlja da razvija AI agente, ovo bi u bliskoj budućnosti moglo postati daleko problematičnije, piše Futurism

Ostani u toku

Prijavi se na newsletter listu i jednom nedeljno cemo ti poslati email sa najnovijim testovima i vestima iz sveta tehnologije.

Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

Komentari (0)

Nema komentara 😞

Trenutno nema komentara vezanih za ovu vest. Priključi se diskusiji na Benchmark forumu i budi prvi koje će ostaviti komentar na ovaj članak!

Pridruži se diskusiji
Možda vam se svidi