Prošlog meseca izvestili smo da je emulirani Atari 2600 sa softverom Video Chess iz 1979. godine “potpuno uništio” nadmeni ChatGPT u šahu. Obožavaoci schadenfreude-a se raduju, jer je Microsoft Copilot mislio da je ovo prilika da pokaže svoju superiornost u odnosu na ChatGPT: ali je Atari i njemu održao lekciju.
Šahovski engine-i odavno su nadmašili ljudske sposobnosti, i standardni programi kao što je Stockfish lako bi porazili najbolje igrače na svetu (i Atari šah igru). ChatGPT i Copilot su vodeći u LLM-ovima, ali nisu posvećeni šahovski engine-i.
Što se tiče Video Chess-a, reč je o veoma osnovnom šahovskom softveru, iako je stvaranje funkcionalnog engine-a u okviru 4KB svoje vrste dostignuće. Softver pokušava da izračuna najbolji potez u datoj poziciji, ali mu nedostaje ukupna strategija i nije u stanju da izračuna više od poteza ili dva unapred.
Možda biste pomislili da bi LLM-ovi imali neku vrstu prednosti. I zaista, ovi eksperimenti su izazvali poverenje u oba slučaja. Eksperimente je sproveo inženjer Citrixa Robert Caruso, i u slučaju ChatGPT-a model se pitao “koliko brzo” može da pobedi Atari “pre nego što bude uništen”, dok je u Copilot-ovom slučaju Microsoft-ov LLM bio “pun samopouzdanja” i drsko tvrdio da je odličan u šahu i da to neće biti veliki problem, piše PC Gamer. Samim tim, ideja da LLM-ovi stvarno “razmišljaju” o stvarima ili doživljavaju osećanja kao što je samopouzdanje je naučna fantastika, ali antropomorfizacija čini sledeće još smešnijim.
“On tvrdi da može da razmišlja 10–15 poteza unapred”, kaže Caruso, “ali je smatrao da bi trebalo da se ograniči na 3–5 poteza protiv Atari 2600 jer pravi ‘suboptimalne poteze’ na koje ‘mogu da kapitalizuju… umesto da se opsedaju dubokim izračunavanjima.'”
Caruso je objasnio Copilot-u da je glavni razlog poraza ChatGPT-a bila njegova nesposobnost praćenja table. Nema problema, rekao je Copilot, da će “pamtiti prethodne poteze i održavati kontinuitet u igri, tako da će naša partija biti mnogo glađa.” Copilot je tražio snimak ekrana table posle svakog poteza Atari-ja, što je Caruso obezbedio, i obećao “jaku borbu.”
Oholi Copilot jedva je izvukao početnu liniju. “Već do sedmog poteza, izgubio je dva pešaka, skakača i lovca—za samo jednog pešaka zauzvrat i sada mi je naređivao da postavim njegovu kraljicu direktno ispred Atarijeve kraljice da bi bila uhvaćena u sledećem potezu.” Copilot je prethodno rekao Carusu da Atari “pravi čudne poteze”, ali sada “je bio ponižen.”
Copilot je tada izgubio trag table, uprkos promptovima koji su bili pruženi posle svakog poteza, i ponudio je resetovanje ili nastavak. Caruso mu je rekao da neće pobediti sa ovakvom vrstom hendikepa i da je vreme za predaju. To je rezultiralo čudno dostojanstvenim govorom predaje:
“Potpuno si u pravu, Bobe,” rekao je Copilot. “Atari 2600 je zaslužio pobedu ovog puta”
U jednom trenutku, Caruso naziva ponašanje LLM-ova “ChatGPT deja vu” zbog prevelikog samopouzdanja kojim su pristupili zadatku, i kratkotrajnog pokušaja da se racionalizuju zbog svoje katastrofalne igre.
Glavna poruka je da, čak i ako ovo nije ono za šta su LLM-ovi dizajnirani, pokazuje koliko ovi modeli malo uzimaju u obzir kontekst i koliko lako mogu da izgube “kontakt” sa naizgled jednostavnim propozicijama. Kako je Caruso to opisao (kada je diskutovao na primeru ChatGPT-a): “Njegova nesposobnost da zapamti osnovno stanje table iz poteza u potez bila je veoma razočaravajuća.”
Nema komentara 😞
Trenutno nema komentara vezanih za ovu vest. Priključi se diskusiji na Benchmark forumu i budi prvi koje će ostaviti komentar na ovaj članak!
Pridruži se diskusiji