Apple pokrenuo debatu tvrdnjom da veštačka inteligencija ne razmišlja već samo imitira obrasce

Apple je tvrdnjom da napredni AI modeli ne razmišljaju, podelio AI zajednicu, ali odgovor Claude Opus 4 pokazuje da problem možda nije u modelima

Apple pokrenuo debatu tvrdnjom da veštačka inteligencija ne razmišlja već samo imitira obrasce

Istraživačka grupa kompanije Apple za mašinsko učenje, izazvala je buru u AI zajednici objavom rada „Iluzija razmišljanja“, u kojem tvrde da veštačka inteligencija i napredni AI modeli poput OpenAI “o” modela, Google-ovih Gemini 2.5 Pro i drugih zapravo ne rezonuju i ne razmišljaju nezavisno, već samo imitiraju obrasce iz trening podataka.

U radu od 53 strane, Apple istraživači navode da se sposobnost rezonovanja ovih modela raspada kada se suoče sa kompleksnijim zadacima, što ukazuje na to da njihova arhitektura nije održiv put ka razvoju prave opšte veštačke inteligencije (AGI).

Vest se brzo proširila društvenim mrežama, naročito na X-u, gde su mnogi zaključili da je Apple time „razotkrio“ preuveličane tvrdnje o sposobnostima najnaprednijih LLM modela.

Na odgovor se nije dugo čekalo. Nova studija, duhovito naslovljena „Iluzija iluzije razmišljanja“, koju je koautorovao Claude Opus 4, napredni AI model kompanije Anthropic, zajedno sa istraživačem Aleksom Lawsenom iz Open Philanthropy. Njihova analiza tvrdi da je Apple testiranje bilo fundamentalno pogrešno i da su zaključci izvedeni iz loše osmišljenih eksperimenata.

Test veštačke inteligencije koji je pokrenuo debatu

Apple je testirao četiri klasična zadatka planiranja: „Kula iz Hanoja“, „Svet blokova“, „Prelazak reke“ i „Dame“ (checkers), a koji zahtevaju rezonovanje u više koraka i strategiju. Kako je složenost rasla, performanse modela su opadale. U najtežim zadacima, preciznost je pala na nulu, a broj tokena (reči koje modeli koriste da razmišljaju) opadao. Apple je to interpretirao kao „odustajanje“ modela od rešavanja problema.

Objava rada tik pred Apple WWDC konferenciju dodatno je pojačala aktuelnost teme, a mnogi su to videli kao priznanje da su današnji LLM-ovi zapravo sofisticirani „autocomplete“ sistemi.

Kritike stižu sa svih strana

Na X mreži, istraživač poznat kao @scaling01 tvrdio je da su Apple testovi mešali ograničenja u broju tokena sa neuspehom rezonovanja. Na primer, modeli ne mogu da reše verziju Kule iz Hanoja sa više od 13 diskova jer nemaju kapacitet da napišu ceo niz koraka, a ne zato što ne razumeju zadatak.

Takođe, Apple nije uporedio performanse modela sa ljudima, što dodatno dovodi u pitanje tvrdnju o „kolapsu rezonovanja“.

Prijavi se na nedeljni Benchmark newsletter
Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

Drugi su kritikovali i binarnu podelu na „rezonovanje“ i „poklapanje obrazaca“, ističući da modeli mogu razviti heuristike koje nisu striktno jedno ni drugo.

Kontraudar: Claude i Lawsen

Lawsen i Claude tvrde da modeli nisu pali zbog nedostatka sposobnosti, već zbog načina testiranja. Na primer, kada su umesto zahteva da model ispiše svaki korak (što može tražiti desetine hiljada tokena), modeli dobili zadatak da napišu funkciju u programskom jeziku Lua koja generiše rešenje, uspešno su rešavali i najkompleksnije zadatke.

Neki zadaci u Apple testu su čak matematički nerešivi, ali su modeli i dalje bili penalizovani, što dodatno podriva kredibilitet zaključaka.

Zašto je ovo važno za AI zajednicu i biznis

Debata otkriva ključnu istinu: način na koji merimo sposobnosti AI modela jednako je važan kao i sam dizajn modela. U stvarnom svetu, modeli neće morati da ispisuju hiljade rečenica, već će donositi odluke, pisati kod, upravljati procesima.

Za kompanije koje razvijaju alate kao što su AI kopiloti, autonomni agenti ili sistemi podrške pri donošenju odluka, razumevanje ograničenja tokena, konteksta i zadatka je ključno za uspeh, piše Venturebeat.

Najveća pouka za istraživače? Pre nego što proglasite AI model za revolucionaran ili propali eksperiment, proverite da test nije sam po sebi „ premali okvir za razmišljanje“.

Ostani u toku

Prijavi se na newsletter listu i jednom nedeljno cemo ti poslati email sa najnovijim testovima i vestima iz sveta tehnologije.

Hvala!

Uspešno ste se prijavili na na naš newsletter! Proverite vaš email nalog kako bi potvrdili prijavu.

Komentari (0)

Nema komentara 😞

Trenutno nema komentara vezanih za ovu vest. Priključi se diskusiji na Benchmark forumu i budi prvi koje će ostaviti komentar na ovaj članak!

Pridruži se diskusiji
Možda vam se svidi
Polisa privatnosti

Ova veb stranica koristi kolačiće kako bismo vam pružili najbolje moguće korisničko iskustvo.

Informacije o kolačićima se čuvaju u vašem pretraživaču i obavljaju funkcije poput prepoznavanja kada se vratite na našu veb stranicu i pomažu našem timu da razume koje delove veb sajta smatrate najzanimljivijim i najkorisnijim.