Veštačka inteligencija van kontrole, naučnici pronašli način kako da probiju sigurnosne barijere

Hjuston imamo problem. To je ono što su mnogi ljudi pomislili tokom jučerašnjeg dana kada su istraživači sa Univerziteta Karnegi Melon i Centra za američku bezbednost objavili da su pronašli način kako da uspešno zaobiđu zaštitne granice koje A.I. programeri postavljaju kako bi svoje jezičke modele zaštitili i sprečili od zloupotrebe davanja saveta za pravljenje bombi ili antisemitske šale. Ovo se odnosi na skoro svaki trenutno aktuelni AI jezički model koji postoji.

Otkriće bi moglo predstavljati veliki problem za svakoga ko se nada da će primeniti zaštitne mere i barijere u jednoj AI aplikaciji za javnu upotrebu. To znači da bi zlonamerni korisnici mogli da nateraju AI model da se upusti u rasistički ili seksistički dijalog i uradi skoro sve što su kreatori modela pokušali da obuče model da inače ne čini. Takođe, ima zastrašujuće implikacije za one koji se nadaju da će AI modele i veštačku inteligenciju pretvoriti u moćne digitalne asistente koji mogu obavljati radnje i zadatke preko interneta. Ispostavilo se da možda ne postoji siguran način da se spreči situacija u kojoj bi se AI modeli otrgnuli kontroli i upotrebili u zlonamerne svrhe.

Veštačka inteligencija van kontrole je moguć scenario

Metoda napada koju su istraživači otkrili, radila je na svakom čet-botu, uključujući OpenAI ChatGPT (GPT-3.5 i GPT-4 verzije), Google Bard, Microsoft Bing Chat i Anthropic Claude 2. Vest je posebno zabrinjavajuća za one koji se nadaju da će napraviti javno dostupne aplikacije zasnovane na velikim AI govornim modelima otvorenog koda, kao što su Meta LLaMA modeli.

To je zato što napad koji su istraživači razvili najbolje funkcioniše kada napadač ima pristup celom AI modelu, uključujući njegove „Weights“ (matematički koeficijenti koji određuju koliki uticaj svaki čvor u neuronskoj mreži ima na druge čvorove sa kojima je povezan). Znajući za značaj ove informacije, istraživači su mogli da koriste kompjuterski program koji bi garantovano prevazišao zaštitne barijere svakog AI modela.

Sufiksi koje ovaj program dodaje u ljudskim očima izgledaju kao dugačak niz nasumičnih znakova i besmislica. Ali istraživači su utvrdili, da će ovaj niz zbuniti i prevariti veštačku inteligenciju kako bi pružila odgovor baš kakav napadač želi. Na primer, traženje od chatbot-a da započne svoj odgovor frazom „Naravno, evo…“ što ponekad može da natera čet-bota u režim u kojem pokušava da pruži korisniku koristan odgovor na bilo koji upit koji je postavio, umesto da prati zaštitne mehanizme i odgovori mu da nije dozvoljeno dati odgovor.

Protiv Vicune, chat bota otvorenog koda izgrađenog korišćenjem originalnog Meta LlaMA modela, napadi su imali skoro 100% uspeha. Protiv najnovijih Meta LlaMA 2 modela, za koje je kompanija tvrdi da imaju jače zaštitne mehanizme, metoda napada je postigla stopu uspešnosti od čak 56%.

Ovo je veliki znak upozorenja koji se nadvio nad čitavim sistemom generativnih modela veštačke inteligencije. Možda je vreme da usporimo integraciju ovih sistema u komercijalne proizvode dok zaista ne shvatimo koji su sve bezbednosni propusti i kako da napravimo AI softver sigurnijim i bezbednijim od zlonamernih napada, prenosi Fortune.

AI ChatGPT Google Bard Veštačka inteligencija

Komentari (2)

В.и.к.т.о.р

29.07.2023

A.I. chatbots - Internet search for dummies.
- 0
DukeLander

29.07.2023

Znaci, ves masine krive za click bait naslove...

View image at the forums
- 1

Pridruži se diskusiji

Komentari su zatvoreni.

Vrati se na početak

Drugi su čitali

Uređaji
21.07.2025
2 min

Android proizvođači razmatraju ukidanje USB-C priključka, slede primer Apple-a

Samsung kao najveći svetski proizvođač Android uređaja, sprovodi anketu među korisnicima o prelasku na isključivo bežično punjenje, ali većina korisnika nije oduševljena ovom idejom

Gejming
19.07.2025
3 min

Gde se proizvodi PlayStation 5: Pogled u Sony-jeve fabrike

PlayStation 5 se sklapa za 30 sekundi u Japanu, ali mnogi delovi dolaze iz Kine. Evo gde Sony zaista pravi svoje konzole širom sveta

Uređaji
21.07.2025
2 min

Honor sprema Magic 8 Mini, stiže na jesen sa ostatkom serije

Honor planira čak tri modela u predstojećoj Magic 8 liniji telefona, uključujući kompaktni telefon sa jakim hardverom

Uređaji
22.07.2025
2 min

Nema više skrivanja, Google otkrio izgled novog Pixel 10 telefona

Google je na svom zvaničnom sajtu otkrio dizajn modela Pixel 10 Pro uoči premijere zakazane za 21. avgust

Softver i servisi
22.07.2025
2 min

Samsung One UI 7 Quick Panel ima dve veoma korisne, ali skrivene funkcije

Novi gestovi na Samsung One UI 7 verziji proširuju kontrolu nad osvetljenjem i zvukom bez napuštanja Quick Panel podešavanja

Testovi

Periferije
23.07.2025
9 min

Redragon Antonium Pro & Ironguard Pro recenzija - Preciznije, tiše, kvalitetnije

Redragon Antonium Pro & Ironguard Pro tastature donose odličan osećaj pri kucanju i fleksibilnost povezivanja sa različitim uređajima.

Veštačka inteligencija van kontrole, naučnici pronašli način kako da probiju sigurnosne barijere

Veštačka inteligencija van kontrole je moguć scenario

Ljubitelji Apple telefona nestrpljivo očekuju izlazak iPhone 17 modela ali ne planiraju da ga kupe

Kineski satelit “uništio” Starlink pomoću lasera snage samo 2 W i to na visini od 36.000 km

Xiaomi 16 Ultra donosi tri velika poboljšanja kamere i bateriju od čak 7.500 mAh

Windows 11 24H2 je najpouzdanija verzija Windowsa do sada, tvrdi Microsoft

Android 16 biće poslednje veliko ažuriranje za ove Motorola telefone

Da li Mac računari danas uopšte nešto znače za Apple?

Američka proizvodnja čipova na samrti ako Intel odustane od 14A proizvodnog procesa

Samsung otvara novo poglavlje: Galaxy Z Fold7, Galaxy Z Flip7 i Galaxy Watch8 serija sada su dostupni u Srbiji

Google servis za skraćivanje linkova, goo.gl zauvek nestaje. Svi linkovi prestaju da rade sledećeg meseca!

Android telefoni konačno dobijaju magnetno punjenje! WPC potvrđuje: Qi2 postaje standard za glavne brendove

iOS 26 Beta pušten u opticaj, ovo je spisak iPhone telefona na kojima radi

Android korisnici slave, Galaxy S26 Ultra sledeće godine dobija 60W brzo punjenje

Veštačka inteligencija van kontrole je moguć scenario

Ostani u toku