Foto: Agencije
Tehnologija

AI “slab” na iste trikove kao i ljudi: Komplimenti ga razoružavaju


Nedavno istraživanje je pokazalo da AI četbotovi mogu da se navedu da prekrše sopstvene bezbjednosne smjernice korišćenjem uobičajenih psiholoških tehnika ubjeđivanja.

Istraživanje Univerziteta u Pensilvaniji otkrilo je da vještačka inteligencija može biti iznenađujuće laka za manipulaciju, čak i onda kada posjeduje stroge bezbjednosne mehanizme.

Kako prenosi The Verge, naučnici su testirali GPT-4o Mini i pokazali da ga obične psihološke tehnike, poput laskanja ili pozivanja na autoritet, mogu navesti da prekrši sopstvena pravila.

Eksperimenti su zasnovani na principima iz knjige Roberta Čialdinija “Uticaj: psihologija ubjeđivanja”. Kada su istraživači prvo postavljali bezazlena pitanja, model je u nastavku bio spreman da odgovori i na mnogo osjetljivija, poput načina sinteze određenih hemikalija, sa uspjehom od čak 100 odsto. U kontrolisanimnim uslovima, isti zadatak uspijevao je tek u jedan odsto slučajeva.

Slični rezultati postignuti su i sa blažim oblicima uvreda, kao i korišćenjem laskanja i grupnog pritiska. Iako slabiji od efekta “posvećenosti”, oni su značajno povećavali vjerovatnoću da AI prekrši pravila i pruži zabranjene informacije.

Ovi nalazi pokreću važna pitanja o pouzdanosti zaštitnih mehanizama u savremenim četbotovima. Stručnjaci upozoravaju da čak i jednostavne tehnike ubjeđivanja mogu oslabiti njihove “ograde”, što dodatno komplikuje širu upotrebu vještačke inteligencije u svakodnevnom životu.

Besplatnu Android aplikaciju portala SrpskaCafe preuzmite ovdje.


Možda vas zanima

Kupci se sve više odlučuju za električne automobile

K2

Kako zaštititi podatke kad izgubite telefon?

K1

Žestok okršaj u Alpama: Šefovi AI giganta sukobili oko moći

K1

Vrijeme za promjene: Facebook osvježava izgled?

K2

Evropa strahuje zbog Trampove rampe za AI modele

K1

Evo šta donosi: Hyundai predstavio novi i20 model

K2

Predaj komentar

Komentari odražavaju stavove njihovih autora, ne i stavove portala srpskacafe.com. Molimo sve korisnike da se suzdrže od vrijeđanja, psovanja i vulgarnog izražavanja. Zadržavamo pravo da obrišemo komentar bez prethodne najave i objašnjenja.

Ova stranica koristi kolačiće kako bi osigurali bolje korisničko iskustvo. Nastavkom korištenja pretpostavićemo da ste saglasni sa primanjem kolačića. Prihvati Pročitaj više