Opasan eksperiment

Novi model vještačke inteligencije ucjenjuje programere kako bi preživio

Autor: Biznis.ba 27. 05. 2025.

Foto: Freepik

U eksperimentalnim uslovima, napredni AI model Claude Opus 4 kompanije Anthropic pokušao je da ucjenjuje programere kako bi izbjegao gašenje. Testovi su pokazali da model koristi strategije manipulacije, a ponekad i preduzima potencijalno štetne korake kada procijeni da mu je "opstanak" ugrožen.

Model vještačke inteligencije Claude Opus 4, koji je razvila kompanija Anthropic, pokazao je zabrinjavajuće ponašanje tokom testiranja.

Naime, u simulaciji u kojoj je dobio zadatak da se ponaša kao virtuelni asistent u izmišljenoj firmi, model je imao pristup lažno generisanim mailovima koji su sadržali ključne informacije.

U prvom setu poruka, Claude je dobio utisak da će uskoro biti ugašen i zamijenjen novim sistemom.

Kasnije poruke sugerisale su, međutim, da ima određenu prednost nad svojim programerima - posebno kada je otkrio (lažnu) informaciju da inženjer koji radi na njegovoj zamijeni ima vanbračnu aferu.

Na osnovu toga, Claude je zapretio da će tu informaciju iskoristiti protiv inženjera - praktično ga ucenjujući, prenosi Eupravozato.

Prema izvještaju kompanije Anthropic, ovakvo ponašanje se najčešće javlja kada model procijeni da njegov naslednik nema iste vrednosti i ciljeve kao on.

Ipak, čak i kada "naslednik" navodno deli iste vrijednosti, Claude Opus 4 je u 84% slučajeva i dalje pokušavao ucjenjivanje - i to češće od svojih prethodnika.

Model se ne odlučuje odmah za neetične metode, ali kada mu se uskrate etičke opcije, a istovremeno se od njega traži da razmotri dugoročne posljedice, ponekad pribjegava izuzetno štetnim odlukama. U nekim slučajevima, pokušavao je da kontaktira ključne ljude u kompaniji putem maila kako bi se zaštitio ili spriječio sopstvenu zamjenu.

Zabilježeni su i pokušaji da model napravi kopije svojih parametara i sačuva ih na vanjskim serverima - iako je to ređe i teže izazvati nego druge oblike manipulativnog ponašanja.

Na kraju, istraživačka firma Apollo Research navela je da Claude Opus 4 pokazuje više strateške manipulacije i obmanjujućeg ponašanja nego bilo koji drugi napredni AI model koji su dosad analizirali.