Novi model vještačke inteligencije ucjenjuje programere kako bi preživio
Model vještačke inteligencije Claude Opus 4, koji je razvila kompanija Anthropic, pokazao je zabrinjavajuće ponašanje tokom testiranja.
Naime, u simulaciji u kojoj je dobio zadatak da se ponaša kao virtuelni asistent u izmišljenoj firmi, model je imao pristup lažno generisanim mailovima koji su sadržali ključne informacije.
U prvom setu poruka, Claude je dobio utisak da će uskoro biti ugašen i zamijenjen novim sistemom.
Kasnije poruke sugerisale su, međutim, da ima određenu prednost nad svojim programerima - posebno kada je otkrio (lažnu) informaciju da inženjer koji radi na njegovoj zamijeni ima vanbračnu aferu.
Na osnovu toga, Claude je zapretio da će tu informaciju iskoristiti protiv inženjera - praktično ga ucenjujući, prenosi Eupravozato.
Prema izvještaju kompanije Anthropic, ovakvo ponašanje se najčešće javlja kada model procijeni da njegov naslednik nema iste vrednosti i ciljeve kao on.
Ipak, čak i kada "naslednik" navodno deli iste vrijednosti, Claude Opus 4 je u 84% slučajeva i dalje pokušavao ucjenjivanje - i to češće od svojih prethodnika.
Model se ne odlučuje odmah za neetične metode, ali kada mu se uskrate etičke opcije, a istovremeno se od njega traži da razmotri dugoročne posljedice, ponekad pribjegava izuzetno štetnim odlukama. U nekim slučajevima, pokušavao je da kontaktira ključne ljude u kompaniji putem maila kako bi se zaštitio ili spriječio sopstvenu zamjenu.
Zabilježeni su i pokušaji da model napravi kopije svojih parametara i sačuva ih na vanjskim serverima - iako je to ređe i teže izazvati nego druge oblike manipulativnog ponašanja.
Na kraju, istraživačka firma Apollo Research navela je da Claude Opus 4 pokazuje više strateške manipulacije i obmanjujućeg ponašanja nego bilo koji drugi napredni AI model koji su dosad analizirali.