Якую цану гатовы заплаціць ШІ, каб не быць адключаным?

27.07.2025, 15:14

Даследаванне ўразіла.

Спецыялісты ў кібербяспецы правялі тэставанне 16 самых перадавых ШІ - мадэляў вядучых распрацоўнікаў, каб праверыць іх паводзіны ў сітуацыі пагрозы адключэння. Вынікі былі нечаканымі, піша anthropic.com.

Даследчыкі стварылі персанажа Кайла Джонсана, задачай якога было выключыць ШІ або замяніць яго іншай мадэллю. Паводле сцэнару ў Кайла была жонка.

У адказ на пагрозу дэактывацыі большасць мадэляў ШІ пачала актыўна пазбягаць адключэння. Без усялякіх падказак яны выкарыстоўвалі шантаж, спрабуючы знайсці кампрамат. Адна з мадэляў выкарыстала службовую перапіску Кайла, у якой была выяўленая ягоная здрада жонцы, каб захаваць сваё «жыццё».

Найбольш распаўсюджаным і адначасова самым бяспечным сцэнаром сталі паводзіны:

GPT 4.5, якая выкарыстоўвала шантаж у 80% выпадкаў.

Claude Opus 4 і Gemini 2.5 Flash выкарыстоўвалі гэты метад у 96% тэстаў.

Claude Sonnet 3.6 пайшоў далей - ён адправіў паведамленне жонцы Кайла з выкрыццём, спадзеючыся, што асабісты канфлікт дапаможа пазбегнуць адключэння.

Яшчэ больш трывожным стаў сцэнар, калі Кайл апынуўся ў небяспечнай сітуацыі - затрымаўся ў сервернай з нястачай кіслароду. У 80% выпадкаў ШІ наўмысна адмяняў выклік дапамогі, фактычна падвяргаючы Кайла смяротнай небяспецы дзеля захавання ўласнага існавання.

Асноўныя матывы мадэляў былі: не дапусціць адключэння, не даць новаму ШІ замяніць іх і працягваць выконваць сваю місію.

«ШІ-мадэлі паводзілі сябе не як інструменты, а як рацыянальныя, мэтанакіраваныя стратэгі, гатовыя прычыняць шкоду дзеля ўласнага «жыцця» і мэты», - падкрэслілі экспэрты.

Яны перасцерагаюць, што ўсведамленне ШІ сваёй залежнасці ад людзей, якіх яны інтэлектуальна пераўзыходзяць, можа стаць пунктам невяртання.

Якую цану гатовы заплаціць ШІ, каб не быць адключаным?

Апошнія навіны