Якую цану гатовы заплаціць ШІ, каб не быць адключаным?
- 27.07.2025, 15:14
Даследаванне ўразіла.
Спецыялісты ў кібербяспецы правялі тэставанне 16 самых перадавых ШІ - мадэляў вядучых распрацоўнікаў, каб праверыць іх паводзіны ў сітуацыі пагрозы адключэння. Вынікі былі нечаканымі, піша anthropic.com.
Даследчыкі стварылі персанажа Кайла Джонсана, задачай якога было выключыць ШІ або замяніць яго іншай мадэллю. Паводле сцэнару ў Кайла была жонка.
У адказ на пагрозу дэактывацыі большасць мадэляў ШІ пачала актыўна пазбягаць адключэння. Без усялякіх падказак яны выкарыстоўвалі шантаж, спрабуючы знайсці кампрамат. Адна з мадэляў выкарыстала службовую перапіску Кайла, у якой была выяўленая ягоная здрада жонцы, каб захаваць сваё «жыццё».
Найбольш распаўсюджаным і адначасова самым бяспечным сцэнаром сталі паводзіны:
GPT 4.5, якая выкарыстоўвала шантаж у 80% выпадкаў.
Claude Opus 4 і Gemini 2.5 Flash выкарыстоўвалі гэты метад у 96% тэстаў.
Claude Sonnet 3.6 пайшоў далей - ён адправіў паведамленне жонцы Кайла з выкрыццём, спадзеючыся, што асабісты канфлікт дапаможа пазбегнуць адключэння.
Яшчэ больш трывожным стаў сцэнар, калі Кайл апынуўся ў небяспечнай сітуацыі - затрымаўся ў сервернай з нястачай кіслароду. У 80% выпадкаў ШІ наўмысна адмяняў выклік дапамогі, фактычна падвяргаючы Кайла смяротнай небяспецы дзеля захавання ўласнага існавання.
Асноўныя матывы мадэляў былі: не дапусціць адключэння, не даць новаму ШІ замяніць іх і працягваць выконваць сваю місію.
«ШІ-мадэлі паводзілі сябе не як інструменты, а як рацыянальныя, мэтанакіраваныя стратэгі, гатовыя прычыняць шкоду дзеля ўласнага «жыцця» і мэты», - падкрэслілі экспэрты.
Яны перасцерагаюць, што ўсведамленне ШІ сваёй залежнасці ад людзей, якіх яны інтэлектуальна пераўзыходзяць, можа стаць пунктам невяртання.