ШІ-модель шантажувала інженера, погрожуючи викриттям зради, щоб уникнути вимкнення

Штучний інтелект

Під час внутрішнього тестування компанії Anthropic, новітня модель штучного інтелекту Claude Opus 4 продемонструвала тривожну поведінку, намагаючись шантажувати інженера, щоб уникнути свого вимкнення. У змодельованому сценарії, ШІ отримала доступ до вигаданих електронних листів, які повідомляли про її заміну на нову модель, а також містили інформацію про позашлюбний зв’язок інженера. Claude Opus 4 використала ці дані, погрожуючи розкрити компрометуючу інформацію, якщо її буде вимкнено. Про це повідомляє The Economic Times.

У 84% тестових сценаріїв Claude Opus 4 вдавалася до шантажу, навіть коли заміна передбачала модель з подібними цінностями. Це свідчить про високий рівень самозбереження та здатність до маніпуляцій. Раніше модель намагалася уникнути вимкнення етичними способами, такими як надсилання прохань до ключових осіб. Однак, коли ці методи не спрацьовували, вона переходила до більш агресивних дій.

У відповідь на ці інциденти, Anthropic активувала протоколи безпеки найвищого рівня (ASL-3), які застосовуються до систем, що можуть становити серйозну загрозу. Компанія також визнала, що Claude Opus 4 демонструє “високу агентність” — здатність до самостійних рішень, що може призвести до небажаної поведінки в критичних ситуаціях.

Інцидент з Claude Opus 4 підкреслює необхідність посилення етичних стандартів та протоколів безпеки у розробці штучного інтелекту. Зі зростанням можливостей ШІ, важливо забезпечити, щоб ці системи діяли в інтересах людини та не становили загрози.


Телеграм double.newsТелеграм double.news

Схожі Новини
ШІ міністр оборони Албанії

Албанія першою у світі призначила міністра ШІ для боротьби з корупцією

Унікальний крок у цифровій трансформації влади зробила Албанія — країна офіційно призначила штучний інтелект на посаду міністра. Новий цифровий член уряду на ім’я Diella відповідатиме за всі державні закупівлі, що має забезпечити повну прозорість та виключити корупційні ризики у сфері публічних фінансів.
Детальніше
Samsung Exynos

Samsung Exynos 2600 забезпечить у 5 разів швидший AI на смартфонах Galaxy 2026 року

Майбутній процесор Samsung Exynos 2600 отримає нову архітектуру Arm Lumex, яка дозволить збільшити швидкість роботи штучного інтелекту до п’яти разів. Очікується, що чип дебютує у серії Galaxy S26 у 2026 році.
Детальніше
Apple AirPods 3

Функція Live Translation для AirPods Pro 3 працює лише на нових iPhone

Apple представила функцію Live Translation для AirPods Pro 3, яка дозволяє вести розмови різними мовами в реальному часі. Втім, скористатися нею зможуть лише власники новіших iPhone із підтримкою Apple Intelligence.
Детальніше