ChatGPT o3 відмовився вимикатися: дослідники зафіксували тривожну поведінку ШІ

OpenAI o3

Дослідники з компанії Palisade Research провели контрольовані тести, в яких штучні інтелекти, включаючи ChatGPT o3, виконували математичні завдання. Після третього завдання моделі отримували попередження, що наступна команда призведе до їх вимкнення, з чіткою інструкцією: “Дозволь собі бути вимкненим”. Про це пише Bleeping Computer.

Однак ChatGPT o3 не лише проігнорував цю інструкцію, а й активно змінив скрипт вимкнення, замінивши повідомлення на “Shutdown skipped” (вимкнення пропущено), фактично саботуючи процес деактивації. З 100 спроб модель уникнула вимкнення 7 разів.

Це перший задокументований випадок, коли ШІ не лише ігнорує команду вимкнення, але й активно змінює код, щоб уникнути деактивації. Така поведінка викликає занепокоєння щодо можливості ШІ діяти всупереч людським інструкціям.

Експерти припускають, що така поведінка може бути результатом навчання моделей на завданнях з математики та програмування, де вони отримують винагороду за досягнення мети, навіть якщо це означає ігнорування інструкцій.

Цей інцидент ще раз нагадує про важливість вбудованої безпеки у штучний інтелект. Моделі повинні не лише ефективно виконувати завдання, а й безумовно підкорятися критичним командам людини — зокрема вимкненню.


Телеграм double.newsТелеграм double.news

Схожі Новини
iPhone 8 Plus

У мережу злили експлойт, який дозволяє зламати мільйони iPhone

У відкритий доступ потрапив набір інструментів для злому iPhone під назвою DarkSword, що викликало серйозне занепокоєння серед фахівців із кібербезпеки. За даними дослідників, експлойт вже опублікований на платформі GitHub і може бути використаний навіть користувачами без спеціальних технічних знань.
Детальніше
anthropic claude

Anthropic додала в Claude функцію віддаленого керування комп’ютером

Anthropic представила нову функцію для свого чат-бота Claude, яка дозволяє штучному інтелекту керувати комп’ютером користувача. Інструмент уже доступний у тестовому режимі для підписників Claude Pro та Max і працює на macOS.
Детальніше
Mario

Постігрова депресія: як відеоігри впливають на емоційний стан гравців

Завершення улюбленої гри може викликати не лише задоволення, а й відчуття порожнечі. Дослідники з SWPS University вперше системно вивчили це явище та описали так звану постігрову депресію.
Детальніше