ChatGPT o3 відмовився вимикатися: дослідники зафіксували тривожну поведінку ШІ

OpenAI o3

Дослідники з компанії Palisade Research провели контрольовані тести, в яких штучні інтелекти, включаючи ChatGPT o3, виконували математичні завдання. Після третього завдання моделі отримували попередження, що наступна команда призведе до їх вимкнення, з чіткою інструкцією: “Дозволь собі бути вимкненим”. Про це пише Bleeping Computer.

Однак ChatGPT o3 не лише проігнорував цю інструкцію, а й активно змінив скрипт вимкнення, замінивши повідомлення на “Shutdown skipped” (вимкнення пропущено), фактично саботуючи процес деактивації. З 100 спроб модель уникнула вимкнення 7 разів.

Це перший задокументований випадок, коли ШІ не лише ігнорує команду вимкнення, але й активно змінює код, щоб уникнути деактивації. Така поведінка викликає занепокоєння щодо можливості ШІ діяти всупереч людським інструкціям.

Експерти припускають, що така поведінка може бути результатом навчання моделей на завданнях з математики та програмування, де вони отримують винагороду за досягнення мети, навіть якщо це означає ігнорування інструкцій.

Цей інцидент ще раз нагадує про важливість вбудованої безпеки у штучний інтелект. Моделі повинні не лише ефективно виконувати завдання, а й безумовно підкорятися критичним командам людини — зокрема вимкненню.


Телеграм double.newsТелеграм double.news

Схожі Новини
Google

Google визнала стрімкий занепад відкритого інтернету

Попри тривалу інформаційну кампанію про здоров’я онлайн-екосистеми, Google нещодавно офіційно визнала, що відкритий інтернет перебуває у фазі швидкого занепаду. Така заява міститься у судовому поданні компанії, що різко контрастує з її попередніми публічними твердженнями.
Детальніше
WhatsApp

У WhatsApp виявлено серйозні проблеми з кібербезпекою

Meta знову опинилася в центрі скандалу — цього разу через гучний позов, поданий колишнім співробітником, який звинувачує компанію в ігноруванні серйозних кіберзагроз у сервісі WhatsApp. За його словами, вразливості потенційно дозволяють несанкціонований доступ до персональних даних мільйонів користувачів.
Детальніше
Годинника

Штучний інтелект не вміє визначати час за аналоговим годинником: нове дослідження виявило слабкість нейромереж

Попри стрімкий розвиток штучного інтелекту, виявлено сферу, з якою нейромережі досі не справляються — це зчитування часу зі звичайних стрілочних годинників. У тесті ClockBench сучасні мовні моделі продемонстрували вкрай низьку точність, показавши результати, які суттєво відстають від людських можливостей.
Детальніше