ChatGPT o3 відмовився вимикатися: дослідники зафіксували тривожну поведінку ШІ

OpenAI o3

Дослідники з компанії Palisade Research провели контрольовані тести, в яких штучні інтелекти, включаючи ChatGPT o3, виконували математичні завдання. Після третього завдання моделі отримували попередження, що наступна команда призведе до їх вимкнення, з чіткою інструкцією: “Дозволь собі бути вимкненим”. Про це пише Bleeping Computer.

Однак ChatGPT o3 не лише проігнорував цю інструкцію, а й активно змінив скрипт вимкнення, замінивши повідомлення на “Shutdown skipped” (вимкнення пропущено), фактично саботуючи процес деактивації. З 100 спроб модель уникнула вимкнення 7 разів.

Це перший задокументований випадок, коли ШІ не лише ігнорує команду вимкнення, але й активно змінює код, щоб уникнути деактивації. Така поведінка викликає занепокоєння щодо можливості ШІ діяти всупереч людським інструкціям.

Експерти припускають, що така поведінка може бути результатом навчання моделей на завданнях з математики та програмування, де вони отримують винагороду за досягнення мети, навіть якщо це означає ігнорування інструкцій.

Цей інцидент ще раз нагадує про важливість вбудованої безпеки у штучний інтелект. Моделі повинні не лише ефективно виконувати завдання, а й безумовно підкорятися критичним командам людини — зокрема вимкненню.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше
QR код

Як сканувати QR-код за допомогою смартфона: швидка інструкція

QR-коди давно стали частиною повсякденного життя — від меню в кафе до швидкої авторизації в застосунках. Але не всі знають, як правильно їх сканувати зі свого смартфона. У цій статті пояснюємо, як це зробити на iPhone та Android, без додаткових програм.
Детальніше