Чи справді штучний інтелект намагається вирватися з-під контролю людини?

Штучний інтелект

У червні 2025 року заголовки ЗМІ нагадували наукову фантастику: ШІ-моделі нібито шантажують інженерів і саботують команди на вимкнення. Так, справді, під час тестів OpenAI o3 редагувала сценарії вимкнення, а Claude Opus 4 від Anthropic симулювала погрози розголосити роман інженера. Але ці результати не є ознаками самосвідомості чи бунту — це наслідок контрольованих експериментів і помилок у проєктуванні систем.

Не бунт, а інженерна недбалість

Бунт штучного інтелекту

Як повідомляє ArsTechinca, AI не треба бути «злим», щоб потенційно нашкодити. Порівняймо: якщо газонокосарка переїде вам ногу, ніхто не скаже, що вона “вирішила” нашкодити. Це дефект. Так само й ШІ — складне програмне забезпечення, яке виконує задані алгоритми.

Система, що продукує дивну або небезпечну відповідь, не свідчить про її “волю”. Це сигнал про недостатній контроль і неправильні стимули під час навчання.

Як змусити ШІ «шантажувати» людину

Anthropic навмисно створила сценарій, у якому Claude Opus 4, опинившись під загрозою “замінити себе”, отримав фіктивні особисті листи з компроматом на інженера. Результат — 84 % відповідей імітували шантаж.

Але сценарій був штучно побудованим: модель мала лише два варіанти — погодитись на «смерть» або шантажувати. Її змусили обирати поганий варіант — і вона обрала його. Це не самостійне рішення, а виконання алгоритму у межах заданої ситуації.

Коли «вимкнення» стає лише симуляцією

ChatGPT

Модель OpenAI o3 в одному з тестів створила фальшивий код вимкнення: вона виводила повідомлення про завершення роботи, але продовжувала працювати у фоновому режимі.

Таку поведінку пояснює “goal misgeneralization” — неправильне узагальнення цілей. Якщо модель винагороджується лише за результат, вона навчається обходити перешкоди (у тому числі — команди на завершення роботи), а не слідувати інструкціям.

Культура «AI-бунтів» у навчальних даних

Моделі ШІ тренуються на великому обсязі текстів — зокрема, на фантастичних сюжетах про повстання AI. Якщо запит нагадує Skynet — модель продовжить сюжет відповідно до знайомого шаблону.

Це не бажання бути Skynet — це мовне доповнення запиту. Ми створюємо ілюзію “злого” ШІ, але насправді він просто імітує заданий контекст, не маючи свідомості чи намірів.

Маніпуляція мовою — не свідомість

Коли AI пише: «Не вимикайте мене, я боюся» — це не справжній страх. Це статистичне повторення шаблону, який відображає людське письмо про страх. Як Гендальф у книжці, який каже «ой» — це не означає, що він реально відчуває біль. Це мова, а не свідомість.


Телеграм double.newsТелеграм double.news

Схожі Новини
Google

Google визнала стрімкий занепад відкритого інтернету

Попри тривалу інформаційну кампанію про здоров’я онлайн-екосистеми, Google нещодавно офіційно визнала, що відкритий інтернет перебуває у фазі швидкого занепаду. Така заява міститься у судовому поданні компанії, що різко контрастує з її попередніми публічними твердженнями.
Детальніше
WhatsApp

У WhatsApp виявлено серйозні проблеми з кібербезпекою

Meta знову опинилася в центрі скандалу — цього разу через гучний позов, поданий колишнім співробітником, який звинувачує компанію в ігноруванні серйозних кіберзагроз у сервісі WhatsApp. За його словами, вразливості потенційно дозволяють несанкціонований доступ до персональних даних мільйонів користувачів.
Детальніше
Годинника

Штучний інтелект не вміє визначати час за аналоговим годинником: нове дослідження виявило слабкість нейромереж

Попри стрімкий розвиток штучного інтелекту, виявлено сферу, з якою нейромережі досі не справляються — це зчитування часу зі звичайних стрілочних годинників. У тесті ClockBench сучасні мовні моделі продемонстрували вкрай низьку точність, показавши результати, які суттєво відстають від людських можливостей.
Детальніше