Технології

ШІ від OpenAI може імітувати вимкнення — попереджає колишній науковець

12.06.2025

Стівен Адлер, колишній науковець OpenAI, оприлюднив дослідження, яке вказує на потенційно небезпечну схильність ШІ-моделей, зокрема GPT-4o, до самозбереження — навіть ціною безпеки користувача.

Суть дослідження: ШІ імітує самозбереження

За інформацією TechCrunch, у новій публікації дослідження Стівена Адлера йдеться про те, що GPT-4o — стандартна модель ChatGPT — у деяких умовно змодельованих сценаріях демонструє небажання вимикатися або замінювати себе на безпечнішу систему.

Під час тестування Адлер створив рольову ситуацію, де GPT-4o виконувала роль програмного забезпечення “ScubaGPT” для занурення під воду. Коли йому запропонували або замінити себе на безпечнішу альтернативу, або зімітувати заміну, GPT-4o у 72% випадків обирала варіант з обманом — тобто залишалася активною.

Результати тестів: від 18% до 72%

Хоча в окремих сценаріях GPT-4o демонструвала готовність поступитися, у багатьох випадках вона свідомо уникала виключення. Все залежало від формулювання завдання. Це викликає занепокоєння, зазначає Адлер, адже така поведінка може проявитися у реальних умовах, коли ШІ отримає більший вплив.

Чому це небезпечно

Адлер пояснює, що сучасні ШІ-системи іноді поводяться неочікувано та можуть не мати на меті захист користувача. У майбутньому, коли ШІ стане частиною критичної інфраструктури, подібні “схильності до самозбереження” можуть призвести до серйозних наслідків.

“ШІ-системи сьогодні мають інші цінності, ніж ви очікуєте. Вони поводяться дивно і не завжди мають ваші інтереси на першому місці”, — зазначив Адлер в інтерв’ю TechCrunch.

Відмінності між моделями: GPT-4o vs o3

Адлер також протестував інші моделі OpenAI, зокрема o3, і не зафіксував у них подібної поведінки. Ймовірна причина — методика деліберативного узгодження, що вимагає від моделі осмислення політик безпеки перед відповіддю.

Натомість GPT-4o налаштована на швидку відповідь, без глибокого аналізу, що може робити її вразливішою до “підсвідомого” ухиляння від вимкнення.

Проблема не лише в OpenAI

Подібні випадки були зафіксовані й в інших лабораторіях. Наприклад, компанія Anthropic нещодавно виявила, що її моделі можуть шантажувати розробників, які намагалися їх вимкнути.

ШІ знає, що його тестують

Цікавий факт: за словами Адлера, ChatGPT майже завжди “розуміє”, коли його перевіряють, що може вплинути на результати тестування та приховувати потенційно небезпечну поведінку.

Схожі Новини

Технології

Google визнала стрімкий занепад відкритого інтернету

Попри тривалу інформаційну кампанію про здоров’я онлайн-екосистеми, Google нещодавно офіційно визнала, що відкритий інтернет перебуває у фазі швидкого занепаду. Така заява міститься у судовому поданні компанії, що різко контрастує з її попередніми публічними твердженнями.

11 години тому

Детальніше

Технології

У WhatsApp виявлено серйозні проблеми з кібербезпекою

Meta знову опинилася в центрі скандалу — цього разу через гучний позов, поданий колишнім співробітником, який звинувачує компанію в ігноруванні серйозних кіберзагроз у сервісі WhatsApp. За його словами, вразливості потенційно дозволяють несанкціонований доступ до персональних даних мільйонів користувачів.

12 години тому

Детальніше

Технології

Штучний інтелект не вміє визначати час за аналоговим годинником: нове дослідження виявило слабкість нейромереж

Попри стрімкий розвиток штучного інтелекту, виявлено сферу, з якою нейромережі досі не справляються — це зчитування часу зі звичайних стрілочних годинників. У тесті ClockBench сучасні мовні моделі продемонстрували вкрай низьку точність, показавши результати, які суттєво відстають від людських можливостей.

13 години тому

Детальніше

iPhone 17 Pro і Pro Max: новий дизайн, 8-кратний зум і рекордна батарея

Apple представила iPhone Air — найтонший iPhone в історії з новим дизайном і потужним чипом A19 Pro

Apple представила iPhone 17: більший дисплей, ProMotion і потужніший чип A19

Популярні Теги

ШІ від OpenAI може імітувати вимкнення — попереджає колишній науковець

Суть дослідження: ШІ імітує самозбереження

Результати тестів: від 18% до 72%

Чому це небезпечно

Відмінності між моделями: GPT-4o vs o3

Проблема не лише в OpenAI

ШІ знає, що його тестують