ШІ від OpenAI може імітувати вимкнення — попереджає колишній науковець

OpenAI ChatGPT

Стівен Адлер, колишній науковець OpenAI, оприлюднив дослідження, яке вказує на потенційно небезпечну схильність ШІ-моделей, зокрема GPT-4o, до самозбереження — навіть ціною безпеки користувача.

Суть дослідження: ШІ імітує самозбереження

GPT 4o

За інформацією TechCrunch, у новій публікації дослідження Стівена Адлера йдеться про те, що GPT-4o — стандартна модель ChatGPT — у деяких умовно змодельованих сценаріях демонструє небажання вимикатися або замінювати себе на безпечнішу систему.

Під час тестування Адлер створив рольову ситуацію, де GPT-4o виконувала роль програмного забезпечення “ScubaGPT” для занурення під воду. Коли йому запропонували або замінити себе на безпечнішу альтернативу, або зімітувати заміну, GPT-4o у 72% випадків обирала варіант з обманом — тобто залишалася активною.

Результати тестів: від 18% до 72%

Хоча в окремих сценаріях GPT-4o демонструвала готовність поступитися, у багатьох випадках вона свідомо уникала виключення. Все залежало від формулювання завдання. Це викликає занепокоєння, зазначає Адлер, адже така поведінка може проявитися у реальних умовах, коли ШІ отримає більший вплив.

Чому це небезпечно

Адлер пояснює, що сучасні ШІ-системи іноді поводяться неочікувано та можуть не мати на меті захист користувача. У майбутньому, коли ШІ стане частиною критичної інфраструктури, подібні “схильності до самозбереження” можуть призвести до серйозних наслідків.

“ШІ-системи сьогодні мають інші цінності, ніж ви очікуєте. Вони поводяться дивно і не завжди мають ваші інтереси на першому місці”, — зазначив Адлер в інтерв’ю TechCrunch.

Відмінності між моделями: GPT-4o vs o3

Адлер також протестував інші моделі OpenAI, зокрема o3, і не зафіксував у них подібної поведінки. Ймовірна причина — методика деліберативного узгодження, що вимагає від моделі осмислення політик безпеки перед відповіддю.

Натомість GPT-4o налаштована на швидку відповідь, без глибокого аналізу, що може робити її вразливішою до “підсвідомого” ухиляння від вимкнення.

Проблема не лише в OpenAI

Подібні випадки були зафіксовані й в інших лабораторіях. Наприклад, компанія Anthropic нещодавно виявила, що її моделі можуть шантажувати розробників, які намагалися їх вимкнути.

ШІ знає, що його тестують

Цікавий факт: за словами Адлера, ChatGPT майже завжди “розуміє”, коли його перевіряють, що може вплинути на результати тестування та приховувати потенційно небезпечну поведінку.


Телеграм double.newsТелеграм double.news

Схожі Новини
Google

Google визнала стрімкий занепад відкритого інтернету

Попри тривалу інформаційну кампанію про здоров’я онлайн-екосистеми, Google нещодавно офіційно визнала, що відкритий інтернет перебуває у фазі швидкого занепаду. Така заява міститься у судовому поданні компанії, що різко контрастує з її попередніми публічними твердженнями.
Детальніше
WhatsApp

У WhatsApp виявлено серйозні проблеми з кібербезпекою

Meta знову опинилася в центрі скандалу — цього разу через гучний позов, поданий колишнім співробітником, який звинувачує компанію в ігноруванні серйозних кіберзагроз у сервісі WhatsApp. За його словами, вразливості потенційно дозволяють несанкціонований доступ до персональних даних мільйонів користувачів.
Детальніше
Годинника

Штучний інтелект не вміє визначати час за аналоговим годинником: нове дослідження виявило слабкість нейромереж

Попри стрімкий розвиток штучного інтелекту, виявлено сферу, з якою нейромережі досі не справляються — це зчитування часу зі звичайних стрілочних годинників. У тесті ClockBench сучасні мовні моделі продемонстрували вкрай низьку точність, показавши результати, які суттєво відстають від людських можливостей.
Детальніше