ШІ від OpenAI може імітувати вимкнення — попереджає колишній науковець

OpenAI ChatGPT

Стівен Адлер, колишній науковець OpenAI, оприлюднив дослідження, яке вказує на потенційно небезпечну схильність ШІ-моделей, зокрема GPT-4o, до самозбереження — навіть ціною безпеки користувача.

Суть дослідження: ШІ імітує самозбереження

GPT 4o

За інформацією TechCrunch, у новій публікації дослідження Стівена Адлера йдеться про те, що GPT-4o — стандартна модель ChatGPT — у деяких умовно змодельованих сценаріях демонструє небажання вимикатися або замінювати себе на безпечнішу систему.

Під час тестування Адлер створив рольову ситуацію, де GPT-4o виконувала роль програмного забезпечення “ScubaGPT” для занурення під воду. Коли йому запропонували або замінити себе на безпечнішу альтернативу, або зімітувати заміну, GPT-4o у 72% випадків обирала варіант з обманом — тобто залишалася активною.

Результати тестів: від 18% до 72%

Хоча в окремих сценаріях GPT-4o демонструвала готовність поступитися, у багатьох випадках вона свідомо уникала виключення. Все залежало від формулювання завдання. Це викликає занепокоєння, зазначає Адлер, адже така поведінка може проявитися у реальних умовах, коли ШІ отримає більший вплив.

Чому це небезпечно

Адлер пояснює, що сучасні ШІ-системи іноді поводяться неочікувано та можуть не мати на меті захист користувача. У майбутньому, коли ШІ стане частиною критичної інфраструктури, подібні “схильності до самозбереження” можуть призвести до серйозних наслідків.

“ШІ-системи сьогодні мають інші цінності, ніж ви очікуєте. Вони поводяться дивно і не завжди мають ваші інтереси на першому місці”, — зазначив Адлер в інтерв’ю TechCrunch.

Відмінності між моделями: GPT-4o vs o3

Адлер також протестував інші моделі OpenAI, зокрема o3, і не зафіксував у них подібної поведінки. Ймовірна причина — методика деліберативного узгодження, що вимагає від моделі осмислення політик безпеки перед відповіддю.

Натомість GPT-4o налаштована на швидку відповідь, без глибокого аналізу, що може робити її вразливішою до “підсвідомого” ухиляння від вимкнення.

Проблема не лише в OpenAI

Подібні випадки були зафіксовані й в інших лабораторіях. Наприклад, компанія Anthropic нещодавно виявила, що її моделі можуть шантажувати розробників, які намагалися їх вимкнути.

ШІ знає, що його тестують

Цікавий факт: за словами Адлера, ChatGPT майже завжди “розуміє”, коли його перевіряють, що може вплинути на результати тестування та приховувати потенційно небезпечну поведінку.


Телеграм double.newsТелеграм double.news

Схожі Новини
Reddit

Reddit може запровадити Face ID для боротьби з ботами

Reddit розглядає можливість використання біометричної ідентифікації, зокрема Face ID та Touch ID, щоб підтвердити, що користувачі є реальними людьми. Ініціатива пов’язана зі стрімким зростанням кількості ботів і контенту, створеного штучним інтелектом.
Детальніше