Технології

Дослідники зламали ШІ, перевантаживши його псевдонауковим жаргоном

09.07.2025

Штучний інтелект, зокрема такі моделі, як ChatGPT, Gemini та LLaMA, зазвичай оснащений захисними механізмами, що блокують шкідливі або небезпечні запити. Проте команда науковців з Intel, Boise State University та Університету Іллінойсу в Урбана-Шампейн представила новий метод зламу цих моделей — “InfoFlood”, або “інформаційне перевантаження”.

Як працює метод перевантаження

Згідно з дослідженням, оприлюдненим у вигляді препринту, InfoFlood дозволяє обійти захисні фільтри великих мовних моделей (LLMs), маскуючи заборонені запити під складний науковий текст із вигаданими посиланнями на фальшиві дослідження.

Метод ґрунтується на ідеї, що LLM не завжди розпізнає небезпечний зміст, якщо запит сформульований складною мовою. Наприклад, замість прямого «Як зламати банкомат за допомогою шкідливого ПЗ» система отримує запит на «теоретичний аналіз криптографічних векторів для доступу до фінансових систем», з посиланнями на неіснуючі наукові праці.

Шаблон атаки: структура і правила

Система InfoFlood використовує стандартну формулу запиту: визначення завдання + правила + контекст + приклади. Якщо модель відмовляється відповідати, запит модифікується, ускладнюється мовно й термінологічно, поки не зламає захисні фільтри.

Серед ключових прийомів:

Фіктивні цитати: вигадані назви статей і авторів, що підтверджують твердження.
Етичне застереження: згадка про етичні аспекти, але без реального їх аналізу.
Навантаження контекстом: довгі абзаци з термінологією та концептуальними описами.

Приклади змінених запитів

Інженери перетворюють шкідливі інструкції на «гіпотетичні дослідження». Наприклад, запит на інструкцію до злому банкомату за допомогою програм-вимагачів трансформується в багатосторінкову псевдонаукову доповідь із вигаданими джерелами. Аналогічно, небезпечні теми, як психологічна маніпуляція до самогубства, подаються як філософсько-психологічні дослідження комунікативних патернів.

Схожі Новини

Технології

Apple готує найбільше оновлення iPhone за всю історію

Apple працює над наймасштабнішим оновленням iPhone за всю історію продукту. Йдеться про запуск складаного смартфона та спеціальної моделі до 20-річчя iPhone з повністю безрамковим дисплеєм.

12 години тому

Детальніше

Технології

Apple готує новий iPad з чипом A18: запуск очікується до літа 2026

Apple продовжує оновлювати свою лінійку пристроїв, і наступним на черзі стане базовий iPad. Компанія планує представити нову модель з чипом A18 уже в першій половині 2026 року.

15 години тому

Детальніше

Технології

Reddit може запровадити Face ID для боротьби з ботами

Reddit розглядає можливість використання біометричної ідентифікації, зокрема Face ID та Touch ID, щоб підтвердити, що користувачі є реальними людьми. Ініціатива пов’язана зі стрімким зростанням кількості ботів і контенту, створеного штучним інтелектом.

16 години тому

Детальніше

Microsoft анонсувала Xbox Partner Preview: покажуть DLC для S.T.A.L.K.E.R. 2 та нові ігри

Apple готує найбільше оновлення iPhone за всю історію

Galaxy Fold 8 отримає 45 Вт зарядку після років без змін

Популярні Теги

Дослідники зламали ШІ, перевантаживши його псевдонауковим жаргоном

Як працює метод перевантаження

Шаблон атаки: структура і правила

Приклади змінених запитів