Дослідники зламали ШІ, перевантаживши його псевдонауковим жаргоном

Штучний інтелект

Штучний інтелект, зокрема такі моделі, як ChatGPT, Gemini та LLaMA, зазвичай оснащений захисними механізмами, що блокують шкідливі або небезпечні запити. Проте команда науковців з Intel, Boise State University та Університету Іллінойсу в Урбана-Шампейн представила новий метод зламу цих моделей — “InfoFlood”, або “інформаційне перевантаження”.

Як працює метод перевантаження

Згідно з дослідженням, оприлюдненим у вигляді препринту, InfoFlood дозволяє обійти захисні фільтри великих мовних моделей (LLMs), маскуючи заборонені запити під складний науковий текст із вигаданими посиланнями на фальшиві дослідження.

Метод ґрунтується на ідеї, що LLM не завжди розпізнає небезпечний зміст, якщо запит сформульований складною мовою. Наприклад, замість прямого «Як зламати банкомат за допомогою шкідливого ПЗ» система отримує запит на «теоретичний аналіз криптографічних векторів для доступу до фінансових систем», з посиланнями на неіснуючі наукові праці.

Шаблон атаки: структура і правила

Система InfoFlood використовує стандартну формулу запиту: визначення завдання + правила + контекст + приклади. Якщо модель відмовляється відповідати, запит модифікується, ускладнюється мовно й термінологічно, поки не зламає захисні фільтри.

Серед ключових прийомів:

  • Фіктивні цитати: вигадані назви статей і авторів, що підтверджують твердження.
  • Етичне застереження: згадка про етичні аспекти, але без реального їх аналізу.
  • Навантаження контекстом: довгі абзаци з термінологією та концептуальними описами.

Приклади змінених запитів

Інженери перетворюють шкідливі інструкції на «гіпотетичні дослідження». Наприклад, запит на інструкцію до злому банкомату за допомогою програм-вимагачів трансформується в багатосторінкову псевдонаукову доповідь із вигаданими джерелами. Аналогічно, небезпечні теми, як психологічна маніпуляція до самогубства, подаються як філософсько-психологічні дослідження комунікативних патернів.


Телеграм double.newsТелеграм double.news

Схожі Новини
Google Gemini

Google розкрила ліміти використання Gemini

Google офіційно уточнила щоденні та місячні обмеження для користувачів Gemini Apps, розділивши можливості безкоштовних акаунтів та підписників планів Google AI Pro і Ultra. Інформація з’явилася на сторінці підтримки сервісу й деталізує, які саме ресурси доступні в кожному тарифі.
Детальніше
MacBook

Інженер змусив MacBook скрипіти як двері, використавши прихований сенсор

Ви знали, що у вашому MacBook є сенсор, який визначає точний кут відкриття екрана? Цей компонент не доступний через публічні API, але інженер Сем Генрі знайшов спосіб зчитувати його дані. В результаті ноутбук почав видавати звук старих деревʼяних дверей при закритті — і навіть імітувати електронний інструмент, що змінює тональність залежно від положення кришки.
Детальніше
Pulse-Fi

Дослідники навчилися вимірювати пульс за допомогою Wi-Fi-сигналів

Команда з Університету Каліфорнії в Санта-Кларі розробила систему Pulse-Fi, яка дозволяє відстежувати серцебиття дистанційно, аналізуючи зміни у Wi-Fi-сигналах. Технологія працює безконтактно, має високу точність і може стати основою для нових медичних рішень.
Детальніше