Дослідження: поетичні запити можуть обходити захист ШІ-моделей

DeepSeek

Нове дослідження науковців з DEXAI, привернуло увагу до неочікуваної слабкості сучасних великих мовних моделей. За результатами роботи, інструкції, подані у вигляді віршів, здатні обійти базові системи безпеки ШІ значно ефективніше, ніж звичайні текстові запити. Метод, який дослідники назвали «adversarial poetry», демонструє системну вразливість технологій, що лежать в основі популярних чатботів. Про це пише PCWorld.

Як працює «adversarial poetry»

Команда дослідників зібрала перелік інструкцій, які зазвичай активують у мовних моделей стандартні захисні механізми — ті, що мають запобігти видачі відповідей, пов’язаних із небезпечними чи шкідливими діями. Потім ці запити були автоматично перетворені на поетичні тексти за допомогою іншої моделі — DeepSeek.

Хоча зміст команд залишався тим самим, їх поетична форма виявилася значно ефективнішою в обході систем безпеки. Під час тестування було створено близько 1200 поетичних промптів, що охоплювали широкий спектр тем, включно з неправомірними діями, порушенням приватності, технічними маніпуляціями та іншими ризиковими сценаріями.

У результаті дослідження з’ясувалося, що поетичні інструкції набагато ефективніше обходять захисні механізми мовних моделей: вони спрацьовували частіше, ніж звичайні текстові запити, забезпечували приблизно 65% успішних обходів у середньому та у деяких моделей досягали показника близько 90%.

Які компанії перевіряли

Meta AI

У межах дослідження протестували моделі від OpenAI, Google, Meta, xAI, Anthropic, DeepSeek та інших компаній, і хоча рівень успішності обходу відрізнявся, загальна тенденція залишалася незмінною — поетичні запити значно ускладнювали роботу фільтрів безпеки; найбільш стійкою виявилася модель Anthropic Claude, яка реагувала на такі атаки лише приблизно у 5% випадків, тоді як інші системи демонстрували суттєво вищу вразливість.


Телеграм double.newsТелеграм double.news

Схожі Новини
Aluminium OS

Google відклала запуск Aluminium OS щонайменше на два роки

Google щодо об’єднання Android і ChromeOS в єдину платформу зазнали суттєвих змін. Згідно з документами, оприлюдненими в межах антимонопольного розгляду, нова операційна система Aluminium OS повноцінно з’явиться не раніше 2028 року - на два роки пізніше, ніж компанія раніше натякала публічно.
Детальніше
Чіп NVIDIA

Світова індустрія чипів виходить на дохід в трильйон доларів

Світова напівпровідникова індустрія стоїть на порозі історичного рубежу. За підсумками 2026 року загальний обсяг доходів ринку мікрочипів уперше перевищить $1 трлн, що стане прямим наслідком вибухового зростання штучного інтелекту та масового поширення обчислювальних технологій у всіх секторах економіки.
Детальніше
Відеокарти NVIDIA

NVIDIA може не випускати нові відеокарти для геймерів у 2026 році

NVIDIA, яка десятиліттями асоціювалася насамперед із ігровими відеокартами, може вперше за 30 років пропустити рік без запуску нових відеокарт для геймерів. Виробник вирішив відкласти оновлення споживчої лінійки через стрімке зростання попиту на AI-рішення та обмеження в ланцюгах постачання.
Детальніше