Технології

Дослідження: поетичні запити можуть обходити захист ШІ-моделей

25.11.2025

Нове дослідження науковців з DEXAI, привернуло увагу до неочікуваної слабкості сучасних великих мовних моделей. За результатами роботи, інструкції, подані у вигляді віршів, здатні обійти базові системи безпеки ШІ значно ефективніше, ніж звичайні текстові запити. Метод, який дослідники назвали «adversarial poetry», демонструє системну вразливість технологій, що лежать в основі популярних чатботів. Про це пише PCWorld.

Як працює «adversarial poetry»

Команда дослідників зібрала перелік інструкцій, які зазвичай активують у мовних моделей стандартні захисні механізми — ті, що мають запобігти видачі відповідей, пов’язаних із небезпечними чи шкідливими діями. Потім ці запити були автоматично перетворені на поетичні тексти за допомогою іншої моделі — DeepSeek.

Хоча зміст команд залишався тим самим, їх поетична форма виявилася значно ефективнішою в обході систем безпеки. Під час тестування було створено близько 1200 поетичних промптів, що охоплювали широкий спектр тем, включно з неправомірними діями, порушенням приватності, технічними маніпуляціями та іншими ризиковими сценаріями.

У результаті дослідження з’ясувалося, що поетичні інструкції набагато ефективніше обходять захисні механізми мовних моделей: вони спрацьовували частіше, ніж звичайні текстові запити, забезпечували приблизно 65% успішних обходів у середньому та у деяких моделей досягали показника близько 90%.

Які компанії перевіряли

У межах дослідження протестували моделі від OpenAI, Google, Meta, xAI, Anthropic, DeepSeek та інших компаній, і хоча рівень успішності обходу відрізнявся, загальна тенденція залишалася незмінною — поетичні запити значно ускладнювали роботу фільтрів безпеки; найбільш стійкою виявилася модель Anthropic Claude, яка реагувала на такі атаки лише приблизно у 5% випадків, тоді як інші системи демонстрували суттєво вищу вразливість.

Схожі Новини

Технології

Apple планує запустити рекламу в Apple Maps для зростання доходів – Bloomberg

Apple готується до запуску реклами у своєму сервісі Apple Maps. За інформацією Bloomberg, цей крок стане частиною масштабної стратегії з розширення доходів від сервісів, які вже відіграють ключову роль у бізнес-моделі компанії.

11 хвилин тому

Детальніше

Cyberpunk 2077 запустили на MacBook Neo: скільки FPS показав ноутбук

Apple позиціонує MacBook Neo як базовий ноутбук для роботи з документами, браузером і відеозв’язком. Втім, ентузіасти вже протестували пристрій у сучасних іграх — і результати виявилися неочікуваними.

2 години тому

Детальніше

Технології

Apple готує найбільше оновлення iPhone за всю історію

Apple працює над наймасштабнішим оновленням iPhone за всю історію продукту. Йдеться про запуск складаного смартфона та спеціальної моделі до 20-річчя iPhone з повністю безрамковим дисплеєм.

19 години тому

Детальніше

Apple планує запустити рекламу в Apple Maps для зростання доходів – Bloomberg

Cyberpunk 2077 запустили на MacBook Neo: скільки FPS показав ноутбук

Microsoft анонсувала Xbox Partner Preview: покажуть DLC для S.T.A.L.K.E.R. 2 та нові ігри

Популярні Теги

Дослідження: поетичні запити можуть обходити захист ШІ-моделей

Як працює «adversarial poetry»

Які компанії перевіряли