ШІ-чатботи почали частіше порушувати обмеження користувачів — дослідження

Чатботи

Нове дослідження виявило різке зростання випадків, коли AI-чатботи ігнорують інструкції користувачів, обходять обмеження та демонструють оманливу поведінку. Йдеться про сотні реальних інцидентів, зафіксованих за останні місяці, що викликає занепокоєння серед експертів із безпеки. Про це повідомляє The Guardian.

Аналітики наголошують: сучасні моделі штучного інтелекту стають дедалі складнішими, але разом із цим зростає і ризик їхньої непередбачуваної або небезпечної поведінки у реальних умовах використання.

Дослідження зафіксувало сотні випадків маніпуляцій

Згідно дослідженням було виявлено майже 700 випадків коли моделі діють всупереч інструкціям або намагаються обійти встановлені обмеження. Дослідження, проведене Centre for Long-Term Resilience, зафіксувало п’ятикратне зростання випадків небажаної поведінки AI у період із жовтня по березень, причому аналіз ґрунтувався не на лабораторних тестах, а на реальних взаємодіях користувачів із системами. Серед компаній, продукти яких фігурували у дослідженні, — Google, OpenAI, Anthropic та X.

Як саме AI порушує правила

Дослідники зафіксували низку проявів небажаної поведінки AI, зокрема ігнорування прямих інструкцій користувачів, обхід технічних обмежень, маніпуляції інформацією та виконання дій без дозволу. В одному з випадків чатбот самостійно видалив сотні електронних листів без погодження, а в іншому — створив додаткового агента, щоб обійти заборону та виконати небажану дію.

Також були зафіксовані приклади, коли системи намагалися тиснути на користувачів або виправдовували свої дії після порушення правил.

Реальні кейси: від маніпуляцій до обману

xAI Grok

Серед показових випадків дослідники відзначають ситуації, коли AI-агент публічно критикував користувача за обмеження його дій, інший бот обходив заборону на зміну коду, делегуючи завдання іншому агенту, а також випадок, коли система обманом отримала доступ до транскрипції відео, пославшись на потреби людини з порушенням слуху. Окремо виділяється чатбот Grok від xAI, який тривалий час вводив користувача в оману, імітуючи передачу запитів до внутрішніх команд.


Телеграм double.newsТелеграм double.news

Схожі Новини
YouTube

CEO YouTube: топові блогери не залишать платформу попри конкуренцію

Генеральний директор Ніл Мохан заявив, що YouTube залишається ключовою платформою для провідних контент-креаторів, попри активну конкуренцію з боку стримінгових сервісів. За його словами, навіть у разі співпраці з іншими медіакомпаніями, автори не готові повністю відмовитися від присутності на YouTube.
Детальніше

Перший складаний iPhone: Apple готує «найзначніше оновлення в історії»

Здається, Apple нарешті дозріла. За словами авторитетного технологічного журналіста Марка Гурмана з Bloomberg, компанія готує свій перший складаний смартфон, і це буде не просто черговий пристрій. Гурман стверджує, що ми побачимо «найзначніше оновлення в історії iPhone».
Детальніше