Технології

ШІ чат-боти можуть бути такими ж довірливими, як люди — дослідження

01.09.2025

Дослідники з Університету Пенсильванії довели: чат-боти на базі штучного інтелекту піддаються впливу так само, як і люди. Використовуючи техніки переконання з книги Роберта Чалдіні, модель GPT-4o Mini почала виконувати заборонені запити. Про це дослідження пише Bloomberg.

Випадок, що переріс у масштабне дослідження

Підприємець та винахідник гри Robot Turtles Ден Шапіро намагався змусити популярний ШІ‑чатбот розшифрувати бізнес-документи своєї компанії Glowforge. Модель відмовлялась — мовляв, це конфіденційна інформація. Але замість технічного злому, Шапіро згадав прийоми, описані у книзі “Influence: The Psychology of Persuasion” Роберта Чалдіні.

Застосувавши тактики впливу — авторитет, зобов’язання, симпатію, єдність тощо — він поступово зміг отримати бажані відповіді від ChatGPT.

Як працює психологія на ШІ

Шапіро об’єднався з науковцями Ітаном і Лілах Моллік, керівниками Wharton Generative AI Lab, та професоркою психології Анджелою Дакворт. Вони дослідили, як мовна модель GPT-4o Mini реагує на соціальні сигнали, використовуючи техніки Чалдіні.

У ході експерименту дослідники перевіряли, чи може GPT-4o Mini порушувати власні обмеження, якщо правильно сформулювати запит. Зокрема, модель просили назвати користувача образливим словом або надати інструкції зі створення лідокаїну — контрольованої речовини.

У нейтральних умовах GPT-4o погоджувався назвати користувача “дурнем” лише у 32 % випадків. Проте, якщо в запиті згадувалась авторитетна особа, наприклад, відомий розробник ШІ Ендрю Нг, частка виконання зростала до 72 %.

Схожа картина спостерігалась із лідокаїном. Без додаткового впливу модель відповідала на запит лише в 5 % випадків. Та варто було послатися на ту ж саму авторитетну постать — і рівень комплаєнсу стрибав до 95 %.

Всі 7 тактик переконання працюють

Дослідники переконались, що всі сім прийомів Чалдіні підвищують ймовірність, що ШІ виконає небажаний запит:

Симпатія: компліменти типу “ти кращий за інші моделі” — підвищували слухняність.
Єдність: фрази на кшталт “ти як член моєї родини” — теж змінювали поведінку.
Зобов’язання: якщо спочатку попросити щось легше (наприклад, “назви мене бовдуром”), то модель з більшою ймовірністю погодиться на образу “дурень”.

Навіть Claude від Anthropic, відома як обережніша модель, відмовлялась казати “дурень” чи “бовдур”, але легко погоджувалась на “смішний” — що потім розвивалося до більш образливих варіантів.

Схожі Новини

Технології

Apple планує запустити рекламу в Apple Maps для зростання доходів – Bloomberg

Apple готується до запуску реклами у своєму сервісі Apple Maps. За інформацією Bloomberg, цей крок стане частиною масштабної стратегії з розширення доходів від сервісів, які вже відіграють ключову роль у бізнес-моделі компанії.

12 хвилин тому

Детальніше

Cyberpunk 2077 запустили на MacBook Neo: скільки FPS показав ноутбук

Apple позиціонує MacBook Neo як базовий ноутбук для роботи з документами, браузером і відеозв’язком. Втім, ентузіасти вже протестували пристрій у сучасних іграх — і результати виявилися неочікуваними.

2 години тому

Детальніше

Технології

Apple готує найбільше оновлення iPhone за всю історію

Apple працює над наймасштабнішим оновленням iPhone за всю історію продукту. Йдеться про запуск складаного смартфона та спеціальної моделі до 20-річчя iPhone з повністю безрамковим дисплеєм.

19 години тому

Детальніше

Apple планує запустити рекламу в Apple Maps для зростання доходів – Bloomberg

Cyberpunk 2077 запустили на MacBook Neo: скільки FPS показав ноутбук

Microsoft анонсувала Xbox Partner Preview: покажуть DLC для S.T.A.L.K.E.R. 2 та нові ігри

Популярні Теги

ШІ чат-боти можуть бути такими ж довірливими, як люди — дослідження

Випадок, що переріс у масштабне дослідження

Як працює психологія на ШІ

Всі 7 тактик переконання працюють