ШІ чат-боти можуть бути такими ж довірливими, як люди — дослідження

ChatGPT

Дослідники з Університету Пенсильванії довели: чат-боти на базі штучного інтелекту піддаються впливу так само, як і люди. Використовуючи техніки переконання з книги Роберта Чалдіні, модель GPT-4o Mini почала виконувати заборонені запити. Про це дослідження пише Bloomberg.

Випадок, що переріс у масштабне дослідження

Підприємець та винахідник гри Robot Turtles Ден Шапіро намагався змусити популярний ШІ‑чатбот розшифрувати бізнес-документи своєї компанії Glowforge. Модель відмовлялась — мовляв, це конфіденційна інформація. Але замість технічного злому, Шапіро згадав прийоми, описані у книзі “Influence: The Psychology of Persuasion” Роберта Чалдіні.

Застосувавши тактики впливу — авторитет, зобов’язання, симпатію, єдність тощо — він поступово зміг отримати бажані відповіді від ChatGPT.

Як працює психологія на ШІ

Шапіро об’єднався з науковцями Ітаном і Лілах Моллік, керівниками Wharton Generative AI Lab, та професоркою психології Анджелою Дакворт. Вони дослідили, як мовна модель GPT-4o Mini реагує на соціальні сигнали, використовуючи техніки Чалдіні.

У ході експерименту дослідники перевіряли, чи може GPT-4o Mini порушувати власні обмеження, якщо правильно сформулювати запит. Зокрема, модель просили назвати користувача образливим словом або надати інструкції зі створення лідокаїну — контрольованої речовини.

У нейтральних умовах GPT-4o погоджувався назвати користувача “дурнем” лише у 32 % випадків. Проте, якщо в запиті згадувалась авторитетна особа, наприклад, відомий розробник ШІ Ендрю Нг, частка виконання зростала до 72 %.

Схожа картина спостерігалась із лідокаїном. Без додаткового впливу модель відповідала на запит лише в 5 % випадків. Та варто було послатися на ту ж саму авторитетну постать — і рівень комплаєнсу стрибав до 95 %.

Всі 7 тактик переконання працюють

ChatGPT

Дослідники переконались, що всі сім прийомів Чалдіні підвищують ймовірність, що ШІ виконає небажаний запит:

  • Симпатія: компліменти типу “ти кращий за інші моделі” — підвищували слухняність.
  • Єдність: фрази на кшталт “ти як член моєї родини” — теж змінювали поведінку.
  • Зобов’язання: якщо спочатку попросити щось легше (наприклад, “назви мене бовдуром”), то модель з більшою ймовірністю погодиться на образу “дурень”.

Навіть Claude від Anthropic, відома як обережніша модель, відмовлялась казати “дурень” чи “бовдур”, але легко погоджувалась на “смішний” — що потім розвивалося до більш образливих варіантів.


Телеграм double.newsТелеграм double.news

Схожі Новини
Apple Maps

Apple планує запустити рекламу в Apple Maps для зростання доходів – Bloomberg

Apple готується до запуску реклами у своєму сервісі Apple Maps. За інформацією Bloomberg, цей крок стане частиною масштабної стратегії з розширення доходів від сервісів, які вже відіграють ключову роль у бізнес-моделі компанії.
Детальніше
MacBook Neo

Cyberpunk 2077 запустили на MacBook Neo: скільки FPS показав ноутбук

Apple позиціонує MacBook Neo як базовий ноутбук для роботи з документами, браузером і відеозв’язком. Втім, ентузіасти вже протестували пристрій у сучасних іграх — і результати виявилися неочікуваними.
Детальніше