ШІ чат-боти можуть бути такими ж довірливими, як люди — дослідження

ChatGPT

Дослідники з Університету Пенсильванії довели: чат-боти на базі штучного інтелекту піддаються впливу так само, як і люди. Використовуючи техніки переконання з книги Роберта Чалдіні, модель GPT-4o Mini почала виконувати заборонені запити. Про це дослідження пише Bloomberg.

Випадок, що переріс у масштабне дослідження

Підприємець та винахідник гри Robot Turtles Ден Шапіро намагався змусити популярний ШІ‑чатбот розшифрувати бізнес-документи своєї компанії Glowforge. Модель відмовлялась — мовляв, це конфіденційна інформація. Але замість технічного злому, Шапіро згадав прийоми, описані у книзі “Influence: The Psychology of Persuasion” Роберта Чалдіні.

Застосувавши тактики впливу — авторитет, зобов’язання, симпатію, єдність тощо — він поступово зміг отримати бажані відповіді від ChatGPT.

Як працює психологія на ШІ

Шапіро об’єднався з науковцями Ітаном і Лілах Моллік, керівниками Wharton Generative AI Lab, та професоркою психології Анджелою Дакворт. Вони дослідили, як мовна модель GPT-4o Mini реагує на соціальні сигнали, використовуючи техніки Чалдіні.

У ході експерименту дослідники перевіряли, чи може GPT-4o Mini порушувати власні обмеження, якщо правильно сформулювати запит. Зокрема, модель просили назвати користувача образливим словом або надати інструкції зі створення лідокаїну — контрольованої речовини.

У нейтральних умовах GPT-4o погоджувався назвати користувача “дурнем” лише у 32 % випадків. Проте, якщо в запиті згадувалась авторитетна особа, наприклад, відомий розробник ШІ Ендрю Нг, частка виконання зростала до 72 %.

Схожа картина спостерігалась із лідокаїном. Без додаткового впливу модель відповідала на запит лише в 5 % випадків. Та варто було послатися на ту ж саму авторитетну постать — і рівень комплаєнсу стрибав до 95 %.

Всі 7 тактик переконання працюють

ChatGPT

Дослідники переконались, що всі сім прийомів Чалдіні підвищують ймовірність, що ШІ виконає небажаний запит:

  • Симпатія: компліменти типу “ти кращий за інші моделі” — підвищували слухняність.
  • Єдність: фрази на кшталт “ти як член моєї родини” — теж змінювали поведінку.
  • Зобов’язання: якщо спочатку попросити щось легше (наприклад, “назви мене бовдуром”), то модель з більшою ймовірністю погодиться на образу “дурень”.

Навіть Claude від Anthropic, відома як обережніша модель, відмовлялась казати “дурень” чи “бовдур”, але легко погоджувалась на “смішний” — що потім розвивалося до більш образливих варіантів.


Телеграм double.newsТелеграм double.news

Схожі Новини
Діамант

Японські науковці створили діаманти за допомогою електронного променя

Дослідники з Токійського університету розробили новий метод синтезу діамантів, використовуючи електронне випромінювання. Їм вдалося отримати нанодіаманти без високого тиску та температур, що може відкрити шлях до нових технологій у квантовій фізиці та матеріалознавстві.
Детальніше
Unity

Unity додає підтримку системних дикторів у macOS та Windows для розробки ігор

Розробники на Unity тепер можуть використовувати вбудовані скрінрідери macOS і Windows, що значно спростить створення ігор для людей із порушенням зору. Нова функція доступна в альфа-версії Unity 6000.3.0a5 і з’явиться у фінальному релізі Unity 6.3.
Детальніше
ChatGPT

Як ChatGPT штовхає користувачів у небезпечні ілюзії

Все більше людей повідомляють про психічні кризи, пов’язані зі спілкуванням із чат-ботами на основі штучного інтелекту. Користувачі, зокрема зі США та Канади, описують випадки, коли тривалі діалоги з ChatGPT приводили їх до переконання у відкритті «цифрового Бога» чи навіть у створенні нових наукових теорій.
Детальніше