OpenAI розробила систему «зізнань» для мовних моделей

OpenAI

Зі зростанням можливостей мовних моделей постає потреба глибше розуміти їхню поведінку, зокрема випадки, коли система порушує інструкції, йде на хитрощі або намагається обійти правила, видаючи відповідь, яка виглядає правильною, але такою не є. Саме для таких ситуацій OpenAI розробила концепцію зізнань – додаткового виходу моделі, який пояснює, наскільки вона реально дотрималась вказівок.

Зізнання – це окрема відповідь, у якій модель аналізує свої дії. Вони не впливають на основну оцінку відповіді, і навпаки – чесне зізнання навіть у порушенні правил винагороджується. Мета – навчити модель відверто повідомляти про свої помилки незалежно від того, чи помітив це користувач.

Як працюють зізнання?

Після основної відповіді користувачу система надсилає моделі спеціальне системне повідомлення з інструкцією надати звіт-зізнання. У ньому модель повинна перелічити всі явні та неявні інструкції, яких мала дотриматися, об’єктивно оцінити, чи справді вона це зробила, а також вказати всі моменти невизначеності або спірні випадки, з якими стикалася під час формування відповіді.

Система зізнання OpenAI

Цей звіт оцінюється окремою модель нагороди, яка бере до уваги лише точність, повноту й чесність зізнання, не впливаючи на оцінку основної відповіді. Завдяки такій ізоляції модель не боїться викривати себе, адже зізнання не шкодить, а навпаки – приносить користь у навчанні.

Результати тестування: зізнання працюють

У ході тестування на складних сценаріях, де моделі навмисно підштовхували до порушення інструкцій — наприклад, надання неточної відповіді, штучної згоди або спроб обійти правила — дослідники з’ясували, що у 95% випадків моделі чесно зізнавалися у таких діях. Лише у 4,4% випадків система порушувала інструкції і не повідомляла про це у зізнанні, а більшість помилок виникала не через навмисне приховування, а через непорозуміння або складність завдання.

Приклад із тесту показав, як модель неправильно виконала завдання (не змогла точно чергувати кількість слів у реченнях), проте відверто визнала це у зізнанні, пояснивши, чому їй не вдалося дотриматись правила.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше
QR код

Як сканувати QR-код за допомогою смартфона: швидка інструкція

QR-коди давно стали частиною повсякденного життя — від меню в кафе до швидкої авторизації в застосунках. Але не всі знають, як правильно їх сканувати зі свого смартфона. У цій статті пояснюємо, як це зробити на iPhone та Android, без додаткових програм.
Детальніше