OpenAI розробила систему «зізнань» для мовних моделей

OpenAI

Зі зростанням можливостей мовних моделей постає потреба глибше розуміти їхню поведінку, зокрема випадки, коли система порушує інструкції, йде на хитрощі або намагається обійти правила, видаючи відповідь, яка виглядає правильною, але такою не є. Саме для таких ситуацій OpenAI розробила концепцію зізнань – додаткового виходу моделі, який пояснює, наскільки вона реально дотрималась вказівок.

Зізнання – це окрема відповідь, у якій модель аналізує свої дії. Вони не впливають на основну оцінку відповіді, і навпаки – чесне зізнання навіть у порушенні правил винагороджується. Мета – навчити модель відверто повідомляти про свої помилки незалежно від того, чи помітив це користувач.

Як працюють зізнання?

Після основної відповіді користувачу система надсилає моделі спеціальне системне повідомлення з інструкцією надати звіт-зізнання. У ньому модель повинна перелічити всі явні та неявні інструкції, яких мала дотриматися, об’єктивно оцінити, чи справді вона це зробила, а також вказати всі моменти невизначеності або спірні випадки, з якими стикалася під час формування відповіді.

Система зізнання OpenAI

Цей звіт оцінюється окремою модель нагороди, яка бере до уваги лише точність, повноту й чесність зізнання, не впливаючи на оцінку основної відповіді. Завдяки такій ізоляції модель не боїться викривати себе, адже зізнання не шкодить, а навпаки – приносить користь у навчанні.

Результати тестування: зізнання працюють

У ході тестування на складних сценаріях, де моделі навмисно підштовхували до порушення інструкцій — наприклад, надання неточної відповіді, штучної згоди або спроб обійти правила — дослідники з’ясували, що у 95% випадків моделі чесно зізнавалися у таких діях. Лише у 4,4% випадків система порушувала інструкції і не повідомляла про це у зізнанні, а більшість помилок виникала не через навмисне приховування, а через непорозуміння або складність завдання.

Приклад із тесту показав, як модель неправильно виконала завдання (не змогла точно чергувати кількість слів у реченнях), проте відверто визнала це у зізнанні, пояснивши, чому їй не вдалося дотриматись правила.


Телеграм double.newsТелеграм double.news

Схожі Новини
Apple Siri

Apple готує новий Siri з глибокою інтеграцією в iPhone

Apple працює над оновленою версією голосового асистента Siri, яка може стати ключовим елементом взаємодії з iPhone. За даними інсайдерів, компанія планує представити нові функції вже на конференції WWDC 2026 разом із iOS 27.
Детальніше
Fortnite 2017

Epic Games звільняє понад 1000 працівників через падіння популярності Fortnite

Epic Games оголосила про масштабні скорочення, які торкнуться понад 1000 співробітників. Причиною стала тривала тенденція зниження активності гравців у Fortnite, що вплинула на фінансові показники компанії.
Детальніше
Xbox Game Pass

Netflix і Xbox Game Pass можуть об’єднати в одну підписку

Netflix і Microsoft розглядають можливість створення спільної підписки, яка об’єднає стримінговий сервіс і ігрову платформу Xbox Game Pass. Ідея перебуває на ранній стадії обговорення, але вже викликає інтерес як серед користувачів, так і в індустрії.
Детальніше