OpenAI пояснила, чому мовні моделі «галюцинують» і як це виправити

OpenAI

Попри значний прогрес у розвитку штучного інтелекту, навіть найсучасніші мовні моделі залишаються схильними до так званих галюцинацій — випадків, коли система впевнено видає неправдиву інформацію. У свої публікації OpenAI пояснює, чому виникає ця проблема, і чому традиційні методи тренування та оцінки моделей фактично заохочують «вгадування», а не чесне визнання невпевненості.

Що таке галюцинації у мовних моделях

Галюцинаціями називають правдоподібні, але хибні твердження, які моделі можуть видавати навіть у відповідь на прості запитання. Як приклад, автори наводять випадки, коли популярний чат-бот кілька разів вигадував назви дисертації та дати народження одного з науковців, що брали участь у дослідженні.

Чому вони виникають

ChatGPT

За словами дослідників, головна причина криється в методах оцінки. Якщо модель отримує «бали» лише за точні відповіді, то вона вчиться ризикувати та вгадувати, адже це іноді приносить результат. Натомість чесна відповідь «я не знаю» гарантує нуль балів, і тому в загальному рейтингу виглядає гірше.

Ця ситуація нагадує тест із множинним вибором: здогад може випадково бути правильним, тоді як відмова від відповіді завжди означає програш. Саме тому моделі навчаються давати впевнені, але часто хибні твердження.

OpenAI пропонує оновити систему оцінювання:

  • штрафувати за впевнені помилки більше, ніж за відмову від відповіді;
  • давати частковий залік за вираження невпевненості;
  • змінити головні метрики так, щоб вони заохочували чітке визнання меж знань.

На думку дослідників, саме це допоможе зменшити кількість галюцинацій і стимулювати створення моделей, які відповідальніше підходять до генерації фактів.

Як це пов’язано з процесом навчання моделей

ChatGPT

Галюцинації також виникають через особливості попереднього навчання, коли моделі вчаться передбачати наступне слово у тексті. Вони добре запам’ятовують закономірності (правопис, синтаксис), але не здатні надійно виводити випадкові чи рідкісні факти, наприклад, дату народження конкретної людини. Це призводить до того, що ШІ іноді вигадує «логічно ймовірні», але некоректні відповіді.


Телеграм double.newsТелеграм double.news

Схожі Новини
Samsung

Samsung може отримати замовлення на перший AI-чип від компанії Ілона Маска xAI

Samsung Electronics може стати основним виробничим партнером для першого ASIC-чипа штучного інтелекту, який розробляє компанія xAI Ілона Маска. Це стало можливим завдяки успіху Samsung у здобутті замовлень від Tesla та Apple, що посилило позиції південнокорейського гіганта на світовому ринку напівпровідників.
Детальніше
Microsoft

Microsoft відновила роботу Azure після пошкодження підводних кабелів у Червоному морі

Microsoft підтвердила відновлення роботи свого хмарного сервісу Azure після інциденту з пошкодженням підводних оптоволоконних кабелів у Червоному морі. Аварія сталася вранці 6 вересня та призвела до перебоїв у роботі сервісів у країнах Близького Сходу, а також до зростання затримок для користувачів у Південній Азії та країнах Перської затоки.
Детальніше
Uber

Uber запустять тестування роботаксі в Європі з 2026 року

Компанія Uber разом із китайським партнером Momenta у 2026 році розпочне тестування роботаксі-сервісу в Європі. Першим містом стане Мюнхен, де для перевезень використовуватимуться автомобілі з автономною системою керування Momenta, інтегрованою у платформу Uber. Надалі планується розширення сервісу на інші європейські країни.
Детальніше