Штучний інтелект від OpenAI зрівнявся з експертами в реальних професіях

AI

OpenAI представила власний тест GDPval, який вимірює, наскільки ефективно AI-моделі можуть виконувати роботу в економічно важливих сферах. Перша версія тесту — GDPval-v0 — охоплює 9 галузей, що формують основу ВВП США, включно з охороною здоров’я, фінансами, виробництвом і державним сектором.

Загалом перевірялися 44 професії, серед яких журналісти, медсестри та інженери-програмісти.

Результати GPT-5 та конкурентів

У тестуванні брали участь професіонали, які порівнювали звіти, підготовлені людьми, із тими, що створили AI-моделі.

  • GPT-5-high (посилена версія моделі з більшими обчислювальними ресурсами) показала результат: 40,6% випадків відповідей визнані кращими або на рівні експертів.
  • Claude Opus 4.1 від Anthropic продемонстрував навіть вищий показник — 49%. OpenAI пояснює цей результат схильністю Claude створювати приємні для ока візуальні матеріали.

Для порівняння, GPT-4o, випущений 15 місяців тому, отримав лише 13,7% у подібному тесті.

Попри прогрес, OpenAI визнає: поточний GDPval перевіряє лише вузьке коло завдань, зокрема створення дослідницьких звітів, тоді як реальна робота професіоналів значно ширша. У майбутньому компанія планує розробити більш масштабні тести, які охоплюватимуть інтерактивніші та різноманітніші сценарії.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше
QR код

Як сканувати QR-код за допомогою смартфона: швидка інструкція

QR-коди давно стали частиною повсякденного життя — від меню в кафе до швидкої авторизації в застосунках. Але не всі знають, як правильно їх сканувати зі свого смартфона. У цій статті пояснюємо, як це зробити на iPhone та Android, без додаткових програм.
Детальніше