Штучний інтелект від OpenAI зрівнявся з експертами в реальних професіях

AI

OpenAI представила власний тест GDPval, який вимірює, наскільки ефективно AI-моделі можуть виконувати роботу в економічно важливих сферах. Перша версія тесту — GDPval-v0 — охоплює 9 галузей, що формують основу ВВП США, включно з охороною здоров’я, фінансами, виробництвом і державним сектором.

Загалом перевірялися 44 професії, серед яких журналісти, медсестри та інженери-програмісти.

Результати GPT-5 та конкурентів

У тестуванні брали участь професіонали, які порівнювали звіти, підготовлені людьми, із тими, що створили AI-моделі.

  • GPT-5-high (посилена версія моделі з більшими обчислювальними ресурсами) показала результат: 40,6% випадків відповідей визнані кращими або на рівні експертів.
  • Claude Opus 4.1 від Anthropic продемонстрував навіть вищий показник — 49%. OpenAI пояснює цей результат схильністю Claude створювати приємні для ока візуальні матеріали.

Для порівняння, GPT-4o, випущений 15 місяців тому, отримав лише 13,7% у подібному тесті.

Попри прогрес, OpenAI визнає: поточний GDPval перевіряє лише вузьке коло завдань, зокрема створення дослідницьких звітів, тоді як реальна робота професіоналів значно ширша. У майбутньому компанія планує розробити більш масштабні тести, які охоплюватимуть інтерактивніші та різноманітніші сценарії.


Телеграм double.newsТелеграм double.news

Схожі Новини
One Plus

OnePlus може скоротити присутність на глобальних ринках

Навколо OnePlus знову з’явилися чутки про можливе скорочення діяльності на ключових міжнародних ринках. За інформацією інсайдерів, компанія може переглянути свою глобальну стратегію, що потенційно вплине на присутність бренду в США, Європі та Індії.
Детальніше
Grammarly

Grammarly використовує імена журналістів у AI без згоди

Сервіс перевірки текстів Grammarly опинився в центрі критики через нову функцію «Expert Review», яка використовує імена відомих журналістів, науковців і письменників без їхнього дозволу. Про проблему повідомили The Verge, виявивши, що AI генерує поради, нібито натхненні реальними людьми.
Детальніше
ChatGPT

OpenAI запустила бібліотеку у ChatGPT для зручного зберігання файлів

OpenAI представила нову функцію бібліотеки у ChatGPT, яка дозволяє користувачам зберігати завантажені файли та повторно використовувати їх у різних чатах. Інструмент спрямований на спрощення роботи з документами та підвищення продуктивності користувачів.
Детальніше