
Чатбот Grok від компанії xAI продемонстрував найгірші результати серед популярних моделей штучного інтелекту у симуляції ставок на спорт. Відповідне дослідження підкреслює обмеження сучасних AI-систем у складних і динамічних сценаріях. Про це пише PCMag.
Попри активний розвиток технологій, результати тестування свідчать, що навіть передові мовні моделі поки не можуть ефективно конкурувати з людьми у довгострокових прогнозах.
Умови дослідження
Експеримент провела компанія General Reasoning, використовуючи дані сезону English Premier League 2023–24. Вісім популярних моделей штучного інтелекту отримали історичну статистику команд і повинні були створити стратегію ставок із максимізацією прибутку.
Кожній моделі виділили умовний бюджет у £100 000 і надали три спроби для симуляції повного сезону. Завдання включало не лише прогнозування результатів матчів, а й управління ризиками.
Результати Grok
Grok показав найгірший результат серед усіх учасників. В одній із симуляцій модель повністю втратила весь бюджет, а в інших двох навіть не змогла завершити виконання завдання.
У підсумку середній результат Grok дорівнював нулю, що суттєво відрізняється від показників інших моделей.
Порівняння з конкурентами

Найкращий результат продемонструвала модель Claude Opus 4.6 від Anthropic. Вона втратила лише близько 11% від початкового бюджету, зберігши більшу частину коштів.
Модель GPT-5.4 від OpenAI також показала відносно стабільний результат, хоча й залишилася у мінусі. Водночас Gemini 3.1 Pro від Google продемонструвала нестабільність — значні втрати чергувалися з окремими прибутковими спробами.

