AI-бенчмарки під вогнем: як ігри Pokémon викрили проблеми з порівнянням моделей

16.04.2025

ШІ-моделі порівнюють за результатами в Pokémon, але різні умови тестування ставлять під сумнів чесність таких бенчмарків.

Про це пише Tech Times.

Ігри Pokémon стали неочікуваним майданчиком для суперечок у світі штучного інтелекту. Все почалося з допису в X, де стверджувалося, що модель Gemini від Google перевершила Claude від Anthropic у проходженні класичних Pokémon-ігор. На стрімі Gemini дійшов до Лавандер-тауна, тоді як Claude все ще перебував у Гірі Місяця (Mount Moon).

Gemini is literally ahead of Claude atm in pokemon after reaching Lavender Town

119 live views only btw, incredibly underrated stream pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) April 10, 2025

Однак пізніше з’ясувалося, що в тестуванні Gemini використовувався спеціальний міні-карта — інструмент, який значно спрощував гру. Завдяки цьому AI міг розпізнавати ключові об’єкти, зокрема дерева, які можна зрізати, не покладаючись лише на аналіз скриншотів. Claude ж таких покращень не мав.

Ця ситуація викликала хвилю критики з боку спільноти розробників ШІ, адже вона показала, наскільки нестандартизованими можуть бути умови тестування. Це призводить до спотворення результатів та ускладнює об’єктивне порівняння між моделями.

Наприклад, модель Claude 3.7 Sonnet демонструє різні показники на відомому бенчмарку SWE-bench Verified, який оцінює здатність моделі до програмування. Без жодних додаткових покращень Claude набирає 62,3%, однак із власною “системою шаблонів” (scaffold system) від Anthropic результат підвищується до 70,3%.

Цей приклад, як і випадок із Pokémon, демонструє, наскільки результати залежать від зовнішніх факторів. Умовні «покращення» чи нестандартні інструменти можуть суттєво вплинути на продуктивність, створюючи ілюзію переваги тієї чи іншої моделі.

Фахівці закликають до створення єдиних стандартів у тестуванні ШІ-моделей, з відкритим кодом та однаковими умовами для всіх учасників. Це дозволить уникнути спотворених порівнянь і справді оцінити реальні можливості кожної моделі.

Скандал із Pokémon підкреслив, що веселі ігри можуть викрити серйозні проблеми у серйозній науці. І поки не буде стандартизованого підходу, будь-які порівняння моделей — лише гра з несправедливими правилами.

Схожі Новини

Ігри

Microsoft анонсувала Xbox Partner Preview: покажуть DLC для S.T.A.L.K.E.R. 2 та нові ігри

Microsoft анонсувала нову презентацію Xbox Partner Preview, яка відбудеться 26 березня 2026 року. Під час трансляції компанія покаже нові ігри від сторонніх студій, а також представить світові прем’єри та оновлення вже анонсованих проєктів.

4 години тому

Детальніше

Технології

Apple готує найбільше оновлення iPhone за всю історію

Apple працює над наймасштабнішим оновленням iPhone за всю історію продукту. Йдеться про запуск складаного смартфона та спеціальної моделі до 20-річчя iPhone з повністю безрамковим дисплеєм.

5 години тому

Детальніше

Ігри

Mojang анонсувала Minecraft Dungeons 2: що відомо про сиквел

Xbox Game Studios разом із Mojang Studios та Double Eleven офіційно анонсували Minecraft Dungeons 2 — продовження популярної ізометричної екшен-RPG у всесвіті Minecraft. Нова частина обіцяє розширений ігровий досвід, зберігаючи знайому стилістику та геймплей, що зробили оригінал успішним.

7 години тому

Детальніше

Microsoft анонсувала Xbox Partner Preview: покажуть DLC для S.T.A.L.K.E.R. 2 та нові ігри

Apple готує найбільше оновлення iPhone за всю історію

Galaxy Fold 8 отримає 45 Вт зарядку після років без змін

Популярні Теги

AI-бенчмарки під вогнем: як ігри Pokémon викрили проблеми з порівнянням моделей