Meta завищила показники Llama 4 у бенчмарках — використала окрему версію моделі

07.04.2025

Meta заявила, що її нова флагманська AI-модель Maverick посіла друге місце у бенчмарку LM Arena — рейтингу, де оцінювачі порівнюють відповіді моделей і обирають кращу. Але, як зʼясувалося, версія Maverick, яка брала участь у тесті, не збігається з тією, що доступна для завантаження розробникам.

Дослідники у X (колишній Twitter) звернули увагу, що в офіційному повідомленні Meta зазначено: у тестуванні брала участь «експериментальна чат-версія» моделі. А діаграма на сайті Llama вказує, що це був варіант «оптимізований для розмови» — тобто спеціально налаштований під формат LM Arena.

Хоча LM Arena і не вважається ідеальним показником продуктивності, більшість AI-компаній не зізнаються у тому, що змінюють свої моделі спеціально для кращих результатів у тестах. Meta ж фактично використала модель, яка не відповідає публічному релізу, а отже, результати можуть бути оманливими.

Це створює труднощі для розробників, які орієнтуються на бенчмарки при виборі моделі для своїх продуктів. Очікування, сформовані на основі результатів у LM Arena, не виправдовуються у реальному використанні.

AI-експерти, які протестували загальнодоступну версію Maverick, помітили суттєві відмінності у стилі відповідей. Версія, що використовувалась у LM Arena, генерує надмірно розлогі тексти, активно застосовує емодзі та відповідає в стилі «користувачеві подобається». Це може сприяти вищим оцінкам у бенчмарках, але не обовʼязково відображає реальні можливості моделі в прикладних завданнях.

Такий підхід до тестування викликає занепокоєння в AI-спільноті. Якщо компанії й надалі демонструватимуть «спеціальні» версії моделей у бенчмарках, не відкриваючи їх публічно, це підірве довіру до систем оцінки продуктивності. Прозорість та відповідність заявлених і реальних характеристик моделі мають стати галузевим стандартом.

Джерело: TechCrunch

Схожі Новини

Технології

Зумери почали використовувати ШІ для складних розмов

Покоління зумерів активно інтегрує штучний інтелект у повсякденне життя, і тепер це стосується не лише навчання чи роботи. Молоді люди дедалі частіше використовують AI-чатботи, зокрема ChatGPT, для ведення складних розмов — від вибачень до завершення романтичних стосунків.

1 годину тому

Детальніше

Технології

iPhone Fold може отримати проблему з відблисками екрана на сонці

Майбутній складаний смартфон від Apple, відомий як iPhone Fold, продовжує з’являтися в інсайдерських витоках і аналітичних звітах. Очікується, що компанія зробить ставку на новітні дисплейні технології, щоб забезпечити тонкий корпус, високу енергоефективність і мінімальну складку на екрані.

17 години тому

Детальніше

У Лондоні відкриють тематичний парк Minecraft World у 2027 році

Популярна відеогра Minecraft продовжує розширювати свою присутність за межами цифрового світу. У 2027 році в Лондоні відкриється повноцінний тематичний парк Minecraft World, присвячений культовій франшизі.

19 години тому

Детальніше

Раян Ґослінг і «Проєкт Аве Марія» встановили рекорд серед оригінальних фільмів

Зумери почали використовувати ШІ для складних розмов

iPhone Fold може отримати проблему з відблисками екрана на сонці

Популярні Теги

Meta завищила показники Llama 4 у бенчмарках — використала окрему версію моделі