Meta завищила показники Llama 4 у бенчмарках — використала окрему версію моделі

Офіс Meta

Meta заявила, що її нова флагманська AI-модель Maverick посіла друге місце у бенчмарку LM Arena — рейтингу, де оцінювачі порівнюють відповіді моделей і обирають кращу. Але, як зʼясувалося, версія Maverick, яка брала участь у тесті, не збігається з тією, що доступна для завантаження розробникам.

Дослідники у X (колишній Twitter) звернули увагу, що в офіційному повідомленні Meta зазначено: у тестуванні брала участь «експериментальна чат-версія» моделі. А діаграма на сайті Llama вказує, що це був варіант «оптимізований для розмови» — тобто спеціально налаштований під формат LM Arena.

Хоча LM Arena і не вважається ідеальним показником продуктивності, більшість AI-компаній не зізнаються у тому, що змінюють свої моделі спеціально для кращих результатів у тестах. Meta ж фактично використала модель, яка не відповідає публічному релізу, а отже, результати можуть бути оманливими.

Це створює труднощі для розробників, які орієнтуються на бенчмарки при виборі моделі для своїх продуктів. Очікування, сформовані на основі результатів у LM Arena, не виправдовуються у реальному використанні.

AI-експерти, які протестували загальнодоступну версію Maverick, помітили суттєві відмінності у стилі відповідей. Версія, що використовувалась у LM Arena, генерує надмірно розлогі тексти, активно застосовує емодзі та відповідає в стилі «користувачеві подобається». Це може сприяти вищим оцінкам у бенчмарках, але не обовʼязково відображає реальні можливості моделі в прикладних завданнях.

Такий підхід до тестування викликає занепокоєння в AI-спільноті. Якщо компанії й надалі демонструватимуть «спеціальні» версії моделей у бенчмарках, не відкриваючи їх публічно, це підірве довіру до систем оцінки продуктивності. Прозорість та відповідність заявлених і реальних характеристик моделі мають стати галузевим стандартом.

Джерело: TechCrunch


Телеграм double.newsТелеграм double.news

Схожі Новини
iPhone 17

Нова функція безпеки iPhone 17 ускладнить життя розробникам шпигунського ПЗ

Apple представила технологію Memory Integrity Enforcement у своїх нових iPhone 17 та iPhone Air. Вона покликана захистити пристрої від однієї з найпоширеніших вразливостей — помилок у роботі з пам’яттю, які активно використовують шпигунські програми та зловмисники.
Детальніше
Microsoft Teams

Microsoft Teams буде попереджати про шкідливі посилання та файли

Microsoft оновлює способи безпеки від шкідливих файлів для Teams: користувачів попереджатимуть про небезпечні посилання та файли у чатах і каналах. Крім того, EXE-файли тепер будуть блокуватися автоматично.
Детальніше
Android вірус

Новий вірус на Android викрадає гроші та встановлює шкідливий застосунок

Експерти з кібербезпеки виявили новий різновид шкідливого ПЗ для Android під назвою RatOn. Він здатний одночасно викрадати кошти з банківських рахунків і встановлювати програму-вимагач, блокуючи пристрій.
Детальніше