Штучний інтелект не вміє визначати час за аналоговим годинником: нове дослідження виявило слабкість нейромереж

Годинника

Попри стрімкий розвиток штучного інтелекту, виявлено сферу, з якою нейромережі досі не справляються — це зчитування часу зі звичайних стрілочних годинників. У тесті ClockBench сучасні мовні моделі продемонстрували вкрай низьку точність, показавши результати, які суттєво відстають від людських можливостей.

ClockBench: тест на «аналогову грамотність» для ШІ

ClockBench — спеціалізований бенчмарк, створений для оцінки здатності моделей штучного інтелекту розпізнавати час за аналоговими циферблатами. Тест охоплює різні типи годинників, кути нахилу, варіанти оформлення та навіть частково закриті елементи циферблата.

Результати: розрив між людьми та ШІ

У дослідженні взяли участь кілька провідних мовних моделей:

  • Gemini 2.5 Pro (від Google): лише 13,3% правильних відповідей;
  • Моделі OpenAI (GPT-4, GPT-3.5): не перевищили 8,4% точності;
  • Середній результат людини: 89%.
ClockBench

Різниця в точності становить майже 10-кратне відставання ШІ від людських користувачів. Це свідчить про те, що сучасні мовні моделі мають суттєві труднощі з базовими візуальними завданнями, які не викликають проблем у людей.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше
QR код

Як сканувати QR-код за допомогою смартфона: швидка інструкція

QR-коди давно стали частиною повсякденного життя — від меню в кафе до швидкої авторизації в застосунках. Але не всі знають, як правильно їх сканувати зі свого смартфона. У цій статті пояснюємо, як це зробити на iPhone та Android, без додаткових програм.
Детальніше