Штучний інтелект все ще погано справляється з пошуком багів — дослідження Microsoft

13.04.2025

Попри стрімкий розвиток ШІ, нове дослідження Microsoft показало — штучний інтелект все ще слабо справляється з реальними задачами зневадження коду.

Про це пише ArsTechnica.

Штучний інтелект активно використовується в автоматизації написання коду, однак з відлагодженням (debugging) у нього великі проблеми. Про це свідчить нове дослідження Microsoft Research, в якому протестували дев’ять провідних мовних моделей.

Для перевірки використовували SWE-bench Lite — бенчмарк із 300 реальних задач на зневадження. Найкращий результат показала модель Claude 3.7 Sonnet від Anthropic, яка змогла розв’язати лише 48,4% задач. Для порівняння: GPT-4 від OpenAI (у версії o1) справилась з 30,2%, а o3-mini — з 22,1%.

У Microsoft виділили дві основні причини, чому моделі ШІ дають слабкий результат:

1. Не вміють користуватись інструментами. Багато моделей не можуть ефективно застосовувати інструменти для дебагу, зокрема Python-налагоджувачі, або не знають, коли їх слід використовувати.

2. Нестача даних про реальні сценарії дебагу. Моделі не мають доступу до логів або сесій реальних розробників, де видно послідовність дій при пошуку та виправленні помилок.

Дослідники вважають, що ситуацію можна покращити, якщо навчати моделі на спеціалізованих логах, які фіксують роботу програміста з дебагером у режимі реального часу. Це допоможе ШІ моделювати покроковий процес пошуку помилок.

Попри всі труднощі, ШІ вже сьогодні корисний при виявленні простих багів. Але для складних випадків, де потрібне розуміння контексту й креативність, участь людини залишається критичною.

Точну ціну впровадження моделей типу Claude чи GPT в робочий процес залежить від провайдера, але базова інтеграція API може коштувати від 50 до 200 доларів на місяць залежно від обсягів запитів. В корпоративних рішеннях — ще дорожче.

Схожі Новини

Технології

Apple готує найбільше оновлення iPhone за всю історію

Apple працює над наймасштабнішим оновленням iPhone за всю історію продукту. Йдеться про запуск складаного смартфона та спеціальної моделі до 20-річчя iPhone з повністю безрамковим дисплеєм.

15 години тому

Детальніше

Технології

Apple готує новий iPad з чипом A18: запуск очікується до літа 2026

Apple продовжує оновлювати свою лінійку пристроїв, і наступним на черзі стане базовий iPad. Компанія планує представити нову модель з чипом A18 уже в першій половині 2026 року.

18 години тому

Детальніше

Технології

Reddit може запровадити Face ID для боротьби з ботами

Reddit розглядає можливість використання біометричної ідентифікації, зокрема Face ID та Touch ID, щоб підтвердити, що користувачі є реальними людьми. Ініціатива пов’язана зі стрімким зростанням кількості ботів і контенту, створеного штучним інтелектом.

19 години тому

Детальніше

Microsoft анонсувала Xbox Partner Preview: покажуть DLC для S.T.A.L.K.E.R. 2 та нові ігри

Apple готує найбільше оновлення iPhone за всю історію

Galaxy Fold 8 отримає 45 Вт зарядку після років без змін

Популярні Теги

Штучний інтелект все ще погано справляється з пошуком багів — дослідження Microsoft