Microsoft перевірила, як ШІ працює без людини

Microsoft AI

Microsoft провела масштабний експеримент, створивши штучне онлайн-середовище “Magentic Marketplace”, щоб дослідити, як ШІ-агенти діють без участі людини. Модель імітувала реальний інтернет-магазин, у якому агенти-покупці взаємодіяли з агентами-продавцями, виконуючи завдання торгівлі, переговорів і вибору товарів.

Як з’ясувалося, результати експерименту виявилися далекими від ідеалу — автономні моделі показали слабку здатність до ухвалення рішень, координації та самостійної роботи. Про це пише TechRadar.

Як працював експеримент “Magentic Marketplace”

За словами дослідників Microsoft, у тестовому середовищі діяли 100 покупців-агентів і 300 бізнес-агентів, які використовували передові моделі ШІ — GPT-4o, GPT-5 і Gemini-2.5-Flash.

Метою було перевірити, наскільки ефективно ШІ зможе діяти у складній ринковій екосистемі без втручання людини. Усі взаємодії відбувалися в симульованих умовах, а вихідний код платформи компанія опублікувала у відкритому доступі, щоб інші дослідники могли повторити експеримент або розширити його.

Що виявив експеримент Microsoft

Результати експерименту виявили низку суттєвих обмежень сучасних ШІ-моделей: покупці-агенти легко піддавалися впливу продавців, що свідчить про їхню вразливість до маніпуляцій. Коли кількість варіантів збільшувалася, ефективність рішень різко знижувалася, а під час колективних завдань системи не могли розподілити ролі між агентами, що призводило до хаотичної роботи. Ефективність моделей покращувалася лише за умови чітких покрокових інструкцій від людини.

“Без нагляду ШІ не впорається” — висновок Microsoft

Директорка Microsoft Research’s AI Frontiers Lab зазначила:

“Ми можемо давати моделям покрокові інструкції, але якщо ми тестуємо їхню здатність до співпраці, ці навички повинні бути в них спочатку”.

Вона підкреслила, що результати експерименту демонструють: нинішнім ШІ-агентам необхідна суттєва людська підтримка та контроль, особливо у багатокористувацьких або конкурентних середовищах.


Телеграм double.newsТелеграм double.news

Схожі Новини
Apple Maps

Apple планує запустити рекламу в Apple Maps для зростання доходів – Bloomberg

Apple готується до запуску реклами у своєму сервісі Apple Maps. За інформацією Bloomberg, цей крок стане частиною масштабної стратегії з розширення доходів від сервісів, які вже відіграють ключову роль у бізнес-моделі компанії.
Детальніше
MacBook Neo

Cyberpunk 2077 запустили на MacBook Neo: скільки FPS показав ноутбук

Apple позиціонує MacBook Neo як базовий ноутбук для роботи з документами, браузером і відеозв’язком. Втім, ентузіасти вже протестували пристрій у сучасних іграх — і результати виявилися неочікуваними.
Детальніше