Нова модель Gemini користується браузером як звичайна людина

Google Gemini 2.5

Google презентувала нову версію своєї AI-системи — Gemini 2.5 Computer Use, здатну самостійно працювати у браузері, як це робить людина. Модель може відкривати сайти, прокручувати сторінки, вводити текст, заповнювати форми й навіть перетягувати елементи на сторінці. Це дозволяє штучному інтелекту виконувати завдання там, де немає API чи прямого доступу до даних.

Як працює нова модель

Gemini 2.5 Computer Use — це спеціалізована версія моделі Gemini 2.5 Pro, побудована на основі візуального аналізу та логічного міркування. Вона отримує скріншот сторінки та інструкцію користувача, після чого обирає потрібну дію: натиснути кнопку, ввести текст або перейти за посиланням.

Процес побудований у циклі: після кожного кроку модель отримує нове зображення сторінки, аналізує зміни та продовжує виконувати завдання, доки воно не буде завершене. Такий підхід дозволяє Gemini взаємодіяти з будь-яким інтерфейсом, створеним для людей, а не лише з тими, що мають спеціальний технічний доступ.


Телеграм double.newsТелеграм double.news

Схожі Новини
One Plus

OnePlus може скоротити присутність на глобальних ринках

Навколо OnePlus знову з’явилися чутки про можливе скорочення діяльності на ключових міжнародних ринках. За інформацією інсайдерів, компанія може переглянути свою глобальну стратегію, що потенційно вплине на присутність бренду в США, Європі та Індії.
Детальніше
Grammarly

Grammarly використовує імена журналістів у AI без згоди

Сервіс перевірки текстів Grammarly опинився в центрі критики через нову функцію «Expert Review», яка використовує імена відомих журналістів, науковців і письменників без їхнього дозволу. Про проблему повідомили The Verge, виявивши, що AI генерує поради, нібито натхненні реальними людьми.
Детальніше
ChatGPT

OpenAI запустила бібліотеку у ChatGPT для зручного зберігання файлів

OpenAI представила нову функцію бібліотеки у ChatGPT, яка дозволяє користувачам зберігати завантажені файли та повторно використовувати їх у різних чатах. Інструмент спрямований на спрощення роботи з документами та підвищення продуктивності користувачів.
Детальніше