Google наздоганяє ChatGPT: веб-версія Gemini отримала завантаження кількох зображень

Google Gemini AI

Google продовжує запеклу гонку озброєнь на ринку штучного інтелекту. Розробники почали розгортати довгоочікуване оновлення для веб-інтерфейсу нейромережі Gemini. Тепер платні підписники тарифу Gemini Advanced можуть завантажувати кілька картинок одночасно в рамках одного діалогу. За даними порталу Android Authority, робота функції базується на швидкій ШІ-моделі Gemini 2.0 Flash.

Цей крок дозволяє Google скоротити функціональне відставання від свого головного суперника — ChatGPT від OpenAI.

Порівняльний аналіз та обмеження нової функції

Нововведення дозволяє просити нейромережу порівняти кілька фотографій, знайти спільні деталі, перекласти написи на різних картинках або написати історію на основі серії зображень. Перші користувачі, які вже протестували оновлення, повідомляють про певні нюанси:

  • Якість розпізнавання та логічного зв’язку між кількома об’єктами залишається нестабільною.
  • На безкоштовних акаунтах функція наразі заблокована.
  • ШІ інколи плутає деталі з першого та другого файлу при складному аналізі.
Критерій порівняння Google Gemini Advanced OpenAI ChatGPT Plus
ШІ-модель для обробки мультимедіа Gemini 2.0 Flash / Pro GPT-4o / o1
Доступність мультизавантаження Лише для платних підписників Advanced (поетапний реліз) Доступно всім користувачам (з лімітами для фрі-версії)
Додатковий інструментарій Вбудований фоторедактор, заміна об’єктів Генерація зображень DALL-E, робота з графіками

Інструменти для редагування та розумного пензля

Одночасно з роботою над мультимодальністю, Google інтегрує в Gemini просунуті інструменти редагування зображень. Користувачі зможуть виділяти пензлем окремі зони на фото, щоб видаляти непотрібні деталі, домальовувати нові елементи або повністю змінювати фон за текстовим запитом.

Функція працюватиме як із картинками, які згенерував сам ШІ, так і з користувацькими фотографіями. Наразі географія розгортання фоторедактора охоплює понад 45 країн світу, а інтерфейс локалізовано десятками мов.

Підсумок

Для платних передплатників Gemini Advanced став доступний одночасний імпорт кількох зображень у веб-версії чат-боту на базі моделі Gemini 2.0 Flash. Ця функція допомагає користувачам проводити комплексний аналіз та порівняння кількох файлів, хоча перші тестери вказують на нестабільність результатів. Крім того, Google додає в чат-бот повноцінний фоторедактор для зміни фону та об’єктів на зображеннях, який поступово розгортається у 45 країнах світу.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше