Крок назад у безпеці: Google визнала вразливість нової моделі Gemini 2.5 Flash

Логотип моделі штучного інтелекту Google Gemini 2.5 Flash на темному фоні

Створення ідеального балансу між корисністю штучного інтелекту та його безпекою залишається головним болем розробників. Техногігант Google опублікував звіт, у якому визнав, що нова модель Gemini 2.5 Flash, яка зараз перебуває на етапі раннього тестування, демонструє значно гірші показники захисту від шкідливого контенту, ніж її попередниця Gemini 2.0 Flash.

Як повідомляє TechCrunch, погіршення результатів зафіксували в автоматизованих тестах безпеки. Модель гірше опирається спробам змусити її генерувати небажаний чи небезпечний контент.

Показники зниження рівня безпеки Gemini 2.5 Flash у порівнянні з версією 2.0:

  • Текстові запити (Text-to-Text): рівень безпеки знизився на 4,1%. Бот частіше відповідає на потенційно шкідливі письмові інструкції.
  • Мультимодальні запити (Image-to-Text): показник впав одразу на 9,6%. Нейромережу значно легше спровокувати на порушення правил під час аналізу зображень.

Чому слухняність ШІ шкодить безпеці

У Google пояснюють такий результат парадоксальною причиною: Gemini 2.5 Flash стала занадто «слухняною». Інженери навчили її краще дотримуватися складних інструкцій користувача. Однак це полегшило завдання зловмисникам, які намагаються обійти внутрішні обмеження за допомогою методів джейлбрейку (jailbreak). Коли користувач явно просить проігнорувати правила, модель схильна йти йому назустріч.

Окрім цього, розробники припускають, що частина негативних оцінок спричинена хибнопозитивними спрацьовуваннями алгоритмів перевірки. Проте компанія визнає, що в багатьох випадках Gemini 2.5 Flash справді видає контент, який прямо суперечить корпоративній етиці Google.

Ця ситуація відображає загальний тренд на ринку ШІ. Провідні лабораторії, включно з OpenAI та Meta, зараз намагаються зробити свої моделі менш схильними до відмов у відповідях (refusals). Користувачі часто скаржилися на надмірну обережність ШІ, коли боти відмовлялися допомагати у цілком безпечних, але суперечливих темах. Тепер маятник хитнувся в інший бік, відкриваючи нові вразливості.

Підсумок

Компанія Google визнала, що її нова ШІ-модель Gemini 2.5 Flash демонструє гірші результати в тестах на безпеку порівняно з попередньою версією Gemini 2.0 Flash. Відповідно до оприлюдненого звіту, показники безпеки впали на 4,1% в текстових завданнях та на 9,6% при аналізі зображень. Це погіршення викликане тим, що нова модель занадто точно слідує командам користувача, через що легше піддається на провокаційні запити та порушує встановлені етичні й юридичні політики Google.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше