
Створення ідеального балансу між корисністю штучного інтелекту та його безпекою залишається головним болем розробників. Техногігант Google опублікував звіт, у якому визнав, що нова модель Gemini 2.5 Flash, яка зараз перебуває на етапі раннього тестування, демонструє значно гірші показники захисту від шкідливого контенту, ніж її попередниця Gemini 2.0 Flash.
Як повідомляє TechCrunch, погіршення результатів зафіксували в автоматизованих тестах безпеки. Модель гірше опирається спробам змусити її генерувати небажаний чи небезпечний контент.
Показники зниження рівня безпеки Gemini 2.5 Flash у порівнянні з версією 2.0:
- Текстові запити (Text-to-Text): рівень безпеки знизився на 4,1%. Бот частіше відповідає на потенційно шкідливі письмові інструкції.
- Мультимодальні запити (Image-to-Text): показник впав одразу на 9,6%. Нейромережу значно легше спровокувати на порушення правил під час аналізу зображень.
Чому слухняність ШІ шкодить безпеці
У Google пояснюють такий результат парадоксальною причиною: Gemini 2.5 Flash стала занадто «слухняною». Інженери навчили її краще дотримуватися складних інструкцій користувача. Однак це полегшило завдання зловмисникам, які намагаються обійти внутрішні обмеження за допомогою методів джейлбрейку (jailbreak). Коли користувач явно просить проігнорувати правила, модель схильна йти йому назустріч.
Окрім цього, розробники припускають, що частина негативних оцінок спричинена хибнопозитивними спрацьовуваннями алгоритмів перевірки. Проте компанія визнає, що в багатьох випадках Gemini 2.5 Flash справді видає контент, який прямо суперечить корпоративній етиці Google.
Ця ситуація відображає загальний тренд на ринку ШІ. Провідні лабораторії, включно з OpenAI та Meta, зараз намагаються зробити свої моделі менш схильними до відмов у відповідях (refusals). Користувачі часто скаржилися на надмірну обережність ШІ, коли боти відмовлялися допомагати у цілком безпечних, але суперечливих темах. Тепер маятник хитнувся в інший бік, відкриваючи нові вразливості.
Підсумок
Компанія Google визнала, що її нова ШІ-модель Gemini 2.5 Flash демонструє гірші результати в тестах на безпеку порівняно з попередньою версією Gemini 2.0 Flash. Відповідно до оприлюдненого звіту, показники безпеки впали на 4,1% в текстових завданнях та на 9,6% при аналізі зображень. Це погіршення викликане тим, що нова модель занадто точно слідує командам користувача, через що легше піддається на провокаційні запити та порушує встановлені етичні й юридичні політики Google.

