Google продовжує тренувати пошуковий ШІ на контенті сайтів, навіть якщо видавці відмовилися

Google

На тлі триваючого антимонопольного судового розгляду в США, Google знову опинилась у центрі критики через практику використання контенту видавців для навчання своїх пошукових ШІ-продуктів, зокрема AI Overviews. Як стало відомо під час слухань, Google може використовувати веб-контент для навчання моделей у пошуку навіть після того, як видавці офіційно відмовилися від участі в тренуванні ШІ. Про це пише Bloomberg.

У суді віцепрезидент Google DeepMind Елі Коллінз підтвердив, що механізм відмови, який обмежує використання контенту для моделей DeepMind, не поширюється на інші підрозділи компанії. Тобто, якщо модель на кшталт Gemini інтегрується в пошукову систему, вона може тренуватись на даних, навіть якщо видавці заборонили це для DeepMind.

Google уточнила, що видавці можуть відмовитися лише повністю — через файл robots.txt, який забороняє індексацію сайту в пошуку. Іншої форми обмеження, яка дозволяла б індексування, але забороняла б навчання ШІ, наразі не передбачено.

Документ від 26 серпня 2024 року, представлений у суді, показав, що Google після фільтрації контенту, на який було накладено відмову, видалив 80 мільярдів з 160 мільярдів “токенів” — фрагментів даних. Проте інші підрозділи Google, включно з пошуковим, можуть продовжувати використовувати залишену частину даних.

Крім того, у документі згадувалась можливість тренування моделей не лише на веб-контенті, але й на даних про пошукові сесії, а також на відео з YouTube. Це ще більше розширює обсяг інформації, що може бути використана для вдосконалення моделей Google.

Попри офіційну політику “опт-ауту”, Google зберігає технічну можливість використовувати контент видавців для навчання своїх пошукових ШІ-продуктів. Це ставить медіа перед складним вибором: або дозволити індексацію і непряме використання свого контенту в AI-відповідях, або втратити видимість у пошуку повністю. Наразі ситуація залишається невизначеною і може стати ключовою у формуванні політики використання даних у ШІ-епоху.


Телеграм double.newsТелеграм double.news

Схожі Новини
anthropic claude

Anthropic додала в Claude функцію віддаленого керування комп’ютером

Anthropic представила нову функцію для свого чат-бота Claude, яка дозволяє штучному інтелекту керувати комп’ютером користувача. Інструмент уже доступний у тестовому режимі для підписників Claude Pro та Max і працює на macOS.
Детальніше
Mario

Постігрова депресія: як відеоігри впливають на емоційний стан гравців

Завершення улюбленої гри може викликати не лише задоволення, а й відчуття порожнечі. Дослідники з SWPS University вперше системно вивчили це явище та описали так звану постігрову депресію.
Детальніше
One Plus

OnePlus може скоротити присутність на глобальних ринках

Навколо OnePlus знову з’явилися чутки про можливе скорочення діяльності на ключових міжнародних ринках. За інформацією інсайдерів, компанія може переглянути свою глобальну стратегію, що потенційно вплине на присутність бренду в США, Європі та Індії.
Детальніше