Дослідження виявило, що моделі OpenAI запам’ятовують захищений авторським правом контент

ChatGPT

Нещодавнє дослідження, проведене вченими з Університету Вашингтона, Університету Копенгагена та Стенфорда, виявило, що деякі моделі OpenAI, зокрема GPT-4 та GPT-3.5, можуть запам’ятовувати та відтворювати фрагменти текстів, захищених авторським правом. Це викликає занепокоєння щодо використання таких даних у навчанні штучного інтелекту, повідомляє TechCrunch.

Дослідники використовували метод, заснований на виявленні “високосюрпризних” слів — тобто слів, які є менш поширеними в певному контексті. Вони видаляли такі слова з уривків художніх книг та статей The New York Times, а потім просили моделі передбачити відсутні слова. Якщо модель правильно відновлювала слово, це свідчило про можливе запам’ятовування цього фрагмента під час навчання.

Результати показали, що GPT-4 демонструє ознаки запам’ятовування частин популярних художніх творів, а також деяких статей The New York Times, хоча в меншій мірі. Це піднімає питання щодо використання захищених авторським правом матеріалів у процесі навчання моделей штучного інтелекту.

Використання захищених авторським правом матеріалів для навчання ШІ без відповідного дозволу може порушувати законодавство та права авторів. Це також піднімає етичні питання щодо використання таких даних і може вплинути на довіру до компаній, що розробляють ШІ. Дослідники наголошують на необхідності більшої прозорості у використанні даних для навчання моделей, щоб уникнути потенційних юридичних та етичних проблем.


Телеграм double.newsТелеграм double.news

Схожі Новини
Google

Google визнала стрімкий занепад відкритого інтернету

Попри тривалу інформаційну кампанію про здоров’я онлайн-екосистеми, Google нещодавно офіційно визнала, що відкритий інтернет перебуває у фазі швидкого занепаду. Така заява міститься у судовому поданні компанії, що різко контрастує з її попередніми публічними твердженнями.
Детальніше
WhatsApp

У WhatsApp виявлено серйозні проблеми з кібербезпекою

Meta знову опинилася в центрі скандалу — цього разу через гучний позов, поданий колишнім співробітником, який звинувачує компанію в ігноруванні серйозних кіберзагроз у сервісі WhatsApp. За його словами, вразливості потенційно дозволяють несанкціонований доступ до персональних даних мільйонів користувачів.
Детальніше
Годинника

Штучний інтелект не вміє визначати час за аналоговим годинником: нове дослідження виявило слабкість нейромереж

Попри стрімкий розвиток штучного інтелекту, виявлено сферу, з якою нейромережі досі не справляються — це зчитування часу зі звичайних стрілочних годинників. У тесті ClockBench сучасні мовні моделі продемонстрували вкрай низьку точність, показавши результати, які суттєво відстають від людських можливостей.
Детальніше