Газета The New York Times утверждает, что OpenAI использовала миллионы её статей без разрешения для обучения своих моделей искусственного интеллекта, в том числе ChatGPT и подала в суд по обвинению в нарушении авторских прав. В рамках этого иска суд вынес постановление, обязывающее OpenAI передать 20 миллионов анонимизированных логов чатов пользователей ChatGPT, то есть фактически речь идет о переписке обычных людей с чат-ботом. Эти логи должны помочь истцам выяснить, воспроизводит ли ИИ их защищённый контент, что является ключевым доказательством в деле.
OpenAI в ответ подала ходатайство в федеральный суд с просьбой отменить это постановление. Компания утверждает, что передача таких огромных объёмов пользовательских данных, даже анонимизированных, нарушит конфиденциальность пользователей и создаст опасный прецедент для всех судебных процессов, связанных с искусственным интеллектом. OpenAI подчёркивает, что 99,99% этих чат-логов не имеют отношения к делу и что раскрытие информации поставит под угрозу личные данные миллионов пользователей, которые не связаны напрямую с иском The New York Times.
Судья Магистрат Она Т. Ванг ранее выдала постановление о сохранении и передаче данных, с обязательным «тщательным удалением персональных данных». OpenAI и истцы спорят о том, насколько эти меры достаточны для защиты конфиденциальности. Газета считает, что логи нужны для доказательства факта нарушения авторских прав и опровержения заявлений OpenAI, что ChatGPT «взламывали» для фабрикации доказательств. OpenAI же настаивает, что требование является чрезмерным и несправедливым, и уже подала апелляцию.
Срок подачи этих логов — 14 ноября 2025 года. OpenAI считает, что выполнение этой просьбы создаст риск раскрытия сотен миллионов личных переписок, которые не имеют отношения к иску, а The New York Times уверяет, что конфиденциальность пользователей будет защищена в рамках судебного процесса.
Таким образом, дело поднимает важные вопросы баланса между защитой авторских прав новостных изданий и конфиденциальностью пользователей ИИ, а также о судебных механизмах, доступных для решения таких спорных вопросов в эпоху искусственного интеллекта и больших данных.
Что за переписки и почему именно 20 млн?
Чат-логи — это записи переписки пользователей с ChatGPT, то есть диалоги, которые люди ведут с искусственным интеллектом на сайте или через разные сервисы, использующие ChatGPT. В этих логах содержится текст, который пользователи вводили, и ответы ИИ. Логи анонимизированы, то есть персональные данные и идентифицирующая информация должны быть удалены или скрыты.
Причина именно 20 миллионов — это выборка из всех логов, которой требует газета The New York Times в судебном процессе по иску о нарушении авторских прав. Изначально NYT требовала еще больше — около 1,4 миллиарда чат-логов, но затем снизила требования до 20 миллионов. Это случайная выборка с конца 2022 по 2024 год, которая предполагается для анализа, чтобы найти случаи, когда пользователи попытались получить через ChatGPT доступ к платным статьям или воспроизвести контент NYT.
Они включают в себя всё: от обычных бытовых вопросов и запросов до попыток пользователей получить доступ к материалам The New York Times или другим защищённым авторам контентам. То есть речь идёт не о какой-то отдельной группе пользователей, а о случайной выборке миллионов диалогов всех пользователей ChatGPT.
OpenAI считает это чрезмерным и утверждает, что 99,99% этих логов не связаны с иском, и раскрыть такую массу чатов нарушит конфиденциальность миллионов пользователей, большинство из которых не имеют отношения к делу.
Опасный прецедент
По мнению Владимира Зыкова из Ассоциации профессиональных пользователей соцсетей и мессенджеров, если суд обяжет OpenAI передать 20 миллионов чат-логов пользователей, это создаст опасный прецедент, который может быть использован в будущем против других компаний и сервисов.
«Такой прецедент может привести к тому, что в других судебных делах будет требоваться передача огромных объёмов пользовательских данных — переписок, чатов, сообщений и прочих коммуникаций — под предлогом расследования возможных нарушений закона. Проще говоря, можно будет запросить анонимизированную переписку пользователей в мессенджере или в личных сообщениях соцсетей, чтобы найти нарушителей закона, например, террористов. А когда такая переписка будет найдена, уже в рамках других законов запросить у компании данные об этих людях. Это поднимет серьёзные вопросы о конфиденциальности, защите личных данных и безопасности пользователей», — отметил он.
По его словам, проблема в том, что любая компания, предоставляющая сервисы с пользовательским контентом, может оказаться под давлением суда или регуляторов с требованием раскрыть все или часть данных, если это сочтут нужным для решения конкретных юридических вопросов. Баланс между необходимостью защиты авторских прав или соблюдением закона и сохранением приватности пользователей в таких случаях становится крайне тонким и сложным.
OpenAI в своём заявлении подчёркивает именно этот риск — передача такой огромной базы данных пользователей создаст опасный юридический прецедент, который может использоваться против любой платформы с пользовательским контентом, что угрожает фундаментальным правам на конфиденциальность и свободу общения.
В итоге решение суда по этому делу может иметь далеко идущие последствия для всей индустрии искусственного интеллекта, технологических компаний и защиты данных пользователей в целом.
Подписывайтесь на наш Telegram-канал, чтобы быть в курсе всех новостей и событий Рунета.