Удаляли чаты в ChatGPT? Поздравляем, NYT может получить к ним доступ уже на следующей неделе

NYT хочет видеть, о чём ты говорил с ИИ — OpenAI в панике.

OpenAI готовится к, возможно, последнему юридическому манёвру, чтобы ограничить запрос газеты The New York Times на доступ к огромному массиву логов ChatGPT. Истцы добиваются права искать в этих данных доказательства массового нарушения авторских прав — материалов, которые могут стать ключевыми в одном из самых громких исков против разработчиков ИИ.

На этой неделе стороны договорились о проведении конфиденциальной конференции 7 августа. Однако, как подтвердили юристы NYT, речь не идёт о мировом соглашении — встреча будет посвящена исключительно одному из самых спорных моментов дела: можно ли истцам анализировать десятки миллионов пользовательских диалогов с ChatGPT.

Именно поэтому уже в ближайшие дни пользователи ChatGPT могут получить гораздо более ясное представление о том, насколько их чаты остаются конфиденциальными. Пока же OpenAI пытается доказать, что сделать ранее удалённые разговоры доступными для поиска — технически крайне сложно и сопряжено с большими рисками.

Ранее компания называла попытку NYT «массовой слежкой» за пользователями и пыталась полностью заблокировать доступ к логам. Однако суд отказал в этом, и теперь OpenAI стремится хотя бы сократить объём данных, подлежащих передаче, поскольку всё больше клиентов компании обеспокоены возможной утечкой конфиденциальной информации из удалённых переписок.

Недавно OpenAI предложила компромисс: ограничить анализ выборкой из 20 миллионов логов. Компания ссылается на мнение специалиста по компьютерным наукам Тейлора Берг-Киркпатрика, который считает, что этого достаточно для статистически значимого анализа. Но истцы — в том числе и New York Times — отвергли предложение, настаивая на доступе к 120 миллионам пользовательских разговоров.

По мнению OpenAI, это шесть раз больше разумного объёма и приведёт не только к колоссальным затратам, но и к дополнительным рискам для частной жизни пользователей. Компания предупреждает: чтобы обработать такой объём данных — извлечь, распаковать, обезличить и проиндексировать — потребуется до 36 недель. При этом каждый лог — это не просто строка в таблице, а крупный неструктурированный файл, зачастую содержащий личную информацию: от адресов до паролей.

Вместо этого OpenAI просит суд остановиться на выборке в 20 миллионов логов, а расширять её — только если истцы докажут, что меньшего объёма недостаточно для ведения дела.

В то же время интерес к делу подогревает и позиция Microsoft, которая выступает в качестве соперника NYT по другому направлению — журналисты газеты возражают против требования Microsoft предоставить 80 тысяч логов с её внутреннего сервиса ChatExplorer. NYT утверждает, что эти логи не имеют отношения к иску и затрагивают персональные данные журналистов и юристов, не вовлечённых в процесс. При этом сама NYT настаивает на правомерности своего запроса к OpenAI, заявляя, что её цель — выявление прямых случаев нарушения авторских прав, а не сбор служебной информации.

На фоне нарастающих споров и правовых противоречий глава OpenAI Сэм Альтман недавно заявил о необходимости «ИИ-привилегии» — новой формы конфиденциальности, при которой диалоги с нейросетями защищаются так же, как, например, разговоры с адвокатом или врачом.

Ожидается, что в ближайшие дни станет ясно, согласятся ли стороны на компромисс или дело продолжит развиваться, угрожая частной жизни миллионов пользователей ИИ.