Письма-призраки: как Apple обучает ИИ на сообщениях, которых не существует
NewsMakerТренировка на синтетике — не про спорт, а про почту и дифференциальную приватность.
Apple рассказала , как совершенствует функции Apple Intelligence, не нарушая приватность пользователей. Компания использует методы дифференциальной приватности и генерации синтетических данных, чтобы выявлять агрегированные тренды без доступа к личной информации.
В сообщении подчёркивается, что Apple не использует частные персональные данные или пользовательские взаимодействия для обучения своих базовых моделей. Кроме того, при работе с общедоступным контентом в интернете применяются фильтры для удаления идентифицирующей информации, включая номера социального страхования и банковские данные.
Технологии дифференциальной приватности уже применяются в функции Genmoji. Устройства пользователей, согласившихся на участие в программе Device Analytics, анонимно сообщают, встречался ли тот или иной фрагмент текста, добавляя случайный шум. Это обеспечивает математическую гарантию, что редкие или уникальные фразы останутся недоступными, а конкретные запросы невозможно будет привязать к конкретному пользователю.
Таким образом, Apple получает только обобщённую информацию о популярных запросах и не имеет возможности определить, с какого устройства поступил сигнал. Ни IP-адрес, ни какой-либо другой идентификатор, связанный с Apple ID, не передаётся. Аналогичный подход в ближайших версиях будет использоваться в других функциях Apple Intelligence — Image Playground, Image Wand, создании воспоминаний, инструментах для написания текстов и визуальном анализе.
Для более сложных задач, таких как генерация текста или резюмирование писем, Apple применяет другой метод. Здесь данные не собираются, а создаются синтетические сообщения, имитирующие структуру и тематику реальных. При этом сами письма с устройств не передаются — устройство лишь сравнивает заранее созданные варианты с собственными данными и передаёт сигнал о том, какой из вариантов ближе всего, также с применением дифференциальной приватности.
Например, может быть создано синтетическое письмо вроде «Would you like to play tennis tomorrow at 11:30AM?». Устройство сравнивает такие сообщения с пользовательскими по векторным представлениям (embedding) и сообщает, какой из них ближе — без передачи исходного письма или его содержания.
Генерация различных вариантов синтетических сообщений.
На основании полученных агрегированных сигналов Apple определяет, какие темы или стили сообщений встречаются чаще всего, и на их основе формирует набор синтетических данных. Это позволяет тестировать модели на более релевантных данных без необходимости получать доступ к содержанию писем.
Такая технология уже используется в бета-версиях для улучшения генерации текста в почте. В будущем Apple планирует расширить её на другие компоненты Apple Intelligence для пользователей, согласившихся на участие в аналитике устройства.
Компания подчёркивает, что всё участие добровольное, данные пользователей не покидают их устройства, а Apple получает только агрегированные, обезличенные сигналы. Это позволяет развивать возможности ИИ без нарушения конфиденциальности.

Apple рассказала , как совершенствует функции Apple Intelligence, не нарушая приватность пользователей. Компания использует методы дифференциальной приватности и генерации синтетических данных, чтобы выявлять агрегированные тренды без доступа к личной информации.
В сообщении подчёркивается, что Apple не использует частные персональные данные или пользовательские взаимодействия для обучения своих базовых моделей. Кроме того, при работе с общедоступным контентом в интернете применяются фильтры для удаления идентифицирующей информации, включая номера социального страхования и банковские данные.
Технологии дифференциальной приватности уже применяются в функции Genmoji. Устройства пользователей, согласившихся на участие в программе Device Analytics, анонимно сообщают, встречался ли тот или иной фрагмент текста, добавляя случайный шум. Это обеспечивает математическую гарантию, что редкие или уникальные фразы останутся недоступными, а конкретные запросы невозможно будет привязать к конкретному пользователю.
Таким образом, Apple получает только обобщённую информацию о популярных запросах и не имеет возможности определить, с какого устройства поступил сигнал. Ни IP-адрес, ни какой-либо другой идентификатор, связанный с Apple ID, не передаётся. Аналогичный подход в ближайших версиях будет использоваться в других функциях Apple Intelligence — Image Playground, Image Wand, создании воспоминаний, инструментах для написания текстов и визуальном анализе.
Для более сложных задач, таких как генерация текста или резюмирование писем, Apple применяет другой метод. Здесь данные не собираются, а создаются синтетические сообщения, имитирующие структуру и тематику реальных. При этом сами письма с устройств не передаются — устройство лишь сравнивает заранее созданные варианты с собственными данными и передаёт сигнал о том, какой из вариантов ближе всего, также с применением дифференциальной приватности.
Например, может быть создано синтетическое письмо вроде «Would you like to play tennis tomorrow at 11:30AM?». Устройство сравнивает такие сообщения с пользовательскими по векторным представлениям (embedding) и сообщает, какой из них ближе — без передачи исходного письма или его содержания.

Генерация различных вариантов синтетических сообщений.
На основании полученных агрегированных сигналов Apple определяет, какие темы или стили сообщений встречаются чаще всего, и на их основе формирует набор синтетических данных. Это позволяет тестировать модели на более релевантных данных без необходимости получать доступ к содержанию писем.
Такая технология уже используется в бета-версиях для улучшения генерации текста в почте. В будущем Apple планирует расширить её на другие компоненты Apple Intelligence для пользователей, согласившихся на участие в аналитике устройства.
Компания подчёркивает, что всё участие добровольное, данные пользователей не покидают их устройства, а Apple получает только агрегированные, обезличенные сигналы. Это позволяет развивать возможности ИИ без нарушения конфиденциальности.