Звонят роботы и клянчат данные? ASRJam сделает их глухими, а вас — недосягаемыми

Мошенники потратят на вас время, но останутся с носом. Теперь ваш голос для них — загадка.


srenht9jb5rhw1b4dnghin65u7xibw2z.jpg


Исследователи из Израиля и Индии представили новую технологию защиты от мошеннических голосовых звонков, известных как «вишинг» . Система под названием ASRJam способна в реальном времени искажать речь звонящего таким образом, что человек по ту сторону трубки слышит всё чётко, а вот автоматическая система распознавания речи (ASR), используемая злоумышленниками, не может корректно интерпретировать услышанное.

В центре этой разработки — алгоритм EchoGuard, добавляющий в речь незаметные аудиошумы, которые эффективно «ломают» работу систем машинного распознавания, не мешая при этом человеческому восприятию. Подход, описанный в научной публикации под названием «ASRJam: Human-Friendly AI Speech Jamming to Prevent Automated Phone Scams», основан на идее, что именно модуль распознавания речи в инфраструктуре голосовых атак является наиболее уязвимым звеном.

Мошеннические звонки с применением нейросетей в последнее время приобрели тревожные масштабы : в период между первой и второй половинами 2024 года их число выросло на 442%, как указано в отчёте CrowdStrike за 2025 год. Современные злоумышленники используют синтезированную голосовую речь и продвинутые ASR-системы для построения диалога в реальном времени с целью выманивания конфиденциальных данных.

EchoGuard, в отличие от других методов подавления ASR, таких как AdvDDoS, Kenku или Kenansville, работает в интерактивных сценариях и не вызывает раздражения у собеседника. Алгоритм применяет три типа акустических искажений: имитацию реверберации, микрофонную модуляцию и временное заглушение отдельных звуков. По мнению авторов, такое сочетание даёт наилучший баланс между разборчивостью и комфортом звучания, в отличие от грубых искажений, используемых ранее.

Эффективность ASRJam была протестирована на трёх общедоступных аудиодатасетах — Tedlium, SPGISpeech и LibriSpeech — и на шести популярных ASR-моделях, включая DeepSpeech, Vosk, Whisper от OpenAI, Wav2Vec2, IBM Watson и SpeechBrain. EchoGuard показал лучший результат по всем моделям, кроме одной — SpeechBrain, которая оказалась немного устойчивее. Однако авторы отмечают, что эта система нечасто используется в реальных атаках и в целом уступает по качеству.

Особое внимание уделено устойчивости модели Whisper, которая лучше других справляется с шумами благодаря обучению на большом количестве «грязных» данных. Даже в этом случае EchoGuard снижает качество распознавания: каждая шестая фраза оказывается искажена до уровня, способного нарушить ход диалога и нарушить логику генерации ответов в LLM-системах, работающих на основе ASR.

Исследование, проведённое группой во главе с Фредди Грабовски из Университета Бен-Гуриона в Негеве, позиционирует ASRJam как первую универсальную и практичную систему защиты от автоматических голосовых атак. Программный модуль работает на устройстве пользователя и остаётся незаметным для атакующего, что делает обход защиты крайне затруднительным.

На фоне стремительного роста технологий распознавания речи и синтеза голоса, появление подобных методов защиты может сыграть ключевую роль в борьбе с новыми формами телефонного мошенничества, особенно в условиях, когда человек всё чаще общается не с живым оператором, а с искусственным интеллектом.