Перейти к содержанию

Голосовые дипфейки: технологии, перспективы, аферы | Блог Касперского


Рекомендуемые сообщения

Вы когда-нибудь задумывались над тем, как мы понимаем, с кем говорим по телефону? Очевидно, не только по отображающемуся на экране имени. Ведь если при звонке с известного номера мы услышим незнакомый голос, то сразу поймем: что-то не так. Чтобы определить, кто наш собеседник, мы неосознанно оцениваем тембр, манеру речи, интонацию. Но насколько надежно полагаться на слух в эпоху развития цифровых технологий и искусственного интеллекта? Как показывают последние новости, не всегда стоит доверять тому, что мы слышим, — это может быть подделка. Дипфейк.

Помоги, я в беде

Весной 2023 года мошенники в Аризоне попытались выманить у женщины деньги с помощью телефонного звонка. Голос ее пятнадцатилетней дочери умолял о помощи, а после неизвестный мужчина выхватил телефон и, угрожая, потребовал выкуп — а фоном продолжали звучать крики дочери. Мать была абсолютно уверена, что действительно слышит голос своего ребенка. К счастью, ей удалось быстро убедиться, что с дочкой все в порядке, и понять, что ей звонили мошенники.

Нельзя утверждать на 100%, что злоумышленники в этом случае использовали именно дипфейк для имитации голоса подростка. Возможно, это была попытка «обычного» мошенничества: качество связи, неожиданность ситуации, стресс — и воображение матери дорисовало все необходимое, чтобы поверить в этот фейк. Но даже если в этом случае и не использовались нейросетевые технологии, по мере их развития подобные случаи могут происходить чаще, становиться убедительнее и опаснее. Для того чтобы бороться с применением дипфейк-технологии злоумышленниками, необходимо понимать, как она работает.

Что такое дипфейк?

Технология искусственного интеллекта под названием deepfake (от deep learning «глубинное обучение» + fake «подделка») активно развивается последние несколько лет. С использованием машинного обучения можно создавать убедительные подделки изображений, видео- или аудиоданных. Так, с помощью нейросетей на фотографиях и в видео легко можно заменить лицо одного человека другим с сохранением мимики и освещения. И если на заре технологии качество таких подделок было очень низким и легко определялось на глаз, то по мере развития алгоритмов результат становился все убедительнее, и теперь его уже сложно отличить от реальности. В 2022 году в России даже выпустили первый в мире дипфейк-сериал, главные роли в котором очень убедительно «сыграли» дипфейки Джейсона Стэйтема, Марго Робби, Киану Ривза и Роберта Паттинсона.

Дипфейк-версии голливудских звезд в российском сериале "ПМЖейсон"

Дипфейк-версии голливудских звезд в российском сериале «ПМЖейсон». (Источник)

Голосовой перенос

Но сегодня мы поговорим о технологиях создания голосовых дипфейков. Иначе эту задачу можно назвать «переносом голоса» (или «клонированием голоса», если создают его полную цифровую копию). Перенос голоса базируется на автокодировщиках — определенном типе нейронных сетей, которые сначала сжимают входные данные (часть Encoder) до компактного внутреннего представления, а затем учатся разжимать их из этого представления обратно (часть Decoder), чтобы восстановить исходные данные. Так модель учится представлять данные в сжатом виде, выделяя при этом основную информацию.

Схема автокодировщика.

Схема автокодировщика. (Источник)

Для создания голосовых дипфейков на вход модели подаются две аудиозаписи, при этом голос со второй записи переносится на первую. Из первого аудиоролика с помощью Content Encoder выделяется, что было сказано, из второго с использованием Speaker Encoder извлекаются глобальные характеристики желаемого голоса – то есть как говорит наш «целевой» человек. Сжатые представления того, что и как должно быть сказано, объединяются, а затем с помощью декодера генерируется результат. В результате сказанное в первой записи озвучивается голосом человека из второй записи.

Процесс создания голосового дипфейка

Процесс создания голосового дипфейка. (Источник)

Помимо приведенного подхода на автокодировщиках существуют и другие, например с использованием генеративно-состязательных сетей (GAN) или диффузионных моделей. Исследования по созданию дипфейков активно поддерживаются, например, благодаря киноиндустрии: ведь объединив технологии аудио- и видеодипфейков, уже сейчас можно заменять лица актеров в кино и сериалах, выполнять дубляж кинофильмов с синхронизацией мимики героев с озвучкой на любом языке.

Переходим к практике

Изучая дипфейк-технологии, мы, разумеется, задались вопросом — насколько сложно создать собственный голосовой дипфейк? Оказалось, что в Сети можно найти множество бесплатных открытых инструментов для решения задач преобразования голоса — правда, получить качественный результат с их использованием будет не так-то просто. Понадобятся опыт программирования на Python и навыки работы в программах обработки звука, и все равно качество будет далеко не идеальным. Но, помимо open source, существуют также закрытые и платные решения.

Так, в начале 2023 года Microsoft анонсировала алгоритм, способный по аудиопримеру продолжительностью всего в три секунды воспроизвести голос человека! Кроме того, эта модель позволяет работать с несколькими языками, что позволяет вам услышать себя, разговаривающего на иностранном языке. Все это выглядит многообещающе, но доступно пока лишь в формате исследования. А вот платформа ElevenLabs на своем сайте предоставила пользователям возможность создания голосовых дипфейков без каких-либо усилий: достаточно загрузить аудиозапись голоса и текст, который нужно произнести — и результат готов. Разумеется, технологию тут же начали применять как бог на душу положит.

Борьба Гермионы и доверчивый банк

В полном соответствии с законом Годвина, в уста актрисы Эммы Уотсон вложили текст «Майн кампф», а один из пользователей применил технологию ElevenLabs для «взлома» собственного банковского аккаунта. Звучит жутковато? Да, особенно с учетом популярных в народе страшилок о том, что мошенники собирают образцы голосов, вынуждая сказать «да» или «подтверждаю» в телефонном разговоре с представителями якобы банка, госучреждения или службы соцопросов, а затем крадут деньги с помощью голосовой авторизации.

Но на деле все не так ужасно. Во-первых, для создания искусственного голоса ElevenLabs требуется около пяти минут аудиозаписей, так что простого «да» будет маловато. Во-вторых, банки тоже предусматривают подобные сценарии, поэтому голосом возможно инициировать лишь некоторые операции, не связанные с переводом средств, например узнать баланс счета. То есть украсть деньги таким образом не получится.

К чести ElevenLabs, они быстро отреагировали на возникшую проблему: отрегулировали правила пользования сервисом, запретив бесплатным (читай — анонимным) пользователям создавать дипфейки на основе самостоятельно загруженных голосов, заблокировали аккаунты с жалобами на оскорбительный контент.

Увы, все эти меры хоть и полезны, но все же не решают проблему использования голосовых дипфейков в низменных целях.

Как еще обманывают дипфейками

Хотя сама по себе технология дипфейков и безвредна, в руках мошенников она может стать опасным инструментом для обмана, дискредитации или дезинформации. К счастью, массовых случаев афер с использованием подмены голоса пока не наблюдалось, но несколько громких прецедентов с применением голосовых дипфейков уже произошло.

В 2019 году мошенники, используя эту технологию, ограбили британскую энергетическую компанию. В телефонном разговоре злоумышленник притворился генеральным директором головного немецкого подразделения компании и потребовал срочно перевести 220 000€ (243 000$) на счета некоей компании-поставщика. После того как платеж был отправлен, мошенник звонил еще дважды — первый раз, чтобы усыпить бдительность сотрудников британского офиса и сообщить, что головной офис уже отправил возмещение этой суммы, а второй — чтобы затребовать еще один перевод. При этом все три раза руководитель британского подразделения был абсолютно уверен, что беседует со своим боссом — он узнал как его немецкий акцент, так и тембр и манеру речи. Второй перевод не был отправлен лишь потому, что в последний раз мошенник прокололся и позвонил с австрийского номера вместо немецкого, что насторожило британского директора.

А в 2020 году с использованием голосовых дипфейков мошенникам удалось украсть до 35 000 000$ у некой японской компании (имя фирмы и общая сумма украденного не раскрываются следствием). Неизвестно, какие именно решения — открытые, платные или вообще собственные — использовали злоумышленники для подделки голоса, но в обоих случаях компании пострадали от дипфейк-мошенничества.

Что дальше?

По поводу будущего дипфейков мнения расходятся. Сейчас большая часть этих технологий находится в руках крупных корпораций и ограниченно доступна для публичного пользования. Но, как показывает история с гораздо более популярными в массах генеративными моделями вроде DALL-E, Midjourney и Stable Diffusion, а уж тем более — с большими языковыми моделями (кто же не слышал про ChatGPT?), подобные технологии вполне могут появиться в обозримом будущем в свободном доступе. Это подтверждается и недавней утечкой внутренней переписки Google, в которой представители Интернет-гиганта опасаются, что проиграют ИИ-гонку открытым решениям. А это, очевидно, спровоцирует рост случаев с использованием голосовых дипфейков, в том числе и для мошенничества.

Наиболее перспективным шагом в развитии дипфейков станет, очевидно, генерация в режиме реального времени, что обеспечит дипфейкам (и мошенничеству на их основе) взрывной рост. Только представьте видеозвонок от кого-то, чьи лицо и голос полностью подделаны. С другой стороны, подобный уровень обработки данных может потребовать огромных ресурсов, доступных лишь крупным корпорациям, поэтому лучшие технологии так и останутся закрытыми, а мошенники не смогут идти в ногу с профессионалами. В то же время высокая планка качества позволит пользователям научиться без труда определять любительские подделки.

Как защититься?

Теперь вернемся к самому первому вопросу: можем ли мы доверять голосам, которые слышим (разумеется, если это не голоса в голове)? Конечно, мы не должны постоянно параноить, выдумывая кодовые фразы для общения с друзьями и близкими — хотя для серьезных случаев и это не повредит. Если все будет развиваться по пессимистичному сценарию, дипфейк-технология в руках мошенников в будущем может стать грозным оружием, но время подготовиться к этому и построить надежные методы защиты от подделок еще есть. Проводится множество исследований, посвященных борьбе с дипфейками, крупными компаниями разрабатываются защитные решения. Кстати, мы уже подробно рассказывали о способах борьбы с видеодипфейками в отдельном посте.

А пока средства защиты от ИИ-подделок лишь на подходе, стоит помнить, что дипфейки — лишь вариант продвинутого социального инжиниринга. Риск столкнуться с подобным мошенничеством мал, но есть, поэтому про подобные виды обмана стоит знать и помнить. Если вам поступает необычный звонок, обращайте внимание на качество звучания, неестественную монотонность голоса, неразборчивость речи, шумы. Помните, что эффект неожиданности — это оружие злоумышленников, которые рассчитывают вызвать у вас панику. Всегда перепроверяйте информацию по другим каналам.

View the full article

Ссылка на комментарий
Поделиться на другие сайты

  • 3 недели спустя...

Пожалуйста, войдите, чтобы комментировать

Вы сможете оставить комментарий после входа в



Войти
  • Похожий контент

    • KL FC Bot
      Автор KL FC Bot
      Сейчас практически невозможно представить себе современную компанию, которая не рассказывает о применении искусственного интеллекта. Причем маркетологи далеко не всегда утруждают себя объяснением того, зачем ИИ в продукте нужен, а главное, как именно он там реализован, — им кажется, что самого факта применения достаточно для того, чтобы сделать продукт более ценным, инновационным и высокотехнологичным. Мы сторонники другого подхода — нам важно не просто сказать «у нас есть ИИ», а объяснить, как именно технологии машинного обучения и искусственного интеллекта применяются в наших решениях. Перечислять все наши ИИ-технологии в одном посте было бы слишком долго — у нас есть целый центр экспертизы AI Technology Research, который занимается различными аспектами ИИ. Поэтому в данном материале я сосредоточусь исключительно на технологиях, облегчающих жизнь SIEM-аналитика, работающего с Kaspersky Unified Monitoring and Analysis (KUMA).
      SIEM AI Asset Risk Scoring
      Традиционно одной из самых ресурсоемких задач аналитика SIEM является приоритизация алертов. Особенно если система только установлена и работает с дефолтными правилами корреляции из коробки, пока еще не подогнанными к реалиям конкретной компании. Помочь с этой проблемой могут технологии анализа больших данных и системы искусственного интеллекта — благодаря модулю SIEM AI Asset Risk Scoring команды мониторинга и реагирования могут определять приоритеты алертов и предотвращать потенциальный ущерб. Этот модуль служит для оценки рисков активов путем анализа исторических данных и тем самым помогает приоритизировать входящие оповещения, что, в свою очередь, ускоряет проведение триажа и позволяет генерировать гипотезы, которые можно использовать для проактивного поиска.

      На базе информации об активируемых цепочках правил корреляции SIEM AI Asset Risk Scoring позволяет строить паттерны нормальной активности на конечных точках. Затем, сравнивая с этими паттернами повседневную активность, модуль выявляет аномалии (например, резкие скачки трафика или множественные обращения к сервисам), которые могут говорить о том, что происходит реальный инцидент и аналитику следует глубже изучить именно эти алерты. Это позволяет обнаружить проблему на ранней стадии, до того как будет нанесен ущерб.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      В попытке обойти механизмы защитных решений злоумышленники все чаще прячут вредоносные и фишинговые ссылки внутрь QR-кодов. Поэтому в решение [KSMG placeholder] Kaspersky Secure Mail Gateway [/placeholder] мы добавили технологию, способную «читать» QR-коды (в том числе и спрятанные внутрь PDF-файлов), доставать из них ссылки и проверять их до того, как они окажутся в почтовом ящике сотрудника компании. Рассказываем, как это работает.
      Пример фишингового QR-кода внутри PDF-файла
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Недавно нашему бывшему коллеге пришла подозрительная нотификация от неизвестного ему сервиса GetGhared. Будучи человеком осторожным, он не стал переходить по ссылке, а сразу переслал уведомление нам. Проанализировав письмо, мы выяснили, что это действительно работа мошенников, а судя по статистике наших почтовых защитных решений, сервис для отправки больших файлов GetShared стал использоваться ими достаточно часто. Рассказываем, как выглядит применение GetShared в атаках, зачем злоумышленникам это нужно и как оставаться в безопасности.
      Как выглядит атака при помощи GetShared
      Жертве приходит вполне обычное, совершенно настоящее уведомление от сервиса GetShared, в котором говорится, что пользователю был прислан файл. В письме указаны название и расширение этого файла — например, в случае с атакой на компанию нашего коллеги это был DESIGN LOGO.rar.
      Пример мошеннического письма, распространяемого через уведомление GetShared
      В сопровождающем тексте применяется стандартная фишинговая уловка — мошенники запрашивают цены на что-то, якобы перечисленное в приложении, а для большей убедительности просят уточнить время доставки и условия оплаты.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Исследователь обнаружил уязвимость в PyTorch, фреймворке машинного обучения с открытым исходным кодом. Уязвимость, зарегистрированная под номером CVE-2025-32434, относится к классу Remote Code Execution (RCE) и имеет рейтинг 9,3 по шкале CVSS, то есть категорируется как критическая. Эксплуатация CVE-2025-32434 при определенных условиях позволяет злоумышленнику запускать на компьютере жертвы, скачивающей ИИ-модель произвольный код. Всем, кто использует PyTorch для работы с нейросетями, рекомендуется как можно скорее обновить фреймворк до последней версии.
      Суть уязвимости CVE-2025-32434
      Фреймворк PyTorch, помимо всего прочего, позволяет сохранять уже обученные модели в файл, который хранит веса связей. И, разумеется, загружать их при помощи функции torch.load(). Обученные модели часто выкладываются в общий доступ через разнообразные публичные репозитории и теоретически в них могут быть вредоносные закладки. Поэтому официальная документация проекта в целях безопасности рекомендует использовать функцию torch.load() с параметром weights_only=True (в таком случае загружаются только примитивные типы данных: словари, тензоры, списки, и так далее).
      Уязвимость CVE-2025-32434 заключается в некорректно реализованном механизме десериализации при загрузке модели. Обнаруживший ее исследователь продемонстрировал, что атакующий может создать файл модели таким способом, что параметр weights_only=True приведет к прямо противоположному эффекту — при загрузке будет выполнен произвольный код, способный скомпрометировать среду, в котором запускается модель.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Генерация программного кода стала одной из сфер, где ИИ уже внедрен достаточно широко, — по некоторым оценкам, за минувший год около 40% нового кода было написано ИИ. CTO Microsoft считает, что через пять лет эта цифра достигнет 95%. Этот код еще предстоит научиться правильно сопровождать и защищать.
      Безопасность ИИ-кода эксперты пока оценивают как невысокую, в нем систематически встречаются все классические программные дефекты: уязвимости (SQL-инъекции, вшитые в код токены и секреты, небезопасная десериализация, XSS), логические дефекты, использование устаревших API, небезопасные алгоритмы шифрования и хеширования, отсутствие обработки ошибок и некорректного пользовательского ввода и многое другое. Но использование ИИ-ассистента в разработке ПО добавляет еще одну неожиданную проблему — галлюцинации. В новом исследовании авторы подробно изучили, как на ИИ-код влияют галлюцинации больших языковых моделей. Оказалось, что некоторых сторонних библиотек, которые ИИ пытается использовать в своем коде, просто не существует в природе.
      Вымышленные зависимости в open source и коммерческих LLM
      Для изучения фантомных библиотек исследователи сгенерировали 576 тысяч фрагментов кода на Python и JavaScript с помощью 16 популярных LLM.
      Модели выдумывали зависимости с разной частотой: реже всего галлюцинировали GPT4 и GPT4 Turbo (вымышленные библиотеки встретились менее чем в 5% образцов кода), у моделей DeepSeek этот показатель уже превышает 15%, а сильнее всего ошибается Code Llama 7B (более 25% фрагментов кода ссылаются на несуществующие библиотеки). При этом параметры генерации, которые снижают вероятность проникновения случайных токенов в выдачу модели (температура, top-p, top-k), все равно не могут снизить частоту галлюцинаций до незначительных величин.
      Код на Python содержал меньше вымышленных зависимостей (16%) по сравнению с кодом на JavaScript (21%). Результат также зависит от того, насколько стара тема разработки. Если при генерации пытаться использовать пакеты, технологии и алгоритмы, ставшие популярными за последний год, несуществующих пакетов становится на 10% больше.
      Самая опасная особенность вымышленных пакетов — их имена не случайны, а нейросети ссылаются на одни и те же библиотеки снова и снова. На втором этапе эксперимента авторы отобрали 500 запросов, которые ранее спровоцировали галлюцинации, и повторили каждый из них 10 раз. Оказалось, что 43% вымышленных пакетов снова возникают при каждой генерации кода.
      Интересна и природа имен вымышленных пакетов. 13% были типичными «опечатками», отличающимися от настоящего имени пакета всего на один символ, 9% имен пакетов были заимствованы из другого языка разработки (код на Python, пакеты из npm), еще 38% были логично названы, но отличались от настоящих пакетов более значительно.
       
      View the full article
×
×
  • Создать...