Перейти к содержанию

Голосовые дипфейки: технологии, перспективы, аферы | Блог Касперского


Рекомендуемые сообщения

Вы когда-нибудь задумывались над тем, как мы понимаем, с кем говорим по телефону? Очевидно, не только по отображающемуся на экране имени. Ведь если при звонке с известного номера мы услышим незнакомый голос, то сразу поймем: что-то не так. Чтобы определить, кто наш собеседник, мы неосознанно оцениваем тембр, манеру речи, интонацию. Но насколько надежно полагаться на слух в эпоху развития цифровых технологий и искусственного интеллекта? Как показывают последние новости, не всегда стоит доверять тому, что мы слышим, — это может быть подделка. Дипфейк.

Помоги, я в беде

Весной 2023 года мошенники в Аризоне попытались выманить у женщины деньги с помощью телефонного звонка. Голос ее пятнадцатилетней дочери умолял о помощи, а после неизвестный мужчина выхватил телефон и, угрожая, потребовал выкуп — а фоном продолжали звучать крики дочери. Мать была абсолютно уверена, что действительно слышит голос своего ребенка. К счастью, ей удалось быстро убедиться, что с дочкой все в порядке, и понять, что ей звонили мошенники.

Нельзя утверждать на 100%, что злоумышленники в этом случае использовали именно дипфейк для имитации голоса подростка. Возможно, это была попытка «обычного» мошенничества: качество связи, неожиданность ситуации, стресс — и воображение матери дорисовало все необходимое, чтобы поверить в этот фейк. Но даже если в этом случае и не использовались нейросетевые технологии, по мере их развития подобные случаи могут происходить чаще, становиться убедительнее и опаснее. Для того чтобы бороться с применением дипфейк-технологии злоумышленниками, необходимо понимать, как она работает.

Что такое дипфейк?

Технология искусственного интеллекта под названием deepfake (от deep learning «глубинное обучение» + fake «подделка») активно развивается последние несколько лет. С использованием машинного обучения можно создавать убедительные подделки изображений, видео- или аудиоданных. Так, с помощью нейросетей на фотографиях и в видео легко можно заменить лицо одного человека другим с сохранением мимики и освещения. И если на заре технологии качество таких подделок было очень низким и легко определялось на глаз, то по мере развития алгоритмов результат становился все убедительнее, и теперь его уже сложно отличить от реальности. В 2022 году в России даже выпустили первый в мире дипфейк-сериал, главные роли в котором очень убедительно «сыграли» дипфейки Джейсона Стэйтема, Марго Робби, Киану Ривза и Роберта Паттинсона.

Дипфейк-версии голливудских звезд в российском сериале "ПМЖейсон"

Дипфейк-версии голливудских звезд в российском сериале «ПМЖейсон». (Источник)

Голосовой перенос

Но сегодня мы поговорим о технологиях создания голосовых дипфейков. Иначе эту задачу можно назвать «переносом голоса» (или «клонированием голоса», если создают его полную цифровую копию). Перенос голоса базируется на автокодировщиках — определенном типе нейронных сетей, которые сначала сжимают входные данные (часть Encoder) до компактного внутреннего представления, а затем учатся разжимать их из этого представления обратно (часть Decoder), чтобы восстановить исходные данные. Так модель учится представлять данные в сжатом виде, выделяя при этом основную информацию.

Схема автокодировщика.

Схема автокодировщика. (Источник)

Для создания голосовых дипфейков на вход модели подаются две аудиозаписи, при этом голос со второй записи переносится на первую. Из первого аудиоролика с помощью Content Encoder выделяется, что было сказано, из второго с использованием Speaker Encoder извлекаются глобальные характеристики желаемого голоса – то есть как говорит наш «целевой» человек. Сжатые представления того, что и как должно быть сказано, объединяются, а затем с помощью декодера генерируется результат. В результате сказанное в первой записи озвучивается голосом человека из второй записи.

Процесс создания голосового дипфейка

Процесс создания голосового дипфейка. (Источник)

Помимо приведенного подхода на автокодировщиках существуют и другие, например с использованием генеративно-состязательных сетей (GAN) или диффузионных моделей. Исследования по созданию дипфейков активно поддерживаются, например, благодаря киноиндустрии: ведь объединив технологии аудио- и видеодипфейков, уже сейчас можно заменять лица актеров в кино и сериалах, выполнять дубляж кинофильмов с синхронизацией мимики героев с озвучкой на любом языке.

Переходим к практике

Изучая дипфейк-технологии, мы, разумеется, задались вопросом — насколько сложно создать собственный голосовой дипфейк? Оказалось, что в Сети можно найти множество бесплатных открытых инструментов для решения задач преобразования голоса — правда, получить качественный результат с их использованием будет не так-то просто. Понадобятся опыт программирования на Python и навыки работы в программах обработки звука, и все равно качество будет далеко не идеальным. Но, помимо open source, существуют также закрытые и платные решения.

Так, в начале 2023 года Microsoft анонсировала алгоритм, способный по аудиопримеру продолжительностью всего в три секунды воспроизвести голос человека! Кроме того, эта модель позволяет работать с несколькими языками, что позволяет вам услышать себя, разговаривающего на иностранном языке. Все это выглядит многообещающе, но доступно пока лишь в формате исследования. А вот платформа ElevenLabs на своем сайте предоставила пользователям возможность создания голосовых дипфейков без каких-либо усилий: достаточно загрузить аудиозапись голоса и текст, который нужно произнести — и результат готов. Разумеется, технологию тут же начали применять как бог на душу положит.

Борьба Гермионы и доверчивый банк

В полном соответствии с законом Годвина, в уста актрисы Эммы Уотсон вложили текст «Майн кампф», а один из пользователей применил технологию ElevenLabs для «взлома» собственного банковского аккаунта. Звучит жутковато? Да, особенно с учетом популярных в народе страшилок о том, что мошенники собирают образцы голосов, вынуждая сказать «да» или «подтверждаю» в телефонном разговоре с представителями якобы банка, госучреждения или службы соцопросов, а затем крадут деньги с помощью голосовой авторизации.

Но на деле все не так ужасно. Во-первых, для создания искусственного голоса ElevenLabs требуется около пяти минут аудиозаписей, так что простого «да» будет маловато. Во-вторых, банки тоже предусматривают подобные сценарии, поэтому голосом возможно инициировать лишь некоторые операции, не связанные с переводом средств, например узнать баланс счета. То есть украсть деньги таким образом не получится.

К чести ElevenLabs, они быстро отреагировали на возникшую проблему: отрегулировали правила пользования сервисом, запретив бесплатным (читай — анонимным) пользователям создавать дипфейки на основе самостоятельно загруженных голосов, заблокировали аккаунты с жалобами на оскорбительный контент.

Увы, все эти меры хоть и полезны, но все же не решают проблему использования голосовых дипфейков в низменных целях.

Как еще обманывают дипфейками

Хотя сама по себе технология дипфейков и безвредна, в руках мошенников она может стать опасным инструментом для обмана, дискредитации или дезинформации. К счастью, массовых случаев афер с использованием подмены голоса пока не наблюдалось, но несколько громких прецедентов с применением голосовых дипфейков уже произошло.

В 2019 году мошенники, используя эту технологию, ограбили британскую энергетическую компанию. В телефонном разговоре злоумышленник притворился генеральным директором головного немецкого подразделения компании и потребовал срочно перевести 220 000€ (243 000$) на счета некоей компании-поставщика. После того как платеж был отправлен, мошенник звонил еще дважды — первый раз, чтобы усыпить бдительность сотрудников британского офиса и сообщить, что головной офис уже отправил возмещение этой суммы, а второй — чтобы затребовать еще один перевод. При этом все три раза руководитель британского подразделения был абсолютно уверен, что беседует со своим боссом — он узнал как его немецкий акцент, так и тембр и манеру речи. Второй перевод не был отправлен лишь потому, что в последний раз мошенник прокололся и позвонил с австрийского номера вместо немецкого, что насторожило британского директора.

А в 2020 году с использованием голосовых дипфейков мошенникам удалось украсть до 35 000 000$ у некой японской компании (имя фирмы и общая сумма украденного не раскрываются следствием). Неизвестно, какие именно решения — открытые, платные или вообще собственные — использовали злоумышленники для подделки голоса, но в обоих случаях компании пострадали от дипфейк-мошенничества.

Что дальше?

По поводу будущего дипфейков мнения расходятся. Сейчас большая часть этих технологий находится в руках крупных корпораций и ограниченно доступна для публичного пользования. Но, как показывает история с гораздо более популярными в массах генеративными моделями вроде DALL-E, Midjourney и Stable Diffusion, а уж тем более — с большими языковыми моделями (кто же не слышал про ChatGPT?), подобные технологии вполне могут появиться в обозримом будущем в свободном доступе. Это подтверждается и недавней утечкой внутренней переписки Google, в которой представители Интернет-гиганта опасаются, что проиграют ИИ-гонку открытым решениям. А это, очевидно, спровоцирует рост случаев с использованием голосовых дипфейков, в том числе и для мошенничества.

Наиболее перспективным шагом в развитии дипфейков станет, очевидно, генерация в режиме реального времени, что обеспечит дипфейкам (и мошенничеству на их основе) взрывной рост. Только представьте видеозвонок от кого-то, чьи лицо и голос полностью подделаны. С другой стороны, подобный уровень обработки данных может потребовать огромных ресурсов, доступных лишь крупным корпорациям, поэтому лучшие технологии так и останутся закрытыми, а мошенники не смогут идти в ногу с профессионалами. В то же время высокая планка качества позволит пользователям научиться без труда определять любительские подделки.

Как защититься?

Теперь вернемся к самому первому вопросу: можем ли мы доверять голосам, которые слышим (разумеется, если это не голоса в голове)? Конечно, мы не должны постоянно параноить, выдумывая кодовые фразы для общения с друзьями и близкими — хотя для серьезных случаев и это не повредит. Если все будет развиваться по пессимистичному сценарию, дипфейк-технология в руках мошенников в будущем может стать грозным оружием, но время подготовиться к этому и построить надежные методы защиты от подделок еще есть. Проводится множество исследований, посвященных борьбе с дипфейками, крупными компаниями разрабатываются защитные решения. Кстати, мы уже подробно рассказывали о способах борьбы с видеодипфейками в отдельном посте.

А пока средства защиты от ИИ-подделок лишь на подходе, стоит помнить, что дипфейки — лишь вариант продвинутого социального инжиниринга. Риск столкнуться с подобным мошенничеством мал, но есть, поэтому про подобные виды обмана стоит знать и помнить. Если вам поступает необычный звонок, обращайте внимание на качество звучания, неестественную монотонность голоса, неразборчивость речи, шумы. Помните, что эффект неожиданности — это оружие злоумышленников, которые рассчитывают вызвать у вас панику. Всегда перепроверяйте информацию по другим каналам.

View the full article

Ссылка на комментарий
Поделиться на другие сайты

  • 3 недели спустя...

Пожалуйста, войдите, чтобы комментировать

Вы сможете оставить комментарий после входа в



Войти
  • Похожий контент

    • KL FC Bot
      Автор KL FC Bot
      Неизвестные злоумышленники активно атакуют серверы организаций, на которых установлены SharePoint Server 2016, SharePoint Server 2019 и SharePoint Server Subscription Edition. Благодаря эксплуатации цепочки из двух уязвимостей — CVE-2025-53770 (рейтинг CVSS — 9.8) и CVE-2025-53771 (рейтинг CVSS — 6,3), атакующие получают возможность запустить на сервере вредоносный код. Об опасности ситуации говорит тот факт, что патчи для уязвимостей были выпущены Microsoft поздно вечером в воскресенье. Для защиты инфраструктуры исследователи рекомендуют как можно скорее установить обновления.
      Суть атаки через CVE-2025-53770 и CVE-2025-53771
      Эксплуатация этой пары уязвимостей позволяет неаутентифицированным атакующим захватить контроль над серверами SharePoint, а следовательно, не только получить доступ ко всей хранящейся на них информации, но и использовать серверы для развития атаки на остальную инфраструктуру.
      Исследователи из EYE Security утверждают, что еще до публикации бюллетеней от Microsoft видели две волны атак при помощи этой цепочки уязвимостей, в результате которых были скомпрометированы десятки серверов. Атакующие устанавливают на уязвимые серверы SharePoint веб-шеллы, а также похищают криптографические ключи, которые позднее могут позволить им выдавать себя за легитимные сервисы или пользователей. Благодаря этому они смогут получить доступ к скомпрометированным серверам даже после того, как уязвимость будет закрыта, а зловреды уничтожены.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Попытки поставить целевой фишинг на поток мы наблюдаем уже достаточно давно. Как правило, они ограничиваются чуть лучшей стилизацией писем под конкретную компанию, имитацией корпоративного отправителя при помощи методики Ghost Spoofing и персонализацией послания (которая в лучшем случае заключается в обращении к жертве по имени). Однако в марте этого года мы начали регистрировать крайне любопытную рассылку, в которой персонализирован был не только текст в теле писем, но и вложенный документ. Да и сама схема была не совсем типичной — в ней жертву пытались заставить ввести корпоративные учетные данные от почты под предлогом изменений HR-политики.
      Письмо от злоумышленников: просьба ознакомиться с новыми HR-гайдлайнами
      Итак, жертва получает письмо, в котором якобы представители HR, обращаясь по имени, просят ознакомиться с изменениями HR-политики, касающимися протоколов удаленной работы, доступных рабочих льгот и стандартов безопасности. Разумеется, любому сотруднику важны изменения такого рода, курсор так и тянет к приложенному документу (в названии которого, к слову, тоже есть имя получателя). Тем более в письме такая красивая плашка, в которой сказано, что отправитель подтвержденный, сообщение пришло из листа безопасных адресатов. Но как показывает практика, именно в таких случаях к письму стоит присмотреться повнимательнее.
       
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      При знакомстве с рейтингом CVSS (Common Vulnerability Scoring System) многим кажется, что он прекрасно подходит для сортировки уязвимостей и их приоритизации: если больше цифра рейтинга, значит уязвимость важнее. На практике этот подход не срабатывает. Уязвимостей с высоким рейтингом каждый год становится все больше, закрывать их все команды ИБ не успевают, при этом львиная доля этих дефектов никогда не эксплуатируется в реальных атаках. В то же время злоумышленники то и дело используют менее броские уязвимости с невысоким рейтингом. Есть и другие подводные камни — от чисто технических (конфликтующие оценки CVSS) до концептуальных (отсутствие бизнес-контекста).
      Считать это недостатками самого рейтинга CVSS нельзя, нужно просто применять этот инструмент правильно: в рамках более сложного и комплексного процесса управления уязвимостями.
      Разночтения CVSS
      Иногда одна и та же уязвимость получает разную оценку критичности в доступных источниках: у исследователя ИБ, который ее нашел; у производителя уязвимого ПО; в национальном реестре уязвимостей. Кроме банальных ошибок у этих разночтений может быть и более серьезная причина — разные эксперты могут расходиться в оценках контекста эксплуатации: например, о том, с какими привилегиями выполняется уязвимое приложение, доступно ли оно из Интернета, и так далее. Производитель может ориентироваться здесь на свои рекомендации лучших практик, а исследователь ИБ — на то, как приложения настроены в реальных организациях. Один исследователь может оценить сложность эксплуатации как высокую, а другой — как низкую. Все это далеко не редкость. В исследовании VulnCheck, проведенном в 2023 году, подсчитали, что 20% уязвимостей из NVD содержат два рейтинга CVSS3 из разных источников и 56% этих парных оценок конфликтуют между собой.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Мошенники постоянно что-нибудь «раздают»: то бесплатные подписки в Telegram, то криптовалюту, то NFT-кроссовки. В новой схеме все по-простому: «раздают» сразу деньги — точнее, делятся способом, как их якобы законно можно получить.
      Жулики с помощью ИИ создали двухминутный ролик, где «журналИИсты» и одна знаменитость рассказывают байки: «Каждый человек может получить компенсацию, для этого нужно всего лишь…». Читайте эту историю, чтобы узнать, что просят сделать жертв и как теперь мошенники завлекают людей в свои схемы.
      Как действуют мошенники
      В рамках этой кампании были разработаны фишинговые сайты, на которых как раз и размещалось видео. Вы не сможете найти его на YouTube или других видеохостингах (извините, но ради вашей безопасности мы тоже им не поделимся), потому что там подобный ИИ-контент довольно-таки быстро удаляют. С подконтрольными злоумышленникам сайтами все сложнее, особенно когда ссылки на них рассылают в почте и мессенджерах.
      Теперь о самом интересном: о видео. Выглядит оно как свежий выпуск бразильских новостей, но с одним нюансом. Новости — фейковые, они «сняты» без согласия журналистов. Мошенники в качестве фактуры использовали настоящий выпуск новостей, на который наложили закадровую озвучку, сделанную с помощью ИИ, а также синхронизировали движения губ с новым текстом. Итак, ИИ-клоны реальных журналистов рассуждают о «нарушениях», допущенных одним из популярнейших банков страны.
      «Банковские балансы клиентов уменьшаются без всякой причины или даже полностью обнуляются». «Несправедливо блокируются счета». «Процентные ставки по кредитам завышаются». Часть фейковой статьи, созданной ИИ для этой схемы
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Присутствие в Интернете сегодня неизбежно. Все больше и больше повседневных процессов происходят онлайн, и, если вы не моряк и не лесничий, жить в офлайне теперь — привилегия. По примерным оценкам, каждый из нас генерирует ежечасно от двух до трех гигабайт данных — через смартфоны, IoT-устройства и онлайн-сервисы. При этом 71% тех же американцев обеспокоены сбором информации государством, а 81% — корпорациями. Сегодня мы разберем обычный день современного человека, чтобы понять, где и как мы оставляем цифровые следы привычными действиями и что с этим делать.
      Утренние ритуалы: как следят смартфон и браузер
      Вы встали, узнали погоду на сегодня, полистали рилсы, что-то полайкали, вбили свой маршрут на работу и выяснили, через какие пробки вам придется продираться. С настройкой приватности в соцсетях все очевидно: ее надо подкрутить, чтобы подписанные на вас родители и коллеги не поседели от вашего чувства юмора, и поможет в этом наш сайт Privacy Checker. Сложнее с геопозицией, которую любят собирать все кому не лень. Мы уже подробно рассказывали о том, как смартфоны собирают на вас досье, и о том, кто такие брокеры данных геолокации и что происходит, когда они «протекают».
      Только представьте: около половины популярных Android-приложений запрашивают геолокацию там, где она не нужна. А браузеры Chrome и Safari по умолчанию разрешают кросс-доменное отслеживание cookies, что позволяет рекламным сетям строить детальные профили пользователей под персонализированную рекламу. В ход идет почти вся телеметрия смартфона, позволяющая составлять детальный портрет потребителя без кастдевов и фокус-групп. Лучший маркетолог — у вас в кармане, только вот работает он не на вас. Как быть?
       
      View the full article
×
×
  • Создать...