Перейти к содержанию

Голосовые дипфейки: технологии, перспективы, аферы | Блог Касперского


Рекомендуемые сообщения

Опубликовано

Вы когда-нибудь задумывались над тем, как мы понимаем, с кем говорим по телефону? Очевидно, не только по отображающемуся на экране имени. Ведь если при звонке с известного номера мы услышим незнакомый голос, то сразу поймем: что-то не так. Чтобы определить, кто наш собеседник, мы неосознанно оцениваем тембр, манеру речи, интонацию. Но насколько надежно полагаться на слух в эпоху развития цифровых технологий и искусственного интеллекта? Как показывают последние новости, не всегда стоит доверять тому, что мы слышим, — это может быть подделка. Дипфейк.

Помоги, я в беде

Весной 2023 года мошенники в Аризоне попытались выманить у женщины деньги с помощью телефонного звонка. Голос ее пятнадцатилетней дочери умолял о помощи, а после неизвестный мужчина выхватил телефон и, угрожая, потребовал выкуп — а фоном продолжали звучать крики дочери. Мать была абсолютно уверена, что действительно слышит голос своего ребенка. К счастью, ей удалось быстро убедиться, что с дочкой все в порядке, и понять, что ей звонили мошенники.

Нельзя утверждать на 100%, что злоумышленники в этом случае использовали именно дипфейк для имитации голоса подростка. Возможно, это была попытка «обычного» мошенничества: качество связи, неожиданность ситуации, стресс — и воображение матери дорисовало все необходимое, чтобы поверить в этот фейк. Но даже если в этом случае и не использовались нейросетевые технологии, по мере их развития подобные случаи могут происходить чаще, становиться убедительнее и опаснее. Для того чтобы бороться с применением дипфейк-технологии злоумышленниками, необходимо понимать, как она работает.

Что такое дипфейк?

Технология искусственного интеллекта под названием deepfake (от deep learning «глубинное обучение» + fake «подделка») активно развивается последние несколько лет. С использованием машинного обучения можно создавать убедительные подделки изображений, видео- или аудиоданных. Так, с помощью нейросетей на фотографиях и в видео легко можно заменить лицо одного человека другим с сохранением мимики и освещения. И если на заре технологии качество таких подделок было очень низким и легко определялось на глаз, то по мере развития алгоритмов результат становился все убедительнее, и теперь его уже сложно отличить от реальности. В 2022 году в России даже выпустили первый в мире дипфейк-сериал, главные роли в котором очень убедительно «сыграли» дипфейки Джейсона Стэйтема, Марго Робби, Киану Ривза и Роберта Паттинсона.

Дипфейк-версии голливудских звезд в российском сериале "ПМЖейсон"

Дипфейк-версии голливудских звезд в российском сериале «ПМЖейсон». (Источник)

Голосовой перенос

Но сегодня мы поговорим о технологиях создания голосовых дипфейков. Иначе эту задачу можно назвать «переносом голоса» (или «клонированием голоса», если создают его полную цифровую копию). Перенос голоса базируется на автокодировщиках — определенном типе нейронных сетей, которые сначала сжимают входные данные (часть Encoder) до компактного внутреннего представления, а затем учатся разжимать их из этого представления обратно (часть Decoder), чтобы восстановить исходные данные. Так модель учится представлять данные в сжатом виде, выделяя при этом основную информацию.

Схема автокодировщика.

Схема автокодировщика. (Источник)

Для создания голосовых дипфейков на вход модели подаются две аудиозаписи, при этом голос со второй записи переносится на первую. Из первого аудиоролика с помощью Content Encoder выделяется, что было сказано, из второго с использованием Speaker Encoder извлекаются глобальные характеристики желаемого голоса – то есть как говорит наш «целевой» человек. Сжатые представления того, что и как должно быть сказано, объединяются, а затем с помощью декодера генерируется результат. В результате сказанное в первой записи озвучивается голосом человека из второй записи.

Процесс создания голосового дипфейка

Процесс создания голосового дипфейка. (Источник)

Помимо приведенного подхода на автокодировщиках существуют и другие, например с использованием генеративно-состязательных сетей (GAN) или диффузионных моделей. Исследования по созданию дипфейков активно поддерживаются, например, благодаря киноиндустрии: ведь объединив технологии аудио- и видеодипфейков, уже сейчас можно заменять лица актеров в кино и сериалах, выполнять дубляж кинофильмов с синхронизацией мимики героев с озвучкой на любом языке.

Переходим к практике

Изучая дипфейк-технологии, мы, разумеется, задались вопросом — насколько сложно создать собственный голосовой дипфейк? Оказалось, что в Сети можно найти множество бесплатных открытых инструментов для решения задач преобразования голоса — правда, получить качественный результат с их использованием будет не так-то просто. Понадобятся опыт программирования на Python и навыки работы в программах обработки звука, и все равно качество будет далеко не идеальным. Но, помимо open source, существуют также закрытые и платные решения.

Так, в начале 2023 года Microsoft анонсировала алгоритм, способный по аудиопримеру продолжительностью всего в три секунды воспроизвести голос человека! Кроме того, эта модель позволяет работать с несколькими языками, что позволяет вам услышать себя, разговаривающего на иностранном языке. Все это выглядит многообещающе, но доступно пока лишь в формате исследования. А вот платформа ElevenLabs на своем сайте предоставила пользователям возможность создания голосовых дипфейков без каких-либо усилий: достаточно загрузить аудиозапись голоса и текст, который нужно произнести — и результат готов. Разумеется, технологию тут же начали применять как бог на душу положит.

Борьба Гермионы и доверчивый банк

В полном соответствии с законом Годвина, в уста актрисы Эммы Уотсон вложили текст «Майн кампф», а один из пользователей применил технологию ElevenLabs для «взлома» собственного банковского аккаунта. Звучит жутковато? Да, особенно с учетом популярных в народе страшилок о том, что мошенники собирают образцы голосов, вынуждая сказать «да» или «подтверждаю» в телефонном разговоре с представителями якобы банка, госучреждения или службы соцопросов, а затем крадут деньги с помощью голосовой авторизации.

Но на деле все не так ужасно. Во-первых, для создания искусственного голоса ElevenLabs требуется около пяти минут аудиозаписей, так что простого «да» будет маловато. Во-вторых, банки тоже предусматривают подобные сценарии, поэтому голосом возможно инициировать лишь некоторые операции, не связанные с переводом средств, например узнать баланс счета. То есть украсть деньги таким образом не получится.

К чести ElevenLabs, они быстро отреагировали на возникшую проблему: отрегулировали правила пользования сервисом, запретив бесплатным (читай — анонимным) пользователям создавать дипфейки на основе самостоятельно загруженных голосов, заблокировали аккаунты с жалобами на оскорбительный контент.

Увы, все эти меры хоть и полезны, но все же не решают проблему использования голосовых дипфейков в низменных целях.

Как еще обманывают дипфейками

Хотя сама по себе технология дипфейков и безвредна, в руках мошенников она может стать опасным инструментом для обмана, дискредитации или дезинформации. К счастью, массовых случаев афер с использованием подмены голоса пока не наблюдалось, но несколько громких прецедентов с применением голосовых дипфейков уже произошло.

В 2019 году мошенники, используя эту технологию, ограбили британскую энергетическую компанию. В телефонном разговоре злоумышленник притворился генеральным директором головного немецкого подразделения компании и потребовал срочно перевести 220 000€ (243 000$) на счета некоей компании-поставщика. После того как платеж был отправлен, мошенник звонил еще дважды — первый раз, чтобы усыпить бдительность сотрудников британского офиса и сообщить, что головной офис уже отправил возмещение этой суммы, а второй — чтобы затребовать еще один перевод. При этом все три раза руководитель британского подразделения был абсолютно уверен, что беседует со своим боссом — он узнал как его немецкий акцент, так и тембр и манеру речи. Второй перевод не был отправлен лишь потому, что в последний раз мошенник прокололся и позвонил с австрийского номера вместо немецкого, что насторожило британского директора.

А в 2020 году с использованием голосовых дипфейков мошенникам удалось украсть до 35 000 000$ у некой японской компании (имя фирмы и общая сумма украденного не раскрываются следствием). Неизвестно, какие именно решения — открытые, платные или вообще собственные — использовали злоумышленники для подделки голоса, но в обоих случаях компании пострадали от дипфейк-мошенничества.

Что дальше?

По поводу будущего дипфейков мнения расходятся. Сейчас большая часть этих технологий находится в руках крупных корпораций и ограниченно доступна для публичного пользования. Но, как показывает история с гораздо более популярными в массах генеративными моделями вроде DALL-E, Midjourney и Stable Diffusion, а уж тем более — с большими языковыми моделями (кто же не слышал про ChatGPT?), подобные технологии вполне могут появиться в обозримом будущем в свободном доступе. Это подтверждается и недавней утечкой внутренней переписки Google, в которой представители Интернет-гиганта опасаются, что проиграют ИИ-гонку открытым решениям. А это, очевидно, спровоцирует рост случаев с использованием голосовых дипфейков, в том числе и для мошенничества.

Наиболее перспективным шагом в развитии дипфейков станет, очевидно, генерация в режиме реального времени, что обеспечит дипфейкам (и мошенничеству на их основе) взрывной рост. Только представьте видеозвонок от кого-то, чьи лицо и голос полностью подделаны. С другой стороны, подобный уровень обработки данных может потребовать огромных ресурсов, доступных лишь крупным корпорациям, поэтому лучшие технологии так и останутся закрытыми, а мошенники не смогут идти в ногу с профессионалами. В то же время высокая планка качества позволит пользователям научиться без труда определять любительские подделки.

Как защититься?

Теперь вернемся к самому первому вопросу: можем ли мы доверять голосам, которые слышим (разумеется, если это не голоса в голове)? Конечно, мы не должны постоянно параноить, выдумывая кодовые фразы для общения с друзьями и близкими — хотя для серьезных случаев и это не повредит. Если все будет развиваться по пессимистичному сценарию, дипфейк-технология в руках мошенников в будущем может стать грозным оружием, но время подготовиться к этому и построить надежные методы защиты от подделок еще есть. Проводится множество исследований, посвященных борьбе с дипфейками, крупными компаниями разрабатываются защитные решения. Кстати, мы уже подробно рассказывали о способах борьбы с видеодипфейками в отдельном посте.

А пока средства защиты от ИИ-подделок лишь на подходе, стоит помнить, что дипфейки — лишь вариант продвинутого социального инжиниринга. Риск столкнуться с подобным мошенничеством мал, но есть, поэтому про подобные виды обмана стоит знать и помнить. Если вам поступает необычный звонок, обращайте внимание на качество звучания, неестественную монотонность голоса, неразборчивость речи, шумы. Помните, что эффект неожиданности — это оружие злоумышленников, которые рассчитывают вызвать у вас панику. Всегда перепроверяйте информацию по другим каналам.

View the full article

  • 3 недели спустя...
Опубликовано

Подставить человека могут с такой технологией. Составить компромат, сотканный из лжи и обмана

Пожалуйста, войдите, чтобы комментировать

Вы сможете оставить комментарий после входа в



Войти
  • Похожий контент

    • KL FC Bot
      Автор KL FC Bot
      Технологию ключей доступа (КД, passkeys) рекламируют все ИТ-гиганты как эффективную и удобную замену паролям, которая может покончить с фишингом и утечками учетных данных. Суть в следующем — человек входит в систему при помощи криптографического ключа, сохраненного в специальном аппаратном модуле на его устройстве, а разблокирует эти данные при помощи биометрии или ПИН-кода. Мы подробно разобрали текущее положение дел с passkeys для домашних пользователей в двух статьях (терминология и базовые сценарии использования, сложные случаи), но у компаний к ИБ-технологиям совершенно другие требования и подходы. Насколько хороши ключи доступа и FIDO2 WebAuthn в корпоративной среде?
      Мотивы перехода на passkeys в компании
      Как и любая крупная миграция, переход на ключи доступа требует бизнес-обоснования. В теории passkeys решают сразу несколько злободневных проблем:
      Снижают риски компрометации компании с использованием кражи легитимных учетных записей (устойчивость к фишингу — главное заявленное преимущество КД). Повышают устойчивость к другим видам атак на identity, таким как перебор паролей — brute forcing, credential stuffing. Помогают соответствовать регуляторным требованиям. Во многих индустриях регуляторы обязуют применять для аутентификации сотрудников устойчивые методы, и passkeys обычно признаются таковыми. Снижают затраты. Если компания выбрала passkeys, хранящиеся в ноутбуках и смартфонах, то высокого уровня безопасности можно достичь без дополнительных затрат на USB-устройства, смарт-карты, их администрирование и логистику. Повышают продуктивность сотрудников. Хорошо налаженный процесс аутентификации повседневно экономит время каждому сотруднику и снижает процент неудачных входов в ИТ-системы. Также переход на КД обычно увязывают с отменой всем привычных и ненавистных регулярных смен пароля. Снижают нагрузку на хелпдеск за счет уменьшения числа заявок, связанных с забытыми паролями и заблокированными учетными записями.  
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      До недавнего времени злоумышленники в основном интересовались криптокошельками исключительно домашних пользователей. Однако, по всей видимости, бизнес все чаще стал использовать криптовалюту — теперь злоумышленники пытаются добраться и до кошельков организаций. За примерами далеко ходить не надо. Недавно исследованный коллегами зловред Efimer, рассылаемый организациям, умеет подменять адреса криптокошельков в буфере обмена. В России организации не имеют права рассчитываться криптовалютой, но, тем не менее, некоторые используют ее в качестве инвестиций. Поэтому функциональность, связанная с криптокошельками, появилась даже в зловредах, используемых в атаках исключительно на российские организации. Вредоносное ПО семейства Pure, например, не только подменяет адреса в буфере, но также охотится и за учетными данными программных криптокошельков. Поэтому мы не очень удивились, когда увидели и криптовалютный фишинг, направленный не только на домашних, но и на корпоративных пользователей. Чему мы удивились, так это легенде и, в целом, качеству этого фишинга.
      Фишинговая схема
      Сама по себе схема нацелена на пользователей аппаратных криптокошельков Ledger: Nano X и Nano S Plus. Злоумышленники рассылают фишинговое письмо, в котором многословно извиняются за допущенный промах — якобы из-за технического недочета сегменты приватного ключа от криптокошелька были переданы на сервер Ledger. И он в общем-то был очень хорошо защищен и зашифрован, но вот команда обнаружила очень сложную утечку, в ходе которой атакующие эксфильтрировали фрагменты ключей и при помощи крайне продвинутых методов расшифровали их и реконструировали часть ключей, что привело к краже криптоактивов. И чтобы через эту уязвимость не взломали еще и ваш криптокошелек, авторы письма рекомендуют немедленно обновить микропрошивку устройства.
      Фишинговое предупреждение о необходимости обновления микропрошивки
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Исследователи Маттео Риццо и Энди Нгуен из компании Google опубликовали работу, в которой предложили усовершенствованную атаку Retbleed. Как мы объясняли в одном из предыдущих постов, атака Retbleed эксплуатирует уязвимости в процессорах AMD Zen и Zen 2, а также в процессорах Intel поколений Kaby Lake и Coffee Lake. Аппаратные уязвимости такого рода крайне сложно использовать на практике, из-за чего всевозможные варианты Spectre, а также производные атаки, типа Retbleed, остаются по большому счету теоретическими. Хотя методы борьбы с ними внедряют и создатели процессоров, и разработчики ПО. Суть работы исследователей Google заключается в повышении эффективности атаки Retbleed. Не меняя ничего кардинально в архитектуре атаки, они смоги использовать особенности процессоров AMD Zen 2, чтобы читать произвольные данные из оперативной памяти.
      Кратко о Retbleed
      Retbleed, как и Spectre, эксплуатирует особенности так называемой системы предсказания ветвлений центрального процессора. Предсказание ветвлений позволяет процессору выполнять инструкции заранее, не дожидаясь результатов предыдущих вычислений. Иногда предсказание оказывается неправильным, но в норме это должно приводить только к небольшому и незаметному для пользователя замедлению работы программы.
      Атака Spectre в 2018 году показала, что неправильные предсказания могут быть использованы для кражи секретов. Это возможно благодаря двум ключевым особенностям. Во-первых, систему предсказания ветвлений можно натренировать так, что произойдет обращение к области памяти с секретными данными, и они будут загружены в кэш-память процессора. Во-вторых, был найден способ вытащить эти секретные данные из кэш-памяти по стороннему каналу, измеряя время выполнения определенной инструкции.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Подключенную к компьютеру веб-камеру обычно подозревают в подглядывании, но теперь ей придумали роль в традиционных кибератаках. На конференции Black Hat описали атаку BadCam, которая позволяет перепрошить камеру, а затем выполнять на компьютере, к которому она подключена, вредоносные действия. По сути это вариант давно известной атаки типа BadUSB, однако главное отличие BadCam заключается в том, что атакующим необязательно заранее готовить вредоносное устройство — они могут использовать изначально «чистую» и уже подключенную к компьютеру камеру. Еще одно неприятное новшество — атака может быть произведена полностью дистанционно. Хотя исследование провели этичные хакеры и BadCam еще не используется в реальных атаках, злоумышленникам будет несложно разобраться в ней и воспроизвести нужные действия. Поэтому организациям стоит понять механику BadCam и принять защитные меры.
      Возвращение BadUSB
      Атаку BadUSВ тоже представили на Black Hat, правда в 2014 году. Ее суть в том, что безобидное на вид устройство, например USB-накопитель, перепрограммируют, дополняя его прошивку. При подключении к компьютеру этот вредоносный гаджет «представляется» составным USB-устройством, имеющим несколько компонентов, таких как USB-накопитель, клавиатура или сетевой адаптер. Функции накопителя продолжают исправно работать, пользователь работает с флешкой как обычно. Одновременно скрытая часть прошивки, имитирующая клавиатуру, отправляет на компьютер команды, например клавиатурную комбинацию для запуска PowerShell и последующего ввода команд для загрузки из Сети вредоносных файлов или запуска туннеля к серверу атакующих. Функции BadUSB часто используют в работе современных red team, для этого обычно применяются специализированные «хакерские мультитулы» вроде Hak5 Rubber Ducky или Flipper Zero.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Современные злоумышленники всеми силами пытаются выдать свою активность за какие-либо нормальные процессы. Они используют легитимные инструменты, организовывают связь между зловредом и серверами управления через публичные сервисы, маскируют запуск вредоносного кода под действия пользователя. С точки зрения традиционных защитных решений такая активность практически незаметна. Однако если анализировать поведение конкретных пользователей или, например, служебных учетных записей, то можно выявить определенные аномалии. Именно в этом и заключается метод выявления киберугроз под названием UEBA — User and Entity Behavior Analytics (поведенческий анализ пользователей и сущностей). И именно он реализован в последней версии нашей SIEM-системы Kaspersky Unified Monitoring and Analysis Platform.
      Как работает UEBA в рамках SIEM
      Согласно определению, UEBA, или «поведенческий анализ пользователей и сущностей», это технология выявления киберугроз, основанная на анализе поведения пользователей, а также устройств, приложений и иных объектов в информационной системе. В принципе, такая технология может работать в рамках любого защитного решения, однако, на наш взгляд, наиболее эффективно ее использование на уровне SIEM-платформы. Используя машинное обучение для установления «нормального поведения» пользователя или объекта (машины, сервиса и так далее), SIEM-система, оснащенная правилами детектирования UEBA, может анализировать отклонения от типичного поведения. Это, в свою очередь, позволит своевременно обнаруживать APT, целевые атаки и инсайдерские угрозы.
      Именно поэтому мы оснастили нашу SIEM-систему KUMA пакетом правил UEBA, предназначенным для комплексного выявления аномалий в процессах аутентификации, в сетевой активности и при запуске процессов на рабочих станциях и серверах, работающих под управлением Windows. Это позволило сделать систему умнее в плане выявления новых атак, которые сложно обнаружить с помощью обычных правил корреляции, сигнатур или индикаторов компрометации. Каждое правило в пакете правил UEBA основано на профилировании поведения пользователей и объектов. Сами правила делятся на два типа.
      Статистические правила, которые рассчитываются с использованием межквартильного размаха для выявления аномалий на основе данных о текущем поведении. Правила на основе исторических данных, которые фиксируют отклонения от нормального поведения, определяемого путем анализа опыта предыдущей работы учетной записи или объекта. При обнаружении отклонений от исторических норм или статистических ожиданий происходит генерация алертов, а также повышается риск-оценка соответствующего объекта (пользователя или хоста). О том, каким образом наше SIEM-решение использует ИИ для риск-оценки объектов, можно прочитать в одной из прошлых статей.
       
      View the full article
×
×
  • Создать...