Перейти к содержанию

Голосовые дипфейки: технологии, перспективы, аферы | Блог Касперского


Рекомендуемые сообщения

Вы когда-нибудь задумывались над тем, как мы понимаем, с кем говорим по телефону? Очевидно, не только по отображающемуся на экране имени. Ведь если при звонке с известного номера мы услышим незнакомый голос, то сразу поймем: что-то не так. Чтобы определить, кто наш собеседник, мы неосознанно оцениваем тембр, манеру речи, интонацию. Но насколько надежно полагаться на слух в эпоху развития цифровых технологий и искусственного интеллекта? Как показывают последние новости, не всегда стоит доверять тому, что мы слышим, — это может быть подделка. Дипфейк.

Помоги, я в беде

Весной 2023 года мошенники в Аризоне попытались выманить у женщины деньги с помощью телефонного звонка. Голос ее пятнадцатилетней дочери умолял о помощи, а после неизвестный мужчина выхватил телефон и, угрожая, потребовал выкуп — а фоном продолжали звучать крики дочери. Мать была абсолютно уверена, что действительно слышит голос своего ребенка. К счастью, ей удалось быстро убедиться, что с дочкой все в порядке, и понять, что ей звонили мошенники.

Нельзя утверждать на 100%, что злоумышленники в этом случае использовали именно дипфейк для имитации голоса подростка. Возможно, это была попытка «обычного» мошенничества: качество связи, неожиданность ситуации, стресс — и воображение матери дорисовало все необходимое, чтобы поверить в этот фейк. Но даже если в этом случае и не использовались нейросетевые технологии, по мере их развития подобные случаи могут происходить чаще, становиться убедительнее и опаснее. Для того чтобы бороться с применением дипфейк-технологии злоумышленниками, необходимо понимать, как она работает.

Что такое дипфейк?

Технология искусственного интеллекта под названием deepfake (от deep learning «глубинное обучение» + fake «подделка») активно развивается последние несколько лет. С использованием машинного обучения можно создавать убедительные подделки изображений, видео- или аудиоданных. Так, с помощью нейросетей на фотографиях и в видео легко можно заменить лицо одного человека другим с сохранением мимики и освещения. И если на заре технологии качество таких подделок было очень низким и легко определялось на глаз, то по мере развития алгоритмов результат становился все убедительнее, и теперь его уже сложно отличить от реальности. В 2022 году в России даже выпустили первый в мире дипфейк-сериал, главные роли в котором очень убедительно «сыграли» дипфейки Джейсона Стэйтема, Марго Робби, Киану Ривза и Роберта Паттинсона.

Дипфейк-версии голливудских звезд в российском сериале "ПМЖейсон"

Дипфейк-версии голливудских звезд в российском сериале «ПМЖейсон». (Источник)

Голосовой перенос

Но сегодня мы поговорим о технологиях создания голосовых дипфейков. Иначе эту задачу можно назвать «переносом голоса» (или «клонированием голоса», если создают его полную цифровую копию). Перенос голоса базируется на автокодировщиках — определенном типе нейронных сетей, которые сначала сжимают входные данные (часть Encoder) до компактного внутреннего представления, а затем учатся разжимать их из этого представления обратно (часть Decoder), чтобы восстановить исходные данные. Так модель учится представлять данные в сжатом виде, выделяя при этом основную информацию.

Схема автокодировщика.

Схема автокодировщика. (Источник)

Для создания голосовых дипфейков на вход модели подаются две аудиозаписи, при этом голос со второй записи переносится на первую. Из первого аудиоролика с помощью Content Encoder выделяется, что было сказано, из второго с использованием Speaker Encoder извлекаются глобальные характеристики желаемого голоса – то есть как говорит наш «целевой» человек. Сжатые представления того, что и как должно быть сказано, объединяются, а затем с помощью декодера генерируется результат. В результате сказанное в первой записи озвучивается голосом человека из второй записи.

Процесс создания голосового дипфейка

Процесс создания голосового дипфейка. (Источник)

Помимо приведенного подхода на автокодировщиках существуют и другие, например с использованием генеративно-состязательных сетей (GAN) или диффузионных моделей. Исследования по созданию дипфейков активно поддерживаются, например, благодаря киноиндустрии: ведь объединив технологии аудио- и видеодипфейков, уже сейчас можно заменять лица актеров в кино и сериалах, выполнять дубляж кинофильмов с синхронизацией мимики героев с озвучкой на любом языке.

Переходим к практике

Изучая дипфейк-технологии, мы, разумеется, задались вопросом — насколько сложно создать собственный голосовой дипфейк? Оказалось, что в Сети можно найти множество бесплатных открытых инструментов для решения задач преобразования голоса — правда, получить качественный результат с их использованием будет не так-то просто. Понадобятся опыт программирования на Python и навыки работы в программах обработки звука, и все равно качество будет далеко не идеальным. Но, помимо open source, существуют также закрытые и платные решения.

Так, в начале 2023 года Microsoft анонсировала алгоритм, способный по аудиопримеру продолжительностью всего в три секунды воспроизвести голос человека! Кроме того, эта модель позволяет работать с несколькими языками, что позволяет вам услышать себя, разговаривающего на иностранном языке. Все это выглядит многообещающе, но доступно пока лишь в формате исследования. А вот платформа ElevenLabs на своем сайте предоставила пользователям возможность создания голосовых дипфейков без каких-либо усилий: достаточно загрузить аудиозапись голоса и текст, который нужно произнести — и результат готов. Разумеется, технологию тут же начали применять как бог на душу положит.

Борьба Гермионы и доверчивый банк

В полном соответствии с законом Годвина, в уста актрисы Эммы Уотсон вложили текст «Майн кампф», а один из пользователей применил технологию ElevenLabs для «взлома» собственного банковского аккаунта. Звучит жутковато? Да, особенно с учетом популярных в народе страшилок о том, что мошенники собирают образцы голосов, вынуждая сказать «да» или «подтверждаю» в телефонном разговоре с представителями якобы банка, госучреждения или службы соцопросов, а затем крадут деньги с помощью голосовой авторизации.

Но на деле все не так ужасно. Во-первых, для создания искусственного голоса ElevenLabs требуется около пяти минут аудиозаписей, так что простого «да» будет маловато. Во-вторых, банки тоже предусматривают подобные сценарии, поэтому голосом возможно инициировать лишь некоторые операции, не связанные с переводом средств, например узнать баланс счета. То есть украсть деньги таким образом не получится.

К чести ElevenLabs, они быстро отреагировали на возникшую проблему: отрегулировали правила пользования сервисом, запретив бесплатным (читай — анонимным) пользователям создавать дипфейки на основе самостоятельно загруженных голосов, заблокировали аккаунты с жалобами на оскорбительный контент.

Увы, все эти меры хоть и полезны, но все же не решают проблему использования голосовых дипфейков в низменных целях.

Как еще обманывают дипфейками

Хотя сама по себе технология дипфейков и безвредна, в руках мошенников она может стать опасным инструментом для обмана, дискредитации или дезинформации. К счастью, массовых случаев афер с использованием подмены голоса пока не наблюдалось, но несколько громких прецедентов с применением голосовых дипфейков уже произошло.

В 2019 году мошенники, используя эту технологию, ограбили британскую энергетическую компанию. В телефонном разговоре злоумышленник притворился генеральным директором головного немецкого подразделения компании и потребовал срочно перевести 220 000€ (243 000$) на счета некоей компании-поставщика. После того как платеж был отправлен, мошенник звонил еще дважды — первый раз, чтобы усыпить бдительность сотрудников британского офиса и сообщить, что головной офис уже отправил возмещение этой суммы, а второй — чтобы затребовать еще один перевод. При этом все три раза руководитель британского подразделения был абсолютно уверен, что беседует со своим боссом — он узнал как его немецкий акцент, так и тембр и манеру речи. Второй перевод не был отправлен лишь потому, что в последний раз мошенник прокололся и позвонил с австрийского номера вместо немецкого, что насторожило британского директора.

А в 2020 году с использованием голосовых дипфейков мошенникам удалось украсть до 35 000 000$ у некой японской компании (имя фирмы и общая сумма украденного не раскрываются следствием). Неизвестно, какие именно решения — открытые, платные или вообще собственные — использовали злоумышленники для подделки голоса, но в обоих случаях компании пострадали от дипфейк-мошенничества.

Что дальше?

По поводу будущего дипфейков мнения расходятся. Сейчас большая часть этих технологий находится в руках крупных корпораций и ограниченно доступна для публичного пользования. Но, как показывает история с гораздо более популярными в массах генеративными моделями вроде DALL-E, Midjourney и Stable Diffusion, а уж тем более — с большими языковыми моделями (кто же не слышал про ChatGPT?), подобные технологии вполне могут появиться в обозримом будущем в свободном доступе. Это подтверждается и недавней утечкой внутренней переписки Google, в которой представители Интернет-гиганта опасаются, что проиграют ИИ-гонку открытым решениям. А это, очевидно, спровоцирует рост случаев с использованием голосовых дипфейков, в том числе и для мошенничества.

Наиболее перспективным шагом в развитии дипфейков станет, очевидно, генерация в режиме реального времени, что обеспечит дипфейкам (и мошенничеству на их основе) взрывной рост. Только представьте видеозвонок от кого-то, чьи лицо и голос полностью подделаны. С другой стороны, подобный уровень обработки данных может потребовать огромных ресурсов, доступных лишь крупным корпорациям, поэтому лучшие технологии так и останутся закрытыми, а мошенники не смогут идти в ногу с профессионалами. В то же время высокая планка качества позволит пользователям научиться без труда определять любительские подделки.

Как защититься?

Теперь вернемся к самому первому вопросу: можем ли мы доверять голосам, которые слышим (разумеется, если это не голоса в голове)? Конечно, мы не должны постоянно параноить, выдумывая кодовые фразы для общения с друзьями и близкими — хотя для серьезных случаев и это не повредит. Если все будет развиваться по пессимистичному сценарию, дипфейк-технология в руках мошенников в будущем может стать грозным оружием, но время подготовиться к этому и построить надежные методы защиты от подделок еще есть. Проводится множество исследований, посвященных борьбе с дипфейками, крупными компаниями разрабатываются защитные решения. Кстати, мы уже подробно рассказывали о способах борьбы с видеодипфейками в отдельном посте.

А пока средства защиты от ИИ-подделок лишь на подходе, стоит помнить, что дипфейки — лишь вариант продвинутого социального инжиниринга. Риск столкнуться с подобным мошенничеством мал, но есть, поэтому про подобные виды обмана стоит знать и помнить. Если вам поступает необычный звонок, обращайте внимание на качество звучания, неестественную монотонность голоса, неразборчивость речи, шумы. Помните, что эффект неожиданности — это оружие злоумышленников, которые рассчитывают вызвать у вас панику. Всегда перепроверяйте информацию по другим каналам.

View the full article

Ссылка на комментарий
Поделиться на другие сайты

  • 3 недели спустя...

Пожалуйста, войдите, чтобы комментировать

Вы сможете оставить комментарий после входа в



Войти
  • Похожий контент

    • KL FC Bot
      Автор KL FC Bot
      Сейчас практически невозможно представить себе современную компанию, которая не рассказывает о применении искусственного интеллекта. Причем маркетологи далеко не всегда утруждают себя объяснением того, зачем ИИ в продукте нужен, а главное, как именно он там реализован, — им кажется, что самого факта применения достаточно для того, чтобы сделать продукт более ценным, инновационным и высокотехнологичным. Мы сторонники другого подхода — нам важно не просто сказать «у нас есть ИИ», а объяснить, как именно технологии машинного обучения и искусственного интеллекта применяются в наших решениях. Перечислять все наши ИИ-технологии в одном посте было бы слишком долго — у нас есть целый центр экспертизы AI Technology Research, который занимается различными аспектами ИИ. Поэтому в данном материале я сосредоточусь исключительно на технологиях, облегчающих жизнь SIEM-аналитика, работающего с Kaspersky Unified Monitoring and Analysis (KUMA).
      SIEM AI Asset Risk Scoring
      Традиционно одной из самых ресурсоемких задач аналитика SIEM является приоритизация алертов. Особенно если система только установлена и работает с дефолтными правилами корреляции из коробки, пока еще не подогнанными к реалиям конкретной компании. Помочь с этой проблемой могут технологии анализа больших данных и системы искусственного интеллекта — благодаря модулю SIEM AI Asset Risk Scoring команды мониторинга и реагирования могут определять приоритеты алертов и предотвращать потенциальный ущерб. Этот модуль служит для оценки рисков активов путем анализа исторических данных и тем самым помогает приоритизировать входящие оповещения, что, в свою очередь, ускоряет проведение триажа и позволяет генерировать гипотезы, которые можно использовать для проактивного поиска.

      На базе информации об активируемых цепочках правил корреляции SIEM AI Asset Risk Scoring позволяет строить паттерны нормальной активности на конечных точках. Затем, сравнивая с этими паттернами повседневную активность, модуль выявляет аномалии (например, резкие скачки трафика или множественные обращения к сервисам), которые могут говорить о том, что происходит реальный инцидент и аналитику следует глубже изучить именно эти алерты. Это позволяет обнаружить проблему на ранней стадии, до того как будет нанесен ущерб.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      В попытке обойти механизмы защитных решений злоумышленники все чаще прячут вредоносные и фишинговые ссылки внутрь QR-кодов. Поэтому в решение [KSMG placeholder] Kaspersky Secure Mail Gateway [/placeholder] мы добавили технологию, способную «читать» QR-коды (в том числе и спрятанные внутрь PDF-файлов), доставать из них ссылки и проверять их до того, как они окажутся в почтовом ящике сотрудника компании. Рассказываем, как это работает.
      Пример фишингового QR-кода внутри PDF-файла
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Поучительный инцидент с атакой ransomware-группировки Akira наверняка на несколько лет станет любимым примером ИБ-специалистов. Злоумышленники зашифровали компьютеры организации, воспользовавшись ее видеокамерой. Хотя звучит это очень странно, в развитии событий есть логика, которую легко применить к другой организации и другим устройствам в ее инфраструктуре.
      Анатомия атаки
      Злоумышленники проникли в сеть, проэксплуатировав уязвимость в публично доступном приложении и получив возможность выполнять команды на зараженном хосте. Они воспользовались этим, чтобы запустить популярное приложение дистанционного доступа AnyDesk, а затем инициировали с этого компьютера RDP-сессию для доступа к файл-серверу организации. На сервере они попытались запустить свой шифровальщик, но EDR-система, установленная в компании, опознала вредоносное ПО и поместила его в карантин. Увы, это не остановило атакующих.
      Не имея возможности запустить свой шифровальщик на серверах и обычных компьютерах, которые находятся под защитой EDR, атакующие запустили сканирование внутренней сети и обнаружили в ней сетевую видеокамеру. В отчете команды по расследованию инцидента это устройство постоянно называют веб-камерой (webcam), но мы все же полагаем, что речь не о камере ноутбука или смартфона, а о независимом сетевом устройстве, применяемом для видеонаблюдения.
      Камера стала прекрасной мишенью для атакующих по нескольким причинам:
      устройство давно не обновлялось, его прошивка содержала уязвимости, позволяющие дистанционно скомпрометировать камеру и получить на ней права на запуск оболочки (remote shell); камера работает под управлением облегченной сборки Linux, на которой можно запускать обычные исполнимые файлы этой ОС, например Linux-шифровальщик, имеющийся в арсенале Akira; это специализированное устройство не имело (и, скорее всего, не могло иметь) ни агента EDR, ни других защитных средств, которые могли бы определить вредоносную активность. Злоумышленники смогли установить свое вредоносное ПО на эту камеру и зашифровать серверы организации прямо с нее.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Мы живём в эпоху ИИ-хайпа. Искусственный интеллект там, сям, здесь и там, везде и весь такой перспективный, слегка загадочный, но непременно сопровождающий человечество в светлое будущее технологической пока ещё непонятной чёрнодырочной сингулярности.
      Вероятно, некоторый читатель мог заметить в предыдущем предложении сарказм – а зря. Автоматизация на основе машинного обучения (ещё один термин: «ML» = «machine learning»), нейросетей и прочего ИИ уже подмяла под себя многие отрасли нашей жизни, и то ли ещё будет на линии хомосапиенсного развития. Кому интересно нырнуть в тему – поищите что уже случилось по линии промышленных революций Один, Два, Три и даже Четыре.
      В этом тренде кибербезопасность была, пожалуй, одним из пионеров использования новых, умных технологий. А что мне особенно приятно и гордо в этом процессе – наша компания была одной из первых в отрасли, начавших успешно внедрять это самое светлое ИИ-будущее. А как иначе справляться, например, с почти полумиллионом (на начало 2025 года) новых зловредов каждый день? Столько экспертов ни одна образовательная система мира не выпустит. Выход один – создавать умные системы, способные самостоятельно и с высокой точностью нейтрализовывать кибератаки. Экспертам же оставлять только самые сложные случаи и, конечно, непростую задачу такие системы изобретать и постоянно докручивать.
      На днях у нас случился радостный юбилей. 20 лет назад зародился прототип самой первой ИИ/ML технологии для автоматического анализа вредоносного кода и производства «детектов» – антивирусных обновлений, которые защищают компьютеры, гаджеты и прочие устройства от новых атак.
      Технология получила с первого взгляда странное название «Автодятел». Но на самом деле здесь всё просто: «дятлами» у нас ласково и в шутку назывались эксперты-аналитики, «долбящие» вирусы обрабатывающие входящий поток подозрительных файлов, а, соответственно, «автодятел» выполнял эту работу сам. Кстати, в то время я тоже работал «дятлом».
      Покопав архивы, мы нашли не только дату рождения первого птенца автоматИИзации, но и любопытные фотографии планов по его созданию. И место рождения вспомнили. Гнездо располагалось на 14 этаже здания «Радиофизики» на Планерной, где мы тогда снимали офис. Теперь устраивайтесь поудобнее, я расскажу вам увлекательную историю. Начиналось всё примерно вот как.
      С четверть века назад зловреды и встречались куда реже, да и были куда технологичнее современных, хотя писали их пионеры-энтузиасты, изобретательные программисты-одиночки и киберхулиганы. Поэтому и исследовать их было одно удовольствие — что ни вирус, то что-то новое узнаёшь, чему-то учишься. Я тогда вместе с остальными «дятлами» собственноручно «долбил» зловредов — анализировал поток вредоносных программ, если по-научному. Разумеется, к этому моменту собрать все существующие зловреды в одну книжку как в 1992 году уже было сложновато, но тем не менее с потоком мы справлялись, а в конце каждой рабочей недели я вручную собирал обновление антивирусных баз.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Не так давно на нашем блоге для ИБ-исследователей Securelist вышел пост об атаке на российские промышленные предприятия с использованием бэкдора PhantomPyramid, которую наши эксперты с высокой степенью уверенности атрибутируют группе Head Mare. Атака была достаточно стандартной — письмо, якобы содержащее конфиденциальную информацию плюс архив со зловредом, пароль для распаковки которого находится прямо в теле письма. Но интересен способ, при помощи которого злоумышленники прятали свой вредоносный код в, казалось бы, безобидном файле, — для этого они использовали технику polyglot.
      Что такое техника polyglot
      В матрице MITRE ATT&CK polyglot-файлы описываются как файлы, относящиеся сразу к нескольким типам и работающие по-разному в зависимости от приложения, в котором они запущены. Используются они для маскировки зловредов — для пользователя, а также для некоторых защитных механизмов они могут выглядеть как что-то совершенно безопасное, например картинка или документ. А по факту внутри находится вредоносный код. Причем код может быть написан сразу на нескольких языках программирования.
      Злоумышленники используют самое разное сочетание форматов. Компания Unit42 исследовала атаку с применением файла контекстной справки в формате Microsoft Compiled HTML Help (расширение .chm), который одновременно является HTML-приложением (файлом в формате .hta). Исследователи также описывают применение картинки в формате .jpeg, внутри которой по факту находится PHP-архив .phar. В случае с атакой, исследованной нашими экспертами, внутри архива .zip был спрятан исполняемый код.
      .
      View the full article
×
×
  • Создать...