Перейти к содержанию

Голосовые дипфейки: технологии, перспективы, аферы | Блог Касперского


Рекомендуемые сообщения

Вы когда-нибудь задумывались над тем, как мы понимаем, с кем говорим по телефону? Очевидно, не только по отображающемуся на экране имени. Ведь если при звонке с известного номера мы услышим незнакомый голос, то сразу поймем: что-то не так. Чтобы определить, кто наш собеседник, мы неосознанно оцениваем тембр, манеру речи, интонацию. Но насколько надежно полагаться на слух в эпоху развития цифровых технологий и искусственного интеллекта? Как показывают последние новости, не всегда стоит доверять тому, что мы слышим, — это может быть подделка. Дипфейк.

Помоги, я в беде

Весной 2023 года мошенники в Аризоне попытались выманить у женщины деньги с помощью телефонного звонка. Голос ее пятнадцатилетней дочери умолял о помощи, а после неизвестный мужчина выхватил телефон и, угрожая, потребовал выкуп — а фоном продолжали звучать крики дочери. Мать была абсолютно уверена, что действительно слышит голос своего ребенка. К счастью, ей удалось быстро убедиться, что с дочкой все в порядке, и понять, что ей звонили мошенники.

Нельзя утверждать на 100%, что злоумышленники в этом случае использовали именно дипфейк для имитации голоса подростка. Возможно, это была попытка «обычного» мошенничества: качество связи, неожиданность ситуации, стресс — и воображение матери дорисовало все необходимое, чтобы поверить в этот фейк. Но даже если в этом случае и не использовались нейросетевые технологии, по мере их развития подобные случаи могут происходить чаще, становиться убедительнее и опаснее. Для того чтобы бороться с применением дипфейк-технологии злоумышленниками, необходимо понимать, как она работает.

Что такое дипфейк?

Технология искусственного интеллекта под названием deepfake (от deep learning «глубинное обучение» + fake «подделка») активно развивается последние несколько лет. С использованием машинного обучения можно создавать убедительные подделки изображений, видео- или аудиоданных. Так, с помощью нейросетей на фотографиях и в видео легко можно заменить лицо одного человека другим с сохранением мимики и освещения. И если на заре технологии качество таких подделок было очень низким и легко определялось на глаз, то по мере развития алгоритмов результат становился все убедительнее, и теперь его уже сложно отличить от реальности. В 2022 году в России даже выпустили первый в мире дипфейк-сериал, главные роли в котором очень убедительно «сыграли» дипфейки Джейсона Стэйтема, Марго Робби, Киану Ривза и Роберта Паттинсона.

Дипфейк-версии голливудских звезд в российском сериале "ПМЖейсон"

Дипфейк-версии голливудских звезд в российском сериале «ПМЖейсон». (Источник)

Голосовой перенос

Но сегодня мы поговорим о технологиях создания голосовых дипфейков. Иначе эту задачу можно назвать «переносом голоса» (или «клонированием голоса», если создают его полную цифровую копию). Перенос голоса базируется на автокодировщиках — определенном типе нейронных сетей, которые сначала сжимают входные данные (часть Encoder) до компактного внутреннего представления, а затем учатся разжимать их из этого представления обратно (часть Decoder), чтобы восстановить исходные данные. Так модель учится представлять данные в сжатом виде, выделяя при этом основную информацию.

Схема автокодировщика.

Схема автокодировщика. (Источник)

Для создания голосовых дипфейков на вход модели подаются две аудиозаписи, при этом голос со второй записи переносится на первую. Из первого аудиоролика с помощью Content Encoder выделяется, что было сказано, из второго с использованием Speaker Encoder извлекаются глобальные характеристики желаемого голоса – то есть как говорит наш «целевой» человек. Сжатые представления того, что и как должно быть сказано, объединяются, а затем с помощью декодера генерируется результат. В результате сказанное в первой записи озвучивается голосом человека из второй записи.

Процесс создания голосового дипфейка

Процесс создания голосового дипфейка. (Источник)

Помимо приведенного подхода на автокодировщиках существуют и другие, например с использованием генеративно-состязательных сетей (GAN) или диффузионных моделей. Исследования по созданию дипфейков активно поддерживаются, например, благодаря киноиндустрии: ведь объединив технологии аудио- и видеодипфейков, уже сейчас можно заменять лица актеров в кино и сериалах, выполнять дубляж кинофильмов с синхронизацией мимики героев с озвучкой на любом языке.

Переходим к практике

Изучая дипфейк-технологии, мы, разумеется, задались вопросом — насколько сложно создать собственный голосовой дипфейк? Оказалось, что в Сети можно найти множество бесплатных открытых инструментов для решения задач преобразования голоса — правда, получить качественный результат с их использованием будет не так-то просто. Понадобятся опыт программирования на Python и навыки работы в программах обработки звука, и все равно качество будет далеко не идеальным. Но, помимо open source, существуют также закрытые и платные решения.

Так, в начале 2023 года Microsoft анонсировала алгоритм, способный по аудиопримеру продолжительностью всего в три секунды воспроизвести голос человека! Кроме того, эта модель позволяет работать с несколькими языками, что позволяет вам услышать себя, разговаривающего на иностранном языке. Все это выглядит многообещающе, но доступно пока лишь в формате исследования. А вот платформа ElevenLabs на своем сайте предоставила пользователям возможность создания голосовых дипфейков без каких-либо усилий: достаточно загрузить аудиозапись голоса и текст, который нужно произнести — и результат готов. Разумеется, технологию тут же начали применять как бог на душу положит.

Борьба Гермионы и доверчивый банк

В полном соответствии с законом Годвина, в уста актрисы Эммы Уотсон вложили текст «Майн кампф», а один из пользователей применил технологию ElevenLabs для «взлома» собственного банковского аккаунта. Звучит жутковато? Да, особенно с учетом популярных в народе страшилок о том, что мошенники собирают образцы голосов, вынуждая сказать «да» или «подтверждаю» в телефонном разговоре с представителями якобы банка, госучреждения или службы соцопросов, а затем крадут деньги с помощью голосовой авторизации.

Но на деле все не так ужасно. Во-первых, для создания искусственного голоса ElevenLabs требуется около пяти минут аудиозаписей, так что простого «да» будет маловато. Во-вторых, банки тоже предусматривают подобные сценарии, поэтому голосом возможно инициировать лишь некоторые операции, не связанные с переводом средств, например узнать баланс счета. То есть украсть деньги таким образом не получится.

К чести ElevenLabs, они быстро отреагировали на возникшую проблему: отрегулировали правила пользования сервисом, запретив бесплатным (читай — анонимным) пользователям создавать дипфейки на основе самостоятельно загруженных голосов, заблокировали аккаунты с жалобами на оскорбительный контент.

Увы, все эти меры хоть и полезны, но все же не решают проблему использования голосовых дипфейков в низменных целях.

Как еще обманывают дипфейками

Хотя сама по себе технология дипфейков и безвредна, в руках мошенников она может стать опасным инструментом для обмана, дискредитации или дезинформации. К счастью, массовых случаев афер с использованием подмены голоса пока не наблюдалось, но несколько громких прецедентов с применением голосовых дипфейков уже произошло.

В 2019 году мошенники, используя эту технологию, ограбили британскую энергетическую компанию. В телефонном разговоре злоумышленник притворился генеральным директором головного немецкого подразделения компании и потребовал срочно перевести 220 000€ (243 000$) на счета некоей компании-поставщика. После того как платеж был отправлен, мошенник звонил еще дважды — первый раз, чтобы усыпить бдительность сотрудников британского офиса и сообщить, что головной офис уже отправил возмещение этой суммы, а второй — чтобы затребовать еще один перевод. При этом все три раза руководитель британского подразделения был абсолютно уверен, что беседует со своим боссом — он узнал как его немецкий акцент, так и тембр и манеру речи. Второй перевод не был отправлен лишь потому, что в последний раз мошенник прокололся и позвонил с австрийского номера вместо немецкого, что насторожило британского директора.

А в 2020 году с использованием голосовых дипфейков мошенникам удалось украсть до 35 000 000$ у некой японской компании (имя фирмы и общая сумма украденного не раскрываются следствием). Неизвестно, какие именно решения — открытые, платные или вообще собственные — использовали злоумышленники для подделки голоса, но в обоих случаях компании пострадали от дипфейк-мошенничества.

Что дальше?

По поводу будущего дипфейков мнения расходятся. Сейчас большая часть этих технологий находится в руках крупных корпораций и ограниченно доступна для публичного пользования. Но, как показывает история с гораздо более популярными в массах генеративными моделями вроде DALL-E, Midjourney и Stable Diffusion, а уж тем более — с большими языковыми моделями (кто же не слышал про ChatGPT?), подобные технологии вполне могут появиться в обозримом будущем в свободном доступе. Это подтверждается и недавней утечкой внутренней переписки Google, в которой представители Интернет-гиганта опасаются, что проиграют ИИ-гонку открытым решениям. А это, очевидно, спровоцирует рост случаев с использованием голосовых дипфейков, в том числе и для мошенничества.

Наиболее перспективным шагом в развитии дипфейков станет, очевидно, генерация в режиме реального времени, что обеспечит дипфейкам (и мошенничеству на их основе) взрывной рост. Только представьте видеозвонок от кого-то, чьи лицо и голос полностью подделаны. С другой стороны, подобный уровень обработки данных может потребовать огромных ресурсов, доступных лишь крупным корпорациям, поэтому лучшие технологии так и останутся закрытыми, а мошенники не смогут идти в ногу с профессионалами. В то же время высокая планка качества позволит пользователям научиться без труда определять любительские подделки.

Как защититься?

Теперь вернемся к самому первому вопросу: можем ли мы доверять голосам, которые слышим (разумеется, если это не голоса в голове)? Конечно, мы не должны постоянно параноить, выдумывая кодовые фразы для общения с друзьями и близкими — хотя для серьезных случаев и это не повредит. Если все будет развиваться по пессимистичному сценарию, дипфейк-технология в руках мошенников в будущем может стать грозным оружием, но время подготовиться к этому и построить надежные методы защиты от подделок еще есть. Проводится множество исследований, посвященных борьбе с дипфейками, крупными компаниями разрабатываются защитные решения. Кстати, мы уже подробно рассказывали о способах борьбы с видеодипфейками в отдельном посте.

А пока средства защиты от ИИ-подделок лишь на подходе, стоит помнить, что дипфейки — лишь вариант продвинутого социального инжиниринга. Риск столкнуться с подобным мошенничеством мал, но есть, поэтому про подобные виды обмана стоит знать и помнить. Если вам поступает необычный звонок, обращайте внимание на качество звучания, неестественную монотонность голоса, неразборчивость речи, шумы. Помните, что эффект неожиданности — это оружие злоумышленников, которые рассчитывают вызвать у вас панику. Всегда перепроверяйте информацию по другим каналам.

View the full article

Ссылка на комментарий
Поделиться на другие сайты

  • 3 weeks later...

Пожалуйста, войдите, чтобы комментировать

Вы сможете оставить комментарий после входа в



Войти
  • Похожий контент

    • KL FC Bot
      От KL FC Bot
      В июле 2024 года Mozilla вместе с новой версией своего браузера Firefox представила технологию, которая называется Privacy-preserving attribution (атрибуция с сохранением приватности) и предназначена для отслеживания эффективности интернет-рекламы. Она включена по умолчанию в Firefox 128.
      Это довольно быстро привлекло внимание поборников онлайн-приватности и привело к появлению в новостях заголовков вроде «Теперь и Mozilla начинает продавать данные пользователей». Шумиха поднялась настолько серьезная, что техническому директору Firefox Бобби Холли пришлось объясняться с пользователями Reddit, что же на самом деле Mozilla сделала и зачем.
      Самое время разобраться более подробно, в чем суть технологии Privacy-preserving attribution, зачем она вообще нужна и почему в Mozilla решили представить ее именно сейчас.
      Google Ad Topics и «История ссылок» в Facebook*
      Начну с предыстории. Как вы, возможно, помните, разработчики самого популярного в мире браузера — Google Chrome — еще с 2019 года вынашивают планы по полному отключению поддержки сторонних cookies.
      Эта технология уже третье десятилетие повсеместно используется для отслеживания действий пользователей в Интернете. Так что, с одной стороны, она является основой индустрии онлайн-рекламы, а с другой — главным инструментом нарушения приватности пользователей.
      В качестве замены сторонних cookies некоторое время назад Google представила собственную разработку под названием Ad Topics. В рамках этой технологии отслеживание пользователя происходит на основе истории браузера Chrome и истории взаимодействия пользователя с приложениями в Android. Предполагалось, что благодаря внедрению Ad Topics поддержку сторонних cookies в браузере отключат уже во второй половине 2024 года.
      Другой крупнейший игрок индустрии цифровой рекламы, компания Meta**, которая также полагается на сторонние куки, придумала собственный вариант слежки за пользователями. Это так называемая История ссылок: все внешние ссылки в мобильных приложениях Facebook* теперь открываются во встроенном в приложение браузере, где компания все еще может следить за действиями пользователя.
      Что в итоге получается: в результате отключения поддержки сторонних cookies преимущество получают те участники рынка интернет-рекламы, у которых есть какое-либо крупное, полностью контролируемое ими цифровое пространство: самые популярные в мире браузер и ОС в случае Google, самая популярная соцсеть в случае Meta**. Более мелкие игроки при этом оказываются в зависимом положении.
      При этом данные пользователей все равно продолжают собирать в промышленных масштабах. И делают это все те же компании, к которым обычно и предъявляют основные претензии с точки зрения нарушения приватности, — Google и Facebook*.
      Возникает вопрос: а нельзя ли разработать какой-то механизм, который одновременно позволит рекламодателям отслеживать эффективность рекламы и при этом не предполагает массовый сбор данных пользователей? Ответом именно на этот вопрос и является технология Privacy-preserving attribution.
       
      View the full article
    • KL FC Bot
      От KL FC Bot
      Мы ежедневно трудимся, чтобы наши продукты и решения оставались одними из лучших — как по нашему собственному мнению, так и по версии независимых исследователей. Делаем это всесторонне: добавляем новые фичи, боремся с новыми вредоносными программами, облегчаем миграцию и всячески улучшаем пользовательский опыт.
      Сегодня расскажем о большом обновлении Kaspersky Password Manager для мобильных устройств, которое, уверены, сделает хранение и управление паролями, кодами двухфакторной аутентификации и шифрованными документами еще удобнее. Во всех магазинах приложений это обновление появится в течение ноября 2024 года. О продвинутой фильтрации, работе поиска, синхронизации и многом другом — в этом материале.
      Коротко о главном
      Мобильной версии нашего менеджера паролей в этом году исполняется 10 лет (а версии для компьютеров — и все 15), и за это время нам удалось собрать лучшие практики в одном приложении. Несколько последних лет мы проводили исследования, в которых изучали шаблоны поведения пользователей Kaspersky Password Manager, и на их основе глобально поменяли навигацию в мобильных версиях менеджера паролей.
      Что нового:
      Заменили боковое меню с основными функциями продукта на навигационную панель, теперь все функции распределены по разделам. Создали отдельный раздел для поиска внутри приложения и улучшили сценарии его работы. Сделали работу с избранными записями еще удобнее, теперь они закрепляются в самом верху списка записей. Создали и вывели кнопку раздела «Синхронизация» на видное место. Сгруппировали генератор, импорт и проверку паролей в отдельный раздел «Инструменты». Изменения доступны всем пользователям Kaspersky Password Manager для Android (версии приложения 9.2.106 и выше) и iOS (версии приложения 9.2.92 и выше).
       
      View the full article
    • KL FC Bot
      От KL FC Bot
      Серьезные ИБ-инциденты порой затрагивают многих участников, зачастую и тех, кто повседневно не занимается вопросами ИТ и ИБ. Понятно, что в первую очередь усилия сосредоточиваются на выявлении, сдерживании и восстановлении, но, когда пыль немного осядет, наступает время для еще одного важного этапа реагирования — извлечения уроков. Чему можно научиться по итогам инцидента? Как улучшить шансы на успешное отражение подобных атак в будущем? На эти вопросы очень полезно ответить, даже если инцидент не принес существенного ущерба из-за эффективного реагирования или просто удачного стечения обстоятельств.
      Немного о людях
      Разбор инцидента важен для всей организации, поэтому к нему обязательно привлекать не только команды ИТ и ИБ, но также высшее руководство, бизнес-владельцев ИТ-систем, а также подрядчиков, если они были затронуты инцидентом или привлекались к реагированию. На встречах этой рабочей группы нужно создать продуктивную атмосферу: важно донести, что это не поиск виноватых (хотя ошибки будут обсуждаться), поэтому перекладывание ответственности и манипулирование информацией исказят картину, повредят анализу и ухудшат позицию организации в долгосрочной перспективе.
      Еще один важный момент: многие компании скрывают детали инцидента в страхе за репутацию или опасаясь повторной кибератаки по тому же сценарию. И хотя это вполне объяснимо и некоторые подробности действительно конфиденциальны, нужно стремиться к максимальной прозрачности в реагировании и делиться подробностями атаки и реагирования если не с широкой публикой, то как минимум с узким кругом коллег из сферы ИБ, которые могут предотвратить похожие атаки на свои организации.
       
      View the full article
    • KL FC Bot
      От KL FC Bot
      Наши эксперты из Global Research and Analysis Team (GReAT) обнаружили два вредоносных пакета в The Python Package Index (PyPI), популярном репозитории софта для программирования на Python. Согласно описанию, пакеты представляли собой библиотеки для работы с популярными языковыми моделями. Однако, на самом деле они имитировали заявленную функциональность при помощи демоверсии ChatGPT, а основной их целью была установка зловреда JarkaStealer.
      Пакеты были доступны для скачивания больше года и, судя по статистике репозитория, за это время они были скачаны более 1700 раз пользователями из более чем 30 стран.
      Что за пакеты и для чего они использовались
      Вредоносные пакеты были загружены в репозиторий одним автором и отличались друг от друга только названием и описанием. Первый назывался gptplus и якобы позволял реализовать доступ к API GPT-4 Turbo от OpenAI; второй — claudeai-eng и, согласно описанию, по аналогии обещал доступ к API Claude AI от компании Anthropic PBC.

      В описаниях обоих пакетов были примеры использования, которые объясняли, как создавать чаты и посылать сообщения языковым моделям. Но в действительности операторы этой атаки встроили в код механизм взаимодействия с демо-прокси ChatGPT, чтобы убедить жертву в работоспособности пакета. А содержавшийся, тем временем, в пакетах файл __init__.py декодировал содержавшиеся внутри данные и скачивал из репозитория на GitHub файл JavaUpdater.jar. Если на машине жертвы не обнаруживалась Java, то он также скачивал и устанавливал среду выполнения для Java (JRE) из Dropbox. Сам jar-файл содержал зловред JarkaStealer, который использовался злоумышленниками для компрометации среды разработки и незаметной эксфильтрации похищенных данных.
       
      View the full article
    • KL FC Bot
      От KL FC Bot
      Игра Battle City, более известная как танчики, — символ давно ушедшей эпохи. Около 30 лет назад геймеры вставляли картридж в приставку, садились за пузатые телевизоры и пачками уничтожали вражеские танки до тех пор, пока кто-нибудь им не скажет про «кинескоп, который вот-вот должен сесть».
      Сегодня мир совсем другой, а танчики по-прежнему популярны. Дело в том, что современные аналоги предлагают геймерам не только поиграть, но и заработать NFT-токены. Злоумышленники тоже кое-что предлагают: сложную атаку для любителей криптовалютных игр.
      Бэкдор и эксплойт уязвимости нулевого дня в Google Chrome
      Эта история началась в феврале 2024 года, когда наше защитное решение обнаружило проникновение бэкдора Manuscrypt на компьютер пользователя из России. Такой бэкдор нам давно известен, его различные версии используют члены группировки APT Lazarus как минимум с 2013 года. Но что особенного в этой истории, если мы прекрасно знаем основной инструмент и методы работы злоумышленников?
      Дело в том, что эти хакеры обычно нацелены на крупные организации: банки, IT-компании, университеты и даже правительственные организации. Теперь руки Lazarus дотянулись до физических лиц — бэкдор на компьютере частного пользователя! Киберпреступники заманили жертву на сайт игры и получили полный доступ к ее компьютеру. Злоумышленникам удалось это сделать благодаря трем составляющим:
      невероятному желанию жертвы сыграть в любимые танчики в новой оболочке; уязвимости нулевого дня в Google Chrome; наличию эксплойта, позволявшего удаленно выполнить код в процессе Google Chrome. Для тех, кто переживает: компания Google выпустила обновление браузера, заблокировала сайт танчиков и поблагодарила исследователей безопасности «Лаборатории Касперского». Но на всякий случай: наши продукты детектируют и бэкдор Manuscrypt, и эксплойт. Подробности этой истории мы раскрыли в блоге Securelist.
       
      View the full article
×
×
  • Создать...