Перейти к содержанию

Как можно прочитать зашифрованные сообщения от ChatGPT и других чат-ботов | Блог Касперского


Рекомендуемые сообщения

Израильские исследователи из Offensive AI Lab (что можно примерно перевести как «Лаборатория наступательного ИИ») опубликовали работу, описывающую метод восстановления текста из перехваченных сообщений от чат-ботов с ИИ. Рассказываем о том, как работает эта атака и насколько она опасна в реальности.

Какую информацию можно извлечь из перехваченных сообщений чат-ботов на основе ИИ

Разумеется, чат-боты отправляют сообщения в зашифрованном виде. Однако в реализации как самих больших языковых моделей (LLM), так и основанных на них чат-ботов есть ряд особенностей, из-за которых эффективность шифрования серьезно снижается. В совокупности эти особенности позволяют провести так называемую атаку по сторонним каналам, когда содержимое сообщения удается восстановить по тем или иным сопутствующим данным.

Чтобы понять, что же происходит в ходе этой атаки, придется слегка погрузиться в детали механики LLM и чат-ботов. Первое, что надо знать: большие языковые модели оперируют не отдельными символами и не словами как таковыми, а так называемыми токенами — своего рода смысловыми единицами текста. На сайте OpenAI есть страница под названием «Токенизатор», которая позволяет понять, как это работает.

Пример токенизации текста моделями GPT-3.5 и GPT-4

Этот пример демонстрирует, как работает токенизация сообщений моделями GPT-3.5 и GPT-4. Источник

Вторую особенность, важную для данной атаки, вы наверняка замечали, когда общались с чат-ботами: они присылают ответ не крупными кусками, а постепенно — примерно так же, как если бы его печатал человек. Но, в отличие от человека, LLM пишут не отдельными символами, а токенами. Соответственно, чат-бот отправляет сгенерированные токены в режиме реального времени, один за другим. Вернее, так делает большинство чат-ботов — исключение составляет Google Gemini, из-за чего он не подвержен данной атаке.

Третья особенность: на момент публикации исследования большинство существующих чат-ботов, перед тем как зашифровать сообщение, не использовали сжатие, кодирование или дополнение (это метод повышения криптостойкости, в котором к полезному сообщению добавляются мусорные данные, чтобы снизить предсказуемость).

Использование этих особенностей делает возможным атаку по сторонним каналам. Хотя перехваченные сообщения от чат-бота невозможно расшифровать, из них можно извлечь полезные данные — а именно длину каждого из отправленных чат-ботом токенов. В итоге у атакующего получается последовательность, напоминающая игру в «Поле чудес» на максималках, не для одного слова, а для целой фразы: что именно зашифровано, неизвестно, но известна длина отдельных слов токенов.

 

Посмотреть статью полностью

Ссылка на комментарий
Поделиться на другие сайты

Очень очевидная, но не очень полезная атака, строго говоря. Я этим пользовался ещё несколько лет назад в реальном проекте и рассуждал как раз также - раз нет дополнений, то могу догадываться о длине. У меня получилось раскрыть данные внутри HTTPS, но это прикольно как зарядка для ума, а не в прям боевом использовании. Потому что для раскрытия данных у меня было общее понимание происходящего. Мне сначала понадобилось собрать "знаний" (не знаю, как правильно выразиться: имею в виду собрать максимум доступной технической инфы о том, что собираюсь взламывать) и только потом находить эти знания в https трафике.

 

В моём случае я мог понимать, какой файл качает пользователь, т.к. знал, сколько байтиков занимает запрос к каждому из целевых файлов. А их рассчитал заранее, когда собирал знания.

 

Мне вот эта статья понравилась только тем, что я проделал всё это для другого проекта ещё в 19-ом году и сделал это просто из любопытства. Хотя уверен, это всё настолько на поверхности, что и до меня так делали миллионы раз. :)

Ссылка на комментарий
Поделиться на другие сайты

1 час назад, Umnik сказал:

Хотя уверен, это всё настолько на поверхности, что и до меня так делали миллионы раз.

Кто первый отписался, того и тапки. :) 

Поэтому оказывается, тебя обошли израильские исследователи!

  • Улыбнуло 1
Ссылка на комментарий
Поделиться на другие сайты

Пожалуйста, войдите, чтобы комментировать

Вы сможете оставить комментарий после входа в



Войти
  • Похожий контент

    • Yaasa
      Автор Yaasa
      сидел в компе и касперский начал часто выдавать сообщение запрещено при заходе в антивирус это :
      ложное ли это срабатывание или вирус?
       


    • KL FC Bot
      Автор KL FC Bot
      Практически ежедневно мы делимся фотографиями, видео и документами, отправляем голосовые сообщения, письма по электронной почте, но практически никогда не задумываемся, что при этом передаем гораздо больше данных, чем предполагаем. Дело в том, что каждый файл содержит метаданные — служебную информацию о самом файле, в которой можно найти множество интересного и вовсе не предназначенного для чужих глаз: например, время и место съемки фото, историю редактирования документа, информацию о вашем устройстве, ваш IP-адрес, геолокацию и многое другое. И все это вместе с безобидным селфи или презентацией попадает в руки адресата, выкладывается в соцсети или публикуется на сайтах.
      Сегодня поговорим о пользе и вреде метаданных и расскажем о способах их удаления.
      Что такое метаданные и зачем они нужны
      Если говорить простым языком, то метаданные — это дополнительная информация о содержимом файла, добавляемая приложениями, создающими или обрабатывающими эти файлы, операционными системами или самими пользователями. В большинстве случаев метаданные создаются и обновляются автоматически: например, для файлов это могут быть такие атрибуты, как дата его создания, дата последнего изменения, тип, владелец и так далее. А когда мы делаем фотографию своим смартфоном или камерой, то в файл, помимо самого изображения, записываются дата и место съемки, параметры экспозиции, модель смартфона и другая информация, предусмотренная форматом EXIF. Набор этих данных может различаться в зависимости от модели и настроек камеры или смартфона.
      Некоторые метаданные находятся «на виду», и их легко отредактировать. Так, в аудиофайлах содержатся специальные теги, рассказывающие о содержимом: об авторе, исполнителе, альбоме, названии композиции, жанре, и их легко изменить практически в любом плеере.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Поучительный инцидент с атакой ransomware-группировки Akira наверняка на несколько лет станет любимым примером ИБ-специалистов. Злоумышленники зашифровали компьютеры организации, воспользовавшись ее видеокамерой. Хотя звучит это очень странно, в развитии событий есть логика, которую легко применить к другой организации и другим устройствам в ее инфраструктуре.
      Анатомия атаки
      Злоумышленники проникли в сеть, проэксплуатировав уязвимость в публично доступном приложении и получив возможность выполнять команды на зараженном хосте. Они воспользовались этим, чтобы запустить популярное приложение дистанционного доступа AnyDesk, а затем инициировали с этого компьютера RDP-сессию для доступа к файл-серверу организации. На сервере они попытались запустить свой шифровальщик, но EDR-система, установленная в компании, опознала вредоносное ПО и поместила его в карантин. Увы, это не остановило атакующих.
      Не имея возможности запустить свой шифровальщик на серверах и обычных компьютерах, которые находятся под защитой EDR, атакующие запустили сканирование внутренней сети и обнаружили в ней сетевую видеокамеру. В отчете команды по расследованию инцидента это устройство постоянно называют веб-камерой (webcam), но мы все же полагаем, что речь не о камере ноутбука или смартфона, а о независимом сетевом устройстве, применяемом для видеонаблюдения.
      Камера стала прекрасной мишенью для атакующих по нескольким причинам:
      устройство давно не обновлялось, его прошивка содержала уязвимости, позволяющие дистанционно скомпрометировать камеру и получить на ней права на запуск оболочки (remote shell); камера работает под управлением облегченной сборки Linux, на которой можно запускать обычные исполнимые файлы этой ОС, например Linux-шифровальщик, имеющийся в арсенале Akira; это специализированное устройство не имело (и, скорее всего, не могло иметь) ни агента EDR, ни других защитных средств, которые могли бы определить вредоносную активность. Злоумышленники смогли установить свое вредоносное ПО на эту камеру и зашифровать серверы организации прямо с нее.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Мы живём в эпоху ИИ-хайпа. Искусственный интеллект там, сям, здесь и там, везде и весь такой перспективный, слегка загадочный, но непременно сопровождающий человечество в светлое будущее технологической пока ещё непонятной чёрнодырочной сингулярности.
      Вероятно, некоторый читатель мог заметить в предыдущем предложении сарказм – а зря. Автоматизация на основе машинного обучения (ещё один термин: «ML» = «machine learning»), нейросетей и прочего ИИ уже подмяла под себя многие отрасли нашей жизни, и то ли ещё будет на линии хомосапиенсного развития. Кому интересно нырнуть в тему – поищите что уже случилось по линии промышленных революций Один, Два, Три и даже Четыре.
      В этом тренде кибербезопасность была, пожалуй, одним из пионеров использования новых, умных технологий. А что мне особенно приятно и гордо в этом процессе – наша компания была одной из первых в отрасли, начавших успешно внедрять это самое светлое ИИ-будущее. А как иначе справляться, например, с почти полумиллионом (на начало 2025 года) новых зловредов каждый день? Столько экспертов ни одна образовательная система мира не выпустит. Выход один – создавать умные системы, способные самостоятельно и с высокой точностью нейтрализовывать кибератаки. Экспертам же оставлять только самые сложные случаи и, конечно, непростую задачу такие системы изобретать и постоянно докручивать.
      На днях у нас случился радостный юбилей. 20 лет назад зародился прототип самой первой ИИ/ML технологии для автоматического анализа вредоносного кода и производства «детектов» – антивирусных обновлений, которые защищают компьютеры, гаджеты и прочие устройства от новых атак.
      Технология получила с первого взгляда странное название «Автодятел». Но на самом деле здесь всё просто: «дятлами» у нас ласково и в шутку назывались эксперты-аналитики, «долбящие» вирусы обрабатывающие входящий поток подозрительных файлов, а, соответственно, «автодятел» выполнял эту работу сам. Кстати, в то время я тоже работал «дятлом».
      Покопав архивы, мы нашли не только дату рождения первого птенца автоматИИзации, но и любопытные фотографии планов по его созданию. И место рождения вспомнили. Гнездо располагалось на 14 этаже здания «Радиофизики» на Планерной, где мы тогда снимали офис. Теперь устраивайтесь поудобнее, я расскажу вам увлекательную историю. Начиналось всё примерно вот как.
      С четверть века назад зловреды и встречались куда реже, да и были куда технологичнее современных, хотя писали их пионеры-энтузиасты, изобретательные программисты-одиночки и киберхулиганы. Поэтому и исследовать их было одно удовольствие — что ни вирус, то что-то новое узнаёшь, чему-то учишься. Я тогда вместе с остальными «дятлами» собственноручно «долбил» зловредов — анализировал поток вредоносных программ, если по-научному. Разумеется, к этому моменту собрать все существующие зловреды в одну книжку как в 1992 году уже было сложновато, но тем не менее с потоком мы справлялись, а в конце каждой рабочей недели я вручную собирал обновление антивирусных баз.
       
      View the full article
    • KL FC Bot
      Автор KL FC Bot
      Не так давно на нашем блоге для ИБ-исследователей Securelist вышел пост об атаке на российские промышленные предприятия с использованием бэкдора PhantomPyramid, которую наши эксперты с высокой степенью уверенности атрибутируют группе Head Mare. Атака была достаточно стандартной — письмо, якобы содержащее конфиденциальную информацию плюс архив со зловредом, пароль для распаковки которого находится прямо в теле письма. Но интересен способ, при помощи которого злоумышленники прятали свой вредоносный код в, казалось бы, безобидном файле, — для этого они использовали технику polyglot.
      Что такое техника polyglot
      В матрице MITRE ATT&CK polyglot-файлы описываются как файлы, относящиеся сразу к нескольким типам и работающие по-разному в зависимости от приложения, в котором они запущены. Используются они для маскировки зловредов — для пользователя, а также для некоторых защитных механизмов они могут выглядеть как что-то совершенно безопасное, например картинка или документ. А по факту внутри находится вредоносный код. Причем код может быть написан сразу на нескольких языках программирования.
      Злоумышленники используют самое разное сочетание форматов. Компания Unit42 исследовала атаку с применением файла контекстной справки в формате Microsoft Compiled HTML Help (расширение .chm), который одновременно является HTML-приложением (файлом в формате .hta). Исследователи также описывают применение картинки в формате .jpeg, внутри которой по факту находится PHP-архив .phar. В случае с атакой, исследованной нашими экспертами, внутри архива .zip был спрятан исполняемый код.
      .
      View the full article
×
×
  • Создать...