Перейти к содержанию

Federated learning в борьбе с почтовыми угрозами


Рекомендуемые сообщения

Как проще всего найти угрозу (будь то фишинг или спам) в почте? Мы уже неоднократно писали о разнообразных технических заголовках и прочих косвенных признаках нежелательного сообщения. Но не стоит забывать и о самом очевидном — тексте письма. Казалось бы, это первое, что имеет смысл анализировать, ведь именно при помощи текста злоумышленники или недобросовестные рекламодатели пытаются манипулировать получателем. Но не все так просто — если раньше с задачей справлялся сигнатурный анализ, то сейчас анализировать приходится при помощи алгоритмов машинного обучения. А для того, чтобы нормально обучить модель классифицировать, ей нужно «скормить» значительные объемы писем, что не всегда реально, потому что нарушает приватность. Но мы нашли выход.

Почему сигнатурный анализ больше не эффективен?

Еще десять лет назад только за текст можно было без особых усилий поймать огромную часть спама. Просто потому, что текст спамерских (да и фишинговых) сообщений практически не менялся. Сейчас все стало гораздо сложнее: злоумышленники пытаются повышать эффективность своих рассылок и используют как крючок миллионы разнообразных инфоповодов: выходы новых видеоигр, сериалов или моделей телефонов, политические новости, чрезвычайные ситуации (характерный пример — обилие фишинга и спама на тему Covid-19). В итоге мы имеем огромное разнообразие тем для рассылок, что усложняет процесс детектирования. Более того — чтобы обойти почтовые фильтры, злоумышленники могут варьировать даже текст внутри одной волны рассылки.

Разумеется, сигнатурные подходы продолжают использоваться. Но их суть сводится к отлову текста, который уже был кем-то встречен и классифицирован как нежелательный или вредоносный. Проактивно работать они не могут — каждое изменение текста рассылки позволяет обходить их. Единственный вариант справиться с этой проблемой — машинное обучение.

В чем проблема с обучением?

В последние годы методы машинного обучения показывают высокие результаты в решении многих задач. Благодаря анализу большого количества данных модели учатся принимать решения и находить совершенно нетривиальные общие признаки в потоке информации. Мы уже рассказывали, как используем нейронные сети, обученные на технических заголовках писем, вместе с DMARC для детектирования почтовых угроз. Так почему нельзя сделать то же самое с текстом?

Как я уже упоминал выше, для обучения модели необходимо огромное количество данных. В данном случае писем, причем не только гарантированно вредоносных, но и вполне легитимных. Без этого не получится научить модель отличать атаку от, например, деловой переписки. С вредоносными письмами проблем нет — у нас есть специальные ловушки для сбора нежелательной корреспонденции (именно на основании пойманных в эти ловушки писем создаются сигнатуры). А вот с легитимными дело обстоит сложнее.

Обычно данные собирают на серверах для централизованного обучения. Но когда мы говорим о текстах, возникают дополнительные сложности: письма могут содержать персональные данные, так что их хранение и обработка в исходном виде просто невозможна. Так как же собрать достаточную для нашей задачи коллекцию легитимных писем?

Federated Learning

Как выяснилось, коллекцию легитимных писем собирать и не обязательно. Мы решаем эту проблему иначе — применяем в своих решениях метод federated learning. Он представляет собой децентрализованное обучение моделей. То есть обучение моделей происходит напрямую на почтовых серверах клиента, без необходимости пересылки содержащих конфиденциальную информацию писем на центральный сервер. Туда отправляются не сами тексты, а только обученные веса этих моделей. Далее из них собирается результирующая версия, которая и используется для анализа потока писем.

На самом деле это несколько упрощенная картина. В реальности все чуть сложнее: прежде чем обученная модель будет использована для реальной работы, она проходит несколько итераций дообучения. То есть на почтовом сервере, по сути, одновременно работают две модели: одна в режиме обучения, а вторая — в боевом режиме. Через несколько итераций отправки на центральный сервер дообученная модель заменяет «боевую».

По весам модели нельзя восстановить текст конкретных писем — так мы добиваемся приватности при обработке текста. Тем не менее обучение производится на реальных письмах, что существенно улучшает качество модели детектирования.

В данный момент этот подход уже применяется в тестовом режиме для классификации спама в продукте Kaspersky Security для Microsft Office 365 и показывает отличные результаты. Так что вскоре сфера его применения будет расширена, и он будет использоваться и в других продуктах для выявления как спама, так и других угроз, таких как фишинг, BEC и тому подобные.

View the full article

Ссылка на комментарий
Поделиться на другие сайты

Пожалуйста, войдите, чтобы комментировать

Вы сможете оставить комментарий после входа в



Войти
  • Похожий контент

    • Elly
      Автор Elly
      Друзья!
       
      Предлагаем вам поучаствовать в викторине, посвящённой интересному продукту от «Лаборатории Касперского» - Kaspersky Machine Learning for Anomaly Detection 5.0. В ходе прохождения викторины вы узнаете о том, для чего нужна эта система, каковы рекомендации по работе данной системы, её особенности, а также ознакомитесь с содержанием раздела официального сайта Kaspersky Online Help, посвящённым этой программе. 
       
      НАГРАЖДЕНИЕ
      Без ошибок — 1 000 баллов Одна ошибка — 800 баллов Две ошибки — 500 баллов Баллами можно оплатить лицензии и сувениры в магазине Клуба. 
       
      ПРАВИЛА ПРОВЕДЕНИЯ

      Викторина проводится до 22:00 25 августа 2025 года (время московское).
      Правильные ответы будут опубликованы не позднее 10 дней с момента окончания викторины. Публичное обсуждение вопросов и ответов викторины запрещено. Итоги будут подведены в течение десяти дней с момента публикации правильных ответов. Баллы будут начислены в течение двадцати дней с момента опубликования итогов викторины.

      Все вопросы, связанные с корректностью проведения викторины, необходимо отправлять пользователю @Mrak (пользователей @Машуня и @Elly включать в копию адресатов) через систему личных сообщений с подробным описанием ситуации. Ответ будет дан коллегиальным решением организаторов викторины и дальнейшего обсуждения не предполагает.
      Вопросы по начислению баллов направлять пользователю @Elly через систему личных сообщений.

      Вопросы по викторине принимаются только через личные сообщения в течение срока проведения викторины и не позднее трёх дней после публикации ответов (время московское). Ответы направляются представителем от организаторов викторины через личные сообщения в рамках созданной переписки.

      Администрация, официально уведомив, может в любой момент внести изменения в правила викторины, перезапустить или вовсе прекратить её проведение, а также отказать участнику в получении приза, применить иные меры (вплоть до блокировки аккаунта) в случае выявления фактов его недобросовестного участия в ней и/или нарушения правил викторины, передачи ответов на викторину иным участникам. При ответе на вопросы викторины запрещается использовать анонимайзеры и другие технические средства для намеренного сокрытия реального IP-адреса.

      Вопросы по начислению баллов, принимаются в течение 30 дней с момента подведения итогов викторины. Викторина является собственностью клуба «Лаборатории Касперского», её использование на сторонних ресурсах без разрешения администрации клуба запрещено.

      Участие в викторине означает безоговорочное согласие с настоящими правилами. Для перехода к вопросам викторины нажмите ЗДЕСЬ.
    • ClausePixel
      Автор ClausePixel
      Подскажите проверил компьютер через Dr.web.Cureit, нашел странную угрозу, но не могу ее удалить net:malware.url
      лог прикладываю
       
      cureit.zip
    • KL FC Bot
      Автор KL FC Bot
      Представьте: вы спокойно работаете за компьютером, и вдруг на экране появляется пугающее сообщение: «Ваш компьютер заражен вирусами! Срочно установите антивирус!» или «Ваши данные могут быть украдены! Немедленно произведите очистку системы!». Паника? Именно на это и рассчитывают мошенники.
      В этом посте мы расскажем, что такое scareware и чем опасен этот тип угроз. А также объясняем, как не попасться на уловки распространителей таких зловредов и защитить от подобных атак себя и своих близких.
      Что такое scareware
      Scareware (от англ. scare, пугать) — один из видов цифрового мошенничества, предполагающий запугивание пользователей. Цель scareware — заставить жертву скачать ненужную или даже откровенно вредоносную программу. Такие программы обычно мимикрируют под антивирусы, оптимизаторы системы, очистители реестра и так далее — хотя встречаются и более экзотические вариации.
      Пользователя предупреждают о невероятной опасности: на его компьютере якобы обнаружено сразу пять вирусов! Правда, шапка окна содержит маленькую ошибочку: «Обнаружены угрожи» Источник
       
      View the full article
    • ALGORITMTEHGROUP
      Автор ALGORITMTEHGROUP
      Добрый день!

      Начали разработку собственного сайта, приобрели домен ранее на нем не находилось никаких сайтов.
      Соответственно касперский указывает, что наш сайт является угрозой, что быть никак не может.
      Просим Вас удалить наш сайт с Базы угроз.

       
    • chayagolik
      Автор chayagolik
      Здравствуйте, при сканировании Dr Web Cureit обнаружилась угроза CHROMIUM:PAGE.MALWARE.URL.


       
      CollectionLog-2024.06.18-10.08.zip
×
×
  • Создать...