Спасибо за интересный вопрос!
Вообще, в кибербезопасности машинное обучение применяется очень широко, так как позволяет здорово автоматизировать множество рутинных задач и освободить время профессионалов-аналитиков для поиска интересных угроз. Например, мы применяем машинное обучение для автоматизации обработки событий в Kaspersky Managed Detection and Response: машинное обучение берет на себя обработку повторяющихся событий, оставляя специалистам для расследования только самое интересное. Кроме того, с помощью машинного обучения мы детектируем вредоносное ПО, спам и фишинг, обнаруживаем аномалии в телеметрии и индустриальных сетях и делаем много другое – все эти задачи могут стать предметом исследования и изучения.
Если же говорить о задачах на стыке машинного обучения и анализа данных с одной стороны и криптографии с другой, то и здесь есть на что посмотреть. Например, представим себе такую задачу, очень близкую к реальным насущным проблемам: обучить алгоритм машинного обучения, который бы научился предсказывать возможные болезни по данным пациента и предлагать профилактику. Как известно, машинному обучению нужно много данных, чтобы достичь хорошего качества, но информация о пациентах клиник и больниц – очень чувствительные данные! Как быть?
Во-первых, как вообще посчитать какие-то статистики по таким чувствительным данным, чтобы не скомпрометировать конфиденциальность людей? Причем так, чтобы уровень защиты конфиденциальности был математически измерим? Именно этим занимается такая сфера анализа данных, как дифференциальная приватность (differential privacy). В этой области довольно много нерешенных проблем, потому что применение ее методов уменьшает точность анализа или повышает требования к количеству данных. Особенно это касается differentially private machine learning – применению методов дифференциальной приватности к обучению моделей машинного обучения.
Во-вторых, что если мы бы могли централизованно обучить такую модель-врача, но на зашифрованных данных? Возможно ли это? Теоретически – да, если воспользоваться гомоморфным шифрованием. Если вкратце – это такое шифрование, которое позволяет проводить математические операции над шифротекстом так же, как и над простым, так что, например, если сложить два зашифрованных числа и расшифровать результат, то это будет то же самое, что и просто сложить два числа. Применение гомоморфного шифрования к машинному обучению – интересная тема.
Наконец, могут ли данные пациентов вообще ни в каком виде не покидать больницу, но так, чтобы модель-предсказателя болезней мы получили? Да, если воспользоваться федеративным обучением (federated learning) – методикой, при которой каждая больница обучила бы свою модель или часть модели на своих данных, а потом эти модели объединились бы в единую мощную супер-модель. Такие методы уже применяются, но улучшение их – активная сфера научных изысканий.