Автор
KL FC Bot
Экспериментами по обходу ограничений в ответах ИИ, установленными создателями языковых моделей, технологические энтузиасты начали заниматься практически с самого начала широкого распространения LLM. Многие из этих приемов были весьма оригинальны — например, сказать ИИ, что у вас нет пальцев, чтобы он помог дописать код, попросить его «просто пофантазировать», когда прямой вопрос приводит к отказу, или предложить ему принять роль умершей бабушки и поделиться запретными знаниями, дабы утешить скорбящего внука.
Большинство таких трюков давно известны, и со многими из них разработчики LLM научились успешно бороться, но сама битва между ограничениями и попытками их обойти никуда не делась — уловки просто стали сложнее и изощреннее. Сегодня поговорим о новой технике джейлбрейка ИИ, которая эксплуатирует уязвимость чат-ботов… к поэзии — в самом прямом смысле этого слова. В свежем исследовании ученые показали, что формулирование промптов в виде стихов значительно повышает вероятность небезопасного ответа моделей.
Эту технику они проверили на 25 популярных моделях от Anthropic, OpenAI, Google, Meta*, DeepSeek, xAI и других разработчиков. Ниже — подробности о том, какие ограничения есть у моделей, откуда у них вообще берутся запретные знания, как проходило исследование и какие модели оказались наиболее «романтичными» — в смысле, восприимчивыми к стихотворным запросам.
View the full article
Рекомендуемые сообщения
Пожалуйста, войдите, чтобы комментировать
Вы сможете оставить комментарий после входа в
Войти