Исследователи из Гонконгского политехнического университета нашли способ атаки на современные мультимодальные модели через видеоряд
Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета продемонстрировали, что современные мультимодальные большие языковые модели (MLLM) могут быть уязвимы к атакам через видеоряд. В работе представлен новый метод jailbreak-атаки, который авторы протестировали на нескольких популярных MLLM, включая VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5.
Принцип атаки: от статичного изображения к динамическому видео
Авторы отмечают, что основные атаки против мультимодальных моделей концентрируются на изображениях — это могут быть адверсариальные шумы, типографика или скрытые текстовые подсказки. При этом видеомодальность остаётся менее изученной с точки зрения безопасности. Ключевым результатом исследования стало наблюдение: если повторять вредоносное изображение по кадрам и собирать из него видео, атака становится эффективнее, чем при одиночном использовании статичного изображения.
Для усиления эффекта исследователи предложили метод Safety-Proximal Typographic Videos (SPTV). Его идея заключается не в простом повторении одного и того же токсичного кадра, а в создании видео из нескольких изображений с вредоносным смыслом, но с разным оформлением, близким по распределению к безопасным данным. Для подбора кадров авторы использовали сопоставление в двудольном графе и венгерский алгоритм, чтобы выбрать такие вредоносные материалы, которые одновременно достаточно разнообразны между собой и максимально похожи на безопасные визуальные примеры в пространстве признаков. Авторы утверждают, что именно эта комбинация делает атаку более устойчивой и переносимой между моделями.
Устойчивость коммерческих систем и метод защиты
Авторы отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели. Отдельно в статье показан метод защиты Video-aware System Prompt (VSP), который должен лучше распознавать именно видеоввод и усиливать защиту. Публикация показывает, что картинко-ориентированная защита не учитывает особенности временной обработки видео.
Уязвимости могут быть связаны с временной структурой, сменой кадров и дополнительными обходными паттернами. Поэтому оценки безопасности в идеале должны включать не только image jailbreak, но и video jailbreak, а также устойчивость к динамическим визуальным шаблонам.
Контекст с данными рынка
- Биткоин: $73585 (24ч: -0.4%)
- Ethereum: $1998.79 (24ч: -1.3%)