Wednesday, July 09, 2025

SHAP для LLM

В этой статье мы предлагаем новый подход к созданию целевых состязательных примеров (атак) с использованием объяснимых методов искусственного интеллекта (XAI). Наш метод использует XAI для определения ключевых входных элементов, которые при изменении могут ввести в заблуждение модели NLP, такие как BERT и большие языковые модели (LLM), и выдавать определенные неверные результаты. Мы демонстрируем эффективность наших целевых атак в ряде задач и моделей NLP, даже в сценариях, где доступ к внутренней модели ограничен. Наш подход особенно эффективен в условиях обучения с нулевым выстрелом, подчеркивая его адаптивность и переносимость как в традиционные, так и в разговорные системы ИИ. Кроме того, мы описываем стратегии смягчения, демонстрируя, что состязательное обучение и тонкая настройка могут усилить защиту моделей от таких атак. Хотя наша работа подчеркивает уязвимости моделей LLM и BERT к состязательным манипуляциям, она также закладывает основу для разработки более надежных моделей, продвигая двойную цель понимания и обеспечения безопасности систем NLP с черным ящиком. Используя целенаправленные состязательные примеры и методы на основе SHAP, мы не только выявляем слабые стороны существующих моделей, но и предлагаем стратегии повышения устойчивости ИИ к вводящим в заблуждение языковым данным.- Precise Language Deception: XAI Driven Targeted Adversarial Examples with Restricted Knowledge

Интересная идея - построение состязательных примеров для LLM с использованием SHAP

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

No comments: