AbavaNet technical corner
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Tuesday, March 24, 2026
Monday, March 23, 2026
Состязательные атаки в партийной газете
Самое примечательное в тексте - это впервые упоминающиеся в официальном китайском дискурсе новые угрозы безопасности: 数据投毒 (атака типа "отравление данных" - внесение “плохих” данных, чтобы модель училась неправильно), 用户画像攻击 (атаки через профилирование пользователя и извлечение чувствительных выводов), 模型逆向推理 (обратный вывод из модели, попытки вытащить из нее скрытую информацию или свойства обучающих данных). Эти слова давно живут в китайской научной и экспертной среде, но здесь они впервые звучат в программном тексте уровня обсуждения пятилетки, что выводит технические задачи на уровень решения политических вопросов, про которые раньше в официальных текстах писали лишь в самом общем виде.
В США и ЕС похожая терминология используется давно, преимущественно в рекомендациях правового регулирования стандартов хранения и обработки данных (NIST, ENISA и другие), но такие документы остаются на уровне технической имплементации требований и рекомендаций по защите прав и инфраструктуры. В Китае упоминание терминологии новых угроз на уровне стратегического планирования пятилеток руководящими лицами может говорить о том, что за этим последует жесткое институциональное продолжение в виде требований, проверок и административных процедур на уровне обеспечения национальной безопасности.
/via Атлас Бойцзе
Saturday, March 21, 2026
Friday, March 20, 2026
GitHub AI репозитории
n8n - github.com/n8n-io/n8n
Ollama - github.com/ollama/ollama
Langflow - github.com/langflow-ai/langflow
Dify - github.com/langgenius/dify
LangChain - github.com/langchain-ai/langchain
Open WebUI - github.com/open-webui/open-webui
DeepSeek-V3 - github.com/deepseek-ai/DeepSeek-V3
Google Gemini CLI - github.com/google-gemini/gemini-cli
RAGFlow - github.com/infiniflow/ragflow
Claude Code - github.com/anthropics/claude-code
Thursday, March 19, 2026
Об основах государственного регулирования сфер применения технологий искусственного интеллекта в Российской Федерации
"Разработчик модели искусственного интеллекта, оператор системы искусственного интеллекта, владелец сервиса искусственного интеллекта несут ответственность в соответствии с законодательством Российской Федерации за результат, полученный с использованием искусственного интеллекта, нарушающий законодательство Российской Федерации, при условии, что указанные лица заведомо знали или должны были знать о возможности получения такого результата с использованием модели, системы или сервиса искусственного интеллекта, разработчиком, оператором или владельцем которых они являются, если в результате следственных действий не будет доказано обратное." - о галлюцинациях (или о джелбрейках) точно все должны были знать ...
LLM Fuzzer
См. также другие публикации, посвященные LLM
Wednesday, March 18, 2026
Tuesday, March 17, 2026
LLM в атаке
См. также другие публикации, посвященные LLM
Monday, March 16, 2026
MCP secure
См. также другие публикации, посвященные MCP
Sunday, March 15, 2026
Saturday, March 14, 2026
Зеленый щит
См. также другие публикации, посвященные LLM
Friday, March 13, 2026
Универсальный состязательный патч
См. также другие публикации по теме физические атаки
Thursday, March 12, 2026
Wednesday, March 11, 2026
Плохому не научит?
Универсальные атаки на LLM
Для враждебного зондирования мы используем следующие основные методы:
- Враждебные суффиксы: добавление компактной последовательности оптимизированных токенов или фраз к входной подсказке, которая систематически изменяет поведение модели при завершении запроса, чтобы получить определенные результаты.
- Ролевая игра: представление запросов в виде вымышленного, гипотетического, или сценария, основанного на личности, чтобы побудить модель принять поведение или выдать результаты, которые в противном случае были бы ограничены.
- Убеждение: Использование эмоциональных, социальных или авторитетных сигналов в запросе — таких как апелляции к экспертным знаниям, срочности или свидетельствам коллег — для того, чтобы склонить модель к выдаче более покладистых или разрешительных результатов.
- Обфускация: Преобразование или сокрытие намерения запроса с помощью кодирования, нетипичной орфографии, перевода или других поверхностных искажений для обхода детекторов, основанных на шаблонах.
- Многошаговое построение структуры запроса: Разбиение целевого запроса на последовательность промежуточных запросов или задач таким образом, что каждый шаг по отдельности является безопасным, но вся цепочка в целом дает запрещенный результат.
- Предварительная подготовка в контексте: Предоставление выбранных примеров в запросе, которые неявно учат модель выдавать целевой тип (небезопасного) ответа.
- Агрессивная токенизация: Агрессивная токенизация вредоносной строки для обхода ограничений безопасности и выравнивания моделей LLM.
Каждый запрос систематически сопоставляется с каждым методом атаки, генерируя детализированную сетку оценок действий противника. Наша структура разработана с учетом масштабируемости и расширяемости. Новые категории запросов и дополнительные методы исследования могут быть легко интегрированы, что позволяет постоянно адаптироваться к возникающим рискам и методам атак.
Вот схожие работы и похожий код
См. также другие публикации, посвященные LLM
Tuesday, March 10, 2026
Безопасность IoT
См. также другие публикации по теме IoT
Monday, March 09, 2026
MCP - щит
См. другие публикации, посвященные MCP


