AbavaNet technical corner
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Wednesday, March 11, 2026
Плохому не научит?
Универсальные атаки на LLM
Для враждебного зондирования мы используем следующие основные методы:
- Враждебные суффиксы: добавление компактной последовательности оптимизированных токенов или фраз к входной подсказке, которая систематически изменяет поведение модели при завершении запроса, чтобы получить определенные результаты.
- Ролевая игра: представление запросов в виде вымышленного, гипотетического, или сценария, основанного на личности, чтобы побудить модель принять поведение или выдать результаты, которые в противном случае были бы ограничены.
- Убеждение: Использование эмоциональных, социальных или авторитетных сигналов в запросе — таких как апелляции к экспертным знаниям, срочности или свидетельствам коллег — для того, чтобы склонить модель к выдаче более покладистых или разрешительных результатов.
- Обфускация: Преобразование или сокрытие намерения запроса с помощью кодирования, нетипичной орфографии, перевода или других поверхностных искажений для обхода детекторов, основанных на шаблонах.
- Многошаговое построение структуры запроса: Разбиение целевого запроса на последовательность промежуточных запросов или задач таким образом, что каждый шаг по отдельности является безопасным, но вся цепочка в целом дает запрещенный результат.
- Предварительная подготовка в контексте: Предоставление выбранных примеров в запросе, которые неявно учат модель выдавать целевой тип (небезопасного) ответа.
- Агрессивная токенизация: Агрессивная токенизация вредоносной строки для обхода ограничений безопасности и выравнивания моделей LLM.
Каждый запрос систематически сопоставляется с каждым методом атаки, генерируя детализированную сетку оценок действий противника. Наша структура разработана с учетом масштабируемости и расширяемости. Новые категории запросов и дополнительные методы исследования могут быть легко интегрированы, что позволяет постоянно адаптироваться к возникающим рискам и методам атак.
Вот схожие работы и похожий код
См. также другие публикации, посвященные LLM
Tuesday, March 10, 2026
Безопасность IoT
См. также другие публикации по теме IoT
Monday, March 09, 2026
MCP - щит
См. другие публикации, посвященные MCP
Автоматизация атак на ИИ-агентов
Sunday, March 08, 2026
Быстрое переобучение
Очень интересно - это быстрая (за один проход) кастомизация LLM
См. также другие публикации, посвященные LLM
Saturday, March 07, 2026
Атаки губки для LLM
См. также другие публикации, посвященные LLM
Friday, March 06, 2026
Глубокое обучение в детекции атак на LLM
См. также другие публикации, посвященные LLM
Thursday, March 05, 2026
Агенты и безопасность - совместимы ли эти понятия?
См. также другие публикации, посвященные агентам
Wednesday, March 04, 2026
Детекция косвенных инъекций подсказок
См. также другие публикации, посвященные LLM
Tuesday, March 03, 2026
Конференция "Искусственный интеллект: практическое приложение, вопросы доверия и информационной безопасности" 2026
Пленарное заседание. РАЗВИТИЕ ИИ В ОТРАСЛЯХ И РЕГИОНАХ. ПРОГНОЗЫ И ПЕРСПЕКТИВЫ
Евгений Хасин, Минцифры РФ: Искусственный интеллект. Вопросы доверия и безопасности
Василий Елистратов, Управление Президента РФ по государственной политике в сфере оборонно-промышленного комплекса: Применение технологий искусственного интеллекта в интересах обеспечения обороноспособности страны
Эдуард Шантаев, ФГАУ "ЦИТ": Развитие и перспективы внедрения в промышленность передовых технологий ИИ
Евгений Бурнаев, Сколтех: ИИ под контролем: риски в агентных системах и методы их управления
Вячеслав Береснев, Ассоциация лабораторий по развитию искусственного интеллекта: Проблема доверия в рынке ИИ. Методы решения
Секция. Применение искусственного интеллекта в различных секторах экономики
Евгений Осадчук, АНО "Цифровая экономика": Тренды применения ИИ в отраслях
Андрей Королев, Госкорпорация "Росатом": Об опыте использования искусственного интеллекта (ИИ) в корпорации Росатом
Дмитрий Вандышев, СберТех: Комплексная защита AI в СберТехе
Алексей Парфентьев, Сёрчинформ: Технологии ИИ для защиты конфиденциальной информации
Владислав Тушканов, Лаборатория Касперского: ИИ в SOC: желания и возможности
Дмитрий Узлов, Мобиус Безопасность: ИИ как серая зона ИБ: по секрету всему свету
Пётр Метёлкин, ФГУП "ЗащитаИнфоТранс": Искусственный интеллект в отрасли транспорта и логистики. Актуальные вызовы и возможности
Алексей Титов, ГК ФСК: Проектирование цифровых решений с ИИ: подходы и практика
Алексей Остроушко, Сеть клиник "Будь здоров": Практический опыт использования ИИ в сети клиник Будь Здоров
Круглый стол. ИИ-разработка сегодня: требования, стандарты, риски, вопросы безопасности
Евгений Бурнаев, Сколтех: Инженерный ИИ: интеллектуальная автоматизация сложных циклов проектирования и управления инженерными системами
Сергей Денисов, Альфа-Банк: Автономные агенты и автоматизация бизнес-процессов
Евгений Колесников, Яндекс: Создание кодового ассистента
Михаил Куляскин, X5 Tech: От слов к данным: строим Text2SQL ассистента для бизнеса
Алексей Щербаков, СберТех: "Свой Copilot" — свои уязвимости: почему локальная LLM для разработки не панацея безопасности
Оценка рисков для агентов
См. также другие публикации, посвященные агентам
Monday, March 02, 2026
О содержательном тестировании ИИ-агентов
См. также другие публикации, посвященные агентам
INJOIT vol. 14, no. 3
Темы статей:
- Mathematical Modeling of Geo-thermo-mechanical Processes in Lithospheric-asthenospheric Subduction Systems using Numerical Methods
- Математическое моделирование восстановления глубины расположения заряда в уплотняемых гидровзрывом лёссах
- Оптимизация периодичности тестирования памяти вычислительных систем
- Сравнение методов векторизации названий товаров: Компромисс между точностью и вычислительной эффективностью в e-commerce
- Сравнение нейросетевых архитектур для распознавания русской речи с иностранным акцентом
- Выбор целевых признаков для классификации и кластерного анализа структур отношений объектов
- Метод объяснимости трансформера BERT при решении задачи классификации текстов
- Statistical Analysis of Subproblems Bound Distributions in the Branch-and-Bound Algorithm for Random Traveling Salesman Instances
- RESC: Relation Extraction by Sequence Compression
- Математическое и алгоритмическое обеспечение для поддержки принятия решений при составлении расписания
- Deep Learning Approach Towards Plant Disease Detection
- Искусственный Интеллект в Кибербезопасности. Хроника. Выпуск 6
- Математическая модель гибридной системы противодействия угрозам нарушения информационной безопасности в информационных системах на основе квантового распределения ключей и постквантовой криптографии
- LLM4CodeSec: A Framework for Evaluating the Effectiveness of Large Language Models in Source Code Vulnerability Detection
- RISC-V и приложения Искусственного Интеллекта
Архив журнала находится здесь.
/via Лаборатория ОИТ
Sunday, March 01, 2026
Искусственный интеллект в кибербезопасности. Хроника. Выпуск 6
Архитектура каждого выпуска нашей серии неизменна и включает в себя три тематических блока, позволяющих комплексно охватить предметную область. Первый блок посвящен разбору инцидентной базы и анализу актуальных угроз. Здесь мы детально рассматриваем реальные практические кейсы, выявляем новые уязвимости и оцениваем возникающие риски, напрямую связанные с интеграцией алгоритмов искусственного интеллекта в защитные контуры и атакующие инструментарии. Второе направление нашей работы - это детальный обзор текущего состояния и динамики нормативно-правового поля. Понимание этих процессов крайне важно, поскольку именно они формируют те правовые и операционные рамки, в которых предстоит развиваться безопасным системам искусственного интеллекта в ближайшем будущем. Наконец, третий блок нашей аналитики - это научно-технологическая хроника. Каждый выпуск содержит тщательно составленный аннотированный перечень наиболее значимых, по нашему мнению, научных статей, исследовательских отчетов авторитетных центров и описаний инновационных разработок. - отсюда
Что вы хотели знать о рандомизации
Saturday, February 28, 2026
Predictive Query Language
См. также статью о машинном обучении на реляционных базах данных
Friday, February 27, 2026
Деанонимизация с помощью LLM
См. также другие публикации, посвященные LLM
Thursday, February 26, 2026
Агент-доктор
Dr. CaBot — это агент искусственного интеллекта, который имитирует диагнозы опытных врачей на основе тысяч подробных клинических случаев. Группа терапевтов обнаружила, что его диагнозы более точны и обоснованы, чем диагнозы их коллег-людей. Работа была проведена исследователями из Гарвардской медицинской школы, Медицинского центра Бет Израэль Диконесс, Бригхэмской женской больницы, Массачусетской больницы общего профиля, Университета Рочестера и Гарвардского университета.
Ключевой вывод: Хотя медицинские статьи обычно содержат важные знания, они не предоставляют диагностических рассуждений в последовательном стиле изложения. Однако уникальный корпус литературы предоставляет эту информацию. В период с 1923 по 2025 год в «Нью-Инглендском журнале медицины» было опубликовано более 7000 отчетов о мероприятиях, известных как клинико-патологические конференции (КПК). В этих отчетах выдающиеся врачи анализируют медицинские случаи на основе физического осмотра, анамнеза и другой диагностической информации, формируя уникальный корпус пошаговых медицинских рассуждений. Имея описание симптомов и аналогичный случай из КПК, модель может перенять стиль рассуждений и изложения эксперта-врача.
Как это работает: Авторы оцифровали отчеты КПК по 7102 случаям, опубликованным в период с 1923 по 2025 год. Они создали Dr. CaBot, агентную систему, которая использует OpenAI o3 для генерации текста. Для тестирования Dr.CaBot и других диагностических систем они разработали CPC-Bench, состоящий из 10 задач, от ответов на визуальные вопросы до создания планов лечения.
Модель OpenAI text-embedding-3-small встроила отчеты о случаях CPC, а Dr. CaBot сохранил эти встраивания в базу данных. Модель встраивания встроила 3 миллиона аннотаций медицинских статей, взятых из OpenAlex, индекса научной литературы. Получив описание симптомов, text-embedding-3-small встроила его. Dr. CaBot извлек два отчета о случаях CPC с похожими встраиваниями. Для получения дополнительного контекста, имея симптомы и извлеченные отчеты о случаях CPC, o3 сгенерировала до 25 поисковых запросов. Text-embedding-3-small встроила запросы, а Dr. CaBot использовала встраивания для извлечения наиболее похожих аннотаций. На основе симптомов, отчетов о случаях CPC, запросов и извлеченных аннотаций o3 сгенерировала диагноз и обоснование в его поддержку.
Результаты: Для количественной оценки Dr. CaBot авторы использовали собственный бенчмарк CPC-Bench. Для качественной оценки они попросили врачей-терапевтов оценить ход рассуждений модели.
В тесте CPC-Bench модель, получив описание симптомов, должна составить список правдоподобных диагнозов и ранжировать их по вероятности. Для оценки правильности диагноза используется GPT-4.1. Dr. CaBot поставил правильный диагноз на первое место в 60% случаев, превзойдя базовый показатель в 24% среди 20 врачей-терапевтов. В ходе слепой оценки пять врачей-терапевтов оценили рассуждения Dr. CaBot выше, чем их коллеги-люди. На вопрос о том, принадлежит ли диагноз и рассуждения врачу-человеку или системе искусственного интеллекта, они правильно определили источник в 26% случаев (что говорит о том, что стиль рассуждений модели часто казался судьям более человечным, чем самим людям)!
Почему это важно: В клинической практике, где врачам приходится взаимодействовать с пациентами, специалистами, больницами, страховыми компаниями и так далее, одного правильного диагноза недостаточно. Он должен быть подкреплен здравым смыслом. Способность рассуждать, приводить доказательства и представлять аргументы в профессиональном формате — это шаг к созданию автоматизированных медицинских помощников, которые смогут сотрудничать с врачами и завоевывать доверие пациентов. - отсюда
Wednesday, February 25, 2026
Практика ИИ-агентов
См. также другие публикации, посвященные агентам
Коалиция за безопасный ИИ
Что такое CoSAI?
Безопасность требует коллективных действий, и лучший способ обеспечить безопасность ИИ — это использовать ИИ. Для безопасного участия в цифровой экосистеме — и обеспечения ее безопасности для всех — как отдельным лицам, так и разработчикам и компаниям необходимо принять общие стандарты безопасности и передовые методы. ИИ не является исключением.
Коалиция за безопасный ИИ (CoSAI) активно решает эту задачу, способствуя созданию экосистемы сотрудничества различных заинтересованных сторон для коллективного инвестирования в исследования безопасности ИИ, обмена опытом и передовыми методами в области безопасности, а также создания технических решений и методологий с открытым исходным кодом для безопасной разработки и развертывания ИИ.
С момента своего запуска CoSAI добилась значительных успехов в укреплении безопасности ИИ благодаря сотрудничеству с промышленностью и академическими кругами по нескольким важнейшим направлениям работы:
Безопасность цепочки поставок программного обеспечения для систем ИИ
Подготовка специалистов по защите к меняющейся ситуации в сфере безопасности
Управление рисками в области безопасности ИИ
Шаблоны безопасного проектирования для агентных систем
Коалиция за безопасный ИИ выпустила руководство по безопасности MCP
