AbavaNet technical corner: Зеленый щит

Saturday, March 14, 2026

Зеленый щит

Крупные языковые модели (LLM) все чаще используются, однако их выходные данные могут быть нестабильными и чувствительными к обычным, неконфликтным изменениям в формулировке запросов пользователями, что является недостатком, недостаточно учитываемым существующими методами тестирования на проникновение. Мы предлагаем «Зеленую защиту» (Green Shielding) — ориентированную на пользователя исследовательскую программу для создания эмпирической основы для рекомендаций по внедрению путем характеристики того, как «безобидные» изменения входных данных влияют на поведение модели и выявляют практические компромиссы между релевантными задаче «целями». «Зеленая защита» реализуется с помощью трех компонентов: реалистичных эталонных показателей, «соответствующих задаче эталонных стандартов и метрик» и режимов возмущений, отражающих распространенные пользовательские «вариации». Мы применяем эту программу в медицинской диагностике. Во-первых, на обычных медицинских эталонных показателях с одним ответом мы показываем, что небольшие изменения в содержании, формате и тоне подсказки заметно влияют на правильность. Затем мы представляем HealthCareMagic-Diagnosis (HCM-Dx), новый эталонный показатель, полученный из набора данных HealthCareMagic-100K, состоящий из диагностических запросов, составленных пациентами и адаптированных для систематической оценки. Для этого тематического исследования мы создаем структурированные эталонные наборы диагнозов и клинически обоснованные метрики для оценки дифференциальных диагнозов, сохраняя при этом масштабируемость за счет построения эталонных данных с помощью LLM и автоматического сопоставления синонимичных диагнозов. В нескольких перспективных LLM мы обнаружили, что стандартные вариации подсказок демонстрируютпаретоподобные компромиссы между правдоподобностью, охватом высоковероятных и критически важных для безопасности состояний, и широтой дифференциальных диагнозов. В частности, нейтрализация подсказок, которая удаляет общие факторы на уровне пользователя, повышает правдоподобность и приводит к более кратким дифференциальным диагнозам, похожим на клинические, одновременно уменьшая охват высоковероятных и критически важных для безопасности состояний. В совокупности эти результаты показывают, что полезность и надежность зависят не только от возможностей модели, но и от выбора вариантов взаимодействия, и что Green Shielding помогает обосновать научно обоснованные, ориентированные на пользователя рекомендации для более безопасного внедрения в областях с высокими рисками. Тематическое исследование медицинской диагностики проводится в тесном сотрудничестве с клиницистами и руководствуется структурой PCS для достоверной науки о данных. Наши данные и код доступны по адресу https://github.com/aaron-jx-li/green-shielding. - Green Shielding: A User-Centric Approach Towards Trustworthy AI LLM-Assisted Medical Diagnosis as a Case Study

См. также другие публикации, посвященные LLM

Saturday, March 14, 2026

Зеленый щит

No comments: