Большие языковые модели (LLM) произвели революцию в разговорном ИИ, однако их устойчивость в длительных многоходовых диалогах остается плохо изученной. Существующие оценочные модели сосредоточены на статических эталонах и оценках отдельных ходов, не учитывая временную динамику ухудшения качества разговора, характерную для реальных взаимодействий. В этой работе мы представляем крупномасштабный анализ устойчивости разговора, моделирующий сбой как процесс «время до события» на протяжении 36 951 хода с использованием 9 современных LLM на эталоне MT-Consistency. Наша модель сочетает в себе модели пропорциональных рисков Кокса, ускоренного времени сбоя (AFT) и случайного леса выживания с простыми признаками семантического дрейфа. Мы обнаружили, что резкий семантический дрейф от подсказки к подсказке резко увеличивает риск несогласованности, в то время как кумулятивный дрейф, вопреки интуиции, оказывает защитное действие, предполагая адаптацию в разговорах, которые выдерживают множественные изменения. Модели AFT, с учетом взаимодействия модели и дрейфа, обеспечивают наилучшее сочетание дискриминации и калибровки, а проверки пропорциональных рисков выявляют систематические нарушения для ключевых ковариат дрейфа, объясняя ограничения моделирования в стиле Кокса в данном контексте. Наконец, мы показываем, что облегченную модель AFT можно превратить в монитор риска на уровне репликации, который отмечает большинство неудачных диалогов за несколько реплик до первого противоречивого ответа, при этом сохраняя низкий уровень ложных срабатываний. Эти результаты подтверждают, что анализ выживаемости является мощной парадигмой для оценки устойчивости к многорепетиционным ситуациям и для разработки практических мер защиты для разговорных систем искусственного интеллекта. -
Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks
Интересная идея - проверять нужно не отдельные фразы, а диалог
См. также другие публикации, посвященные LLM
No comments:
Post a Comment