Wednesday, October 22, 2025

Иллюзия мышления

В последних поколениях передовых языковых моделей появились большие модели рассуждений (LRM), которые генерируют детальные мыслительные процессы перед выдачей ответов. Хотя эти модели демонстрируют улучшенную производительность на тестах рассуждений, их фундаментальные возможности, масштабируемые свойства и ограничения остаются недостаточно изученными. Текущие оценки в основном сосредоточены на устоявшихся математических и кодинговых тестах, делая акцент на точности окончательного ответа. Однако эта парадигма оценки часто страдает от загрязнения данных и не даёт понимания структуры и качества следов рассуждений. В данной работе мы систематически исследуем эти пробелы с помощью управляемых сред для головоломок, которые позволяют точно манипулировать сложностью композиции, сохраняя при этом согласованность логических структур. Такая конфигурация позволяет анализировать не только окончательные ответы, но и внутренние следы рассуждений, предоставляя представление о том, как «думают» LRM. Благодаря обширным экспериментам с различными головоломками мы показываем, что передовые LRM сталкиваются с полным падением точности за пределами определённых уровней сложности. Более того, они демонстрируют контринтуитивный предел масштабирования: их усилия по рассуждению возрастают со сложностью задачи до определённого момента, а затем снижаются, несмотря на наличие адекватного бюджета токенов. Сравнивая LRM с их стандартными аналогами LLM при эквивалентных вычислениях вывода, мы выделяем три режима производительности: (1) задачи низкой сложности, где стандартные модели неожиданно превосходят LRM, (2) задачи средней сложности, где дополнительное мышление в LRM демонстрирует преимущество, и (3) задачи высокой сложности, где обе модели полностью терпят крах. Мы обнаружили, что LRM имеют ограничения в точных вычислениях: они не используют явные алгоритмы и рассуждают непоследовательно при решении разных головоломок. Мы также более глубоко исследуем следы рассуждений, изучая закономерности исследуемых решений и анализируя вычислительное поведение моделей, проливая свет на их сильные и слабые стороны, и, в конечном счёте, поднимая важные вопросы об их истинных возможностях рассуждения. - The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

Apple (Samy Bengio среди соавторов) о том, что LLM все-таки не очень копенгаген. Просто изощренный pattern matching.

No comments: