Friday, January 09, 2026

Пока еще нет

Мы предлагаем трезвый взгляд на применение мультимодальных больших языковых моделей (MLLM) в автономном вождении, бросая вызов распространенным предположениям об их способности интерпретировать динамические сценарии вождения. Несмотря на достижения в моделях, таких как GPT-4o, их производительность в сложных условиях вождения остается в значительной степени неизученной. Наше экспериментальное исследование оценивает различные MLLM как модели мира, используя ракурсы автомобильной камеры, и показывает, что, хотя эти модели превосходно интерпретируют отдельные изображения, им трудно синтезировать связные повествования между кадрами, что приводит к значительным неточностям в понимании (i) динамики собственного транспортного средства, (ii) взаимодействия с другими участниками дорожного движения, (iii) планирования траектории и (iv) рассуждений об открытых сценах. Мы представляем набор данных EVAL-LLM-DRIVE и симулятор DRIVESIM для улучшения нашей оценки, подчеркивая пробелы в текущих возможностях MLLM и необходимость улучшенных моделей в динамических реальных условиях. - Probing Multimodal LLMs as World Models for Driving

No comments: