технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, January 09, 2026
Пока еще нет
Мы предлагаем трезвый взгляд на применение мультимодальных больших языковых моделей (MLLM) в автономном вождении, бросая вызов распространенным предположениям об их способности интерпретировать динамические сценарии вождения. Несмотря на достижения в моделях, таких как GPT-4o, их производительность в сложных условиях вождения
остается в значительной степени неизученной. Наше экспериментальное исследование оценивает различные MLLM как модели мира, используя ракурсы автомобильной
камеры, и показывает, что, хотя эти модели превосходно интерпретируют отдельные изображения, им трудно синтезировать связные повествования между кадрами, что приводит к значительным неточностям в понимании (i) динамики собственного транспортного средства, (ii) взаимодействия с другими участниками дорожного движения, (iii) планирования траектории и (iv) рассуждений об открытых сценах. Мы представляем набор данных EVAL-LLM-DRIVE и симулятор DRIVESIM для улучшения нашей оценки, подчеркивая пробелы в текущих возможностях MLLM и необходимость улучшенных моделей в динамических реальных условиях. - Probing Multimodal LLMs as World Models for Driving
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment