Открыто-словарное обнаружение объектов - построение модели, способной обнаруживать объекты за пределами набора видимых категорий
при обучении, что позволяет пользователю указывать категории интереса при выводе без необходимости
перетренировки моделей. Испольуется стандартная двухэтапная архитектура детектора объектов. Авторы рассматривают три способа указания новых категорий: через
языковые описания, с помощью образцов изображений или через комбинацию этих двух подходов.
Для описания объектов используется LLM. Также предложен простой метод объединения информации из языковых описаний и образцов изображений с получением мультимодального классификатора.
Отсюда - Multi-Modal Classifiers for Open-Vocabulary Object Detection
No comments:
Post a Comment