Friday, September 02, 2022

Распознавание объектов

Визуальные трансформеры для распознавания объектов. И самое интересное из этой статьи - это реальные показатели качества распознавания: "A ViTDet based on ViT-Huge performed 61 (a measure of how many objects were correctly identified in their correct location, higher is better) and instance segmentation with 53.1 average precision. SwinV2-L, based on a transformer with a hierarchical architecture, performed bounding-box detection with 60.2 average precision and instance segmentation with 52.1 average precision."

То есть раньше идентифицировали 60.2% объектов, улучшенный метод - позволил идентифицировать 61.3

Большой скачок, однако ...

No comments: