RTDETRv2 против DAMO-YOLO: полное руководство по современному детектированию объектов в реальном времени
Ландшафт компьютерного зрения постоянно развивается, а исследователи и инженеры стремятся создавать модели, которые идеально сочетают скорость, точность и эффективность. Две известные архитектуры, которые произвели значительный фурор в этой области, — это RTDETRv2, разработанная Baidu, и DAMO-YOLO, созданная Alibaba Group. Обе модели расширяют границы детектирования объектов, но при этом используют принципиально разные архитектурные подходы для достижения впечатляющих результатов.
В этом техническом сравнении мы подробно рассмотрим их архитектуры, методологии обучения и возможности развертывания в реальных условиях. Мы также исследуем, как эти модели соотносятся с более широкой экосистемой, особенно с высокооптимизированной Ultralytics Platform и передовой архитектурой YOLO26.
Архитектурные инновации
Понимание основных принципов работы этих моделей имеет решающее значение для инженеров по машинному обучению, перед которыми стоит задача выбора правильного инструмента для производственных сред.
RTDETRv2: Трансформерный подход
Развивая успех оригинального RT-DETR, RTDETRv2 использует гибридный энкодер и трансформерный декодер. Такая конструкция позволяет модели крайне эффективно обрабатывать глобальный контекст, что делает её исключительно хорошей в различении перекрывающихся объектов в плотных сценах. Самым значительным преимуществом этой архитектуры является её нативная конструкция без NMS (Non-Maximum Suppression). Устраняя этап постпроцессинга NMS, RTDETRv2 оптимизирует конвейер инференса и обеспечивает более стабильную задержку при различных аппаратных конфигурациях.
DAMO-YOLO: Повышение эффективности CNN
DAMO-YOLO, с другой стороны, остается верной весьма успешной линейке YOLO на базе CNN, но внедряет несколько прорывных улучшений. Она использует нейроархитектурный поиск (NAS) для оптимизации своего бэкбона, обеспечивая максимальную эффективность извлечения признаков. Кроме того, в ней реализованы эффективная сеть RepGFPN (перепараметризованная обобщенная пирамида признаков) и архитектура ZeroHead, наряду с методами AlignedOTA и повышения точности через дистилляцию. Эти инновации позволяют DAMO-YOLO достигать высокой скорости инференса при сохранении конкурентоспособного показателя mAPval.
В то время как RTDETRv2 фокусируется на использовании механизмов внимания для глобального понимания признаков без NMS, DAMO-YOLO максимизирует традиционную эффективность CNN с помощью NAS и продвинутой дистилляции, требуя стандартной постобработки, но предлагая явные преимущества в скорости на определенных аппаратных средствах.
Сравнение производительности и метрик
При оценке моделей для развертывания метрики производительности, такие как средняя точность (mAP), скорость инференса и количество параметров, имеют первостепенное значение. Ниже представлено детальное сравнение двух семейств моделей.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Анализ результатов
Как видно из таблицы, RTDETRv2-x достигает наивысшей точности с показателем mAPval 54.3, демонстрируя мощь архитектуры трансформеров на сложных валидационных наборах, таких как датасет COCO. Однако это достигается ценой значительно большего количества параметров (76M) и операций FLOPs.
И наоборот, DAMO-YOLOt (Tiny) исключительно легкая, требующая всего 8.5M параметров, что делает её невероятно быстрым вариантом для сред, где память CUDA сильно ограничена. DAMO-YOLO обычно обеспечивает выгодный компромисс между скоростью и точностью для устаревших периферийных устройств.
Экосистема, удобство использования и преимущество Ultralytics
Хотя независимые репозитории, такие как официальный GitHub RT-DETR и GitHub DAMO-YOLO, предоставляют исходный код для обучения этих моделей, их интеграция в производственные конвейеры часто требует обширного шаблонного кода и ручной оптимизации.
Здесь экосистема Ultralytics радикально упрощает работу разработчика. Ultralytics интегрирует модели, такие как RTDETRv2, непосредственно в свой унифицированный API, позволяя тебе обучать, проверять и экспортировать модели одной строкой кода. Более того, модели Ultralytics известны своими минимальными требованиями к памяти во время обучения по сравнению с тяжелыми автономными репозиториями на базе трансформеров.
Пример кода: Бесшовная интеграция
Вот как легко ты можешь использовать библиотеку Ultralytics Python для запуска инференса. API остается единообразным вне зависимости от того, используешь ли ты трансформерную модель или современную CNN.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")
# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")
# Display the results
results_yolo[0].show()Используя API Ultralytics, ты можешь бесшовно экспортировать свои обученные модели в форматы, такие как TensorRT, ONNX или CoreML, с помощью простой команды model.export(format="engine"), что значительно снижает сложность развертывания.
Идеальные сценарии использования
Выбор между этими архитектурами полностью зависит от специфических требований твоего проекта:
- RTDETRv2 превосходна в серверной обработке, где доступно много VRAM. Её осведомленность о глобальном контексте идеально подходит для медицинской визуализации и анализа плотных толп, где часты перекрытия.
- DAMO-YOLO отлично подходит для встроенных IoT-приложений и быстродвижущихся промышленных конвейеров, где малое количество параметров и высокий FPS являются строгими требованиями.
Будущее: Ultralytics YOLO26
Хотя и у RTDETRv2, и у DAMO-YOLO есть свои достоинства, область компьютерного зрения развивается стремительно. Для новых проектов новейшая Ultralytics YOLO26 представляет собой идеальный синтез скорости, точности и удобства для разработчика.
YOLO26 использует End-to-End NMS-Free дизайн, обеспечивая основное преимущество трансформеров без огромных вычислительных затрат. Она включает инновационный оптимизатор MuSGD — вдохновленный обучением больших языковых моделей — для стабильной и быстрой сходимости. Кроме того, с удалением DFL (Distribution Focal Loss удален для упрощенного экспорта и лучшей совместимости с периферийными/маломощными устройствами) YOLO26 обеспечивает до 43% более быстрый инференс на CPU, что делает её безоговорочным чемпионом для граничных вычислений. Дополнительно, ProgLoss + STAL предоставляет улучшенные функции потерь с заметным прогрессом в распознавании мелких объектов, что критически важно для IoT, робототехники и аэрофотосъемки.
В отличие от моделей, ограниченных исключительно ограничивающими рамками (bounding boxes), семейство YOLO26 предлагает непревзойденную универсальность, поддерживая задачи от сегментации экземпляров и оценки позы до ориентированных ограничивающих рамок (OBB), которыми можно бесшовно управлять через интуитивно понятную Ultralytics Platform.
Подробности модели и ссылки
RTDETRv2
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 2024-07-24
- Arxiv: 2407.17140
- GitHub: Репозиторий RT-DETR
DAMO-YOLO
- Авторы: Сяньчжэ Сюй (Xianzhe Xu), Ици Цзян (Yiqi Jiang), Вэйхуа Чэнь (Weihua Chen), Илунь Хуан (Yilun Huang), Юань Чжан (Yuan Zhang) и Сююй Сунь (Xiuyu Sun)
- Организация: Alibaba Group
- Дата: 23.11.2022
- Arxiv: 2211.15444v2
- GitHub: Репозиторий DAMO-YOLO
Пользователям, заинтересованным в других сравнениях, предлагаем ознакомиться с нашими руководствами по RTDETRv2 против YOLO11 или DAMO-YOLO против YOLOv8, чтобы увидеть, как эти модели работают в сравнении с предыдущими поколениями семейства Ultralytics.