YOLOX против RT-DETRv2: баланс между устаревшими архитектурами и инновациями в области трансформаторов
Выбор оптимальной архитектуры для обнаружения объектов — это важное решение, которое влияет на задержку, точность и масштабируемость ваших проектов в области компьютерного зрения. В этом техническом анализе сравниваются YOLOX, надежная базовая CNN без анкоров от 2021 года, и RT-DETRv2, передовой моделью на основе трансформера, оптимизированной для приложений реального времени.
Хотя обе модели представляли собой значительный прорыв на момент своего выпуска, современные рабочие процессы все чаще требуют решений, которые объединяют высокую производительность с простотой развертывания. В ходе этого сравнения мы также рассмотрим, как современная технология Ultralytics объединяет лучшие характеристики этих архитектур, такие как вывод NMS, в единую эффективную структуру.
Ориентиры производительности
В следующей таблице представлено прямое сравнение ключевых показателей. Обратите внимание, что хотя RT-DETRv2 обеспечивает более высокую среднюю точность (mAP), он требует значительно больше вычислительных ресурсов, о чем свидетельствует количество FLOP.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOX: пионер Anchor-Free
YOLOX был представлен в 2021 году исследователями из Megvii, что ознаменовало отход от механизмов на основе якорей, которые доминировали YOLO более ранних YOLO (таких как YOLOv4 и YOLOv5). Он упростил конструкцию, удалив якорные рамки и введя развязанную головку, которая разделяет задачи классификации и локализации для лучшей конвергенции.
- Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
- Организация: Megvii
- Дата: 18 июля 2021 г.
- Arxiv:YOLOX: Exceeding YOLO Series in 2021
- GitHub:Megvii-BaseDetection/YOLOX
Архитектура и сильные стороны
YOLOX использует стратегию присвоения меток SimOTA (Simplified Optimal Transport Assignment), которая динамически присваивает положительные образцы объектам реальной действительности. Это позволяет модели более эффективно обрабатывать окклюзии и меняющиеся масштабы объектов, чем жесткие пороговые значения, IoU.
Простота архитектуры делает ее излюбленной базой для академических исследований. Ее «разделенная головка» — обработка классификационных и регрессионных функций в отдельных ветвях — повышает стабильность и точность обучения.
Совместимость с устаревшими системами
YOLOX остается отличным выбором для устаревших систем, построенных на основе кодовых баз 2021 года, или для исследователей, которым нужна чистая, независимая от анкоров базовая CNN для тестирования новых теоретических компонентов.
Однако, по сравнению с современными версиями, YOLOX использует для постобработки метод подавления не максимальных значений (NMS). Этот шаг вносит изменчивость задержки, что делает его менее предсказуемым для строго реальных промышленных приложений по сравнению с более новыми сквозными моделями.
RT-DETRv2: трансформаторы реального времени
RT-DETRv2 (Real-Time Detection Transformer v2) — это усовершенствованная версия оригинального RT-DETR, разработанная компанией Baidu. Она решает проблему высоких вычислительных затрат, обычно связанных с Vision Transformers (ViTs), за счет использования эффективного гибридного кодировщика, который быстро обрабатывает многомасштабные характеристики.
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang и др.
- Организация: Baidu
- Дата: 17 апреля 2023 г. (v1), 24 июля 2024 г. (v2)
- Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
- GitHub:lyuwenyu/RT-DETR
Архитектура и инновации
Отличительной особенностью RT-DETRv2 NMS при выводе. Используя декодер трансформатора с запросами объектов, модель напрямую прогнозирует фиксированный набор ограничительных рамок. Это устраняет необходимость в NMS, упрощая процессы развертывания и обеспечивая стабильное время вывода независимо от количества объектов в сцене.
RT-DETRv2 своего предшественника благодаря гибкому гибридному кодировщику и оптимизированной количественной оценке неопределенности, что позволяет ему достигать более высокой точности (до 54,3% mAP) на COCO .
Интенсивность использования ресурсов
Несмотря на свою точность, трансформаторные блоки RT-DETRv2 требуют большого объема памяти. Обучение обычно требует значительно больше CUDA , чем модели на основе CNN, а скорость вывода наGPU (например, на стандартных CPU) может быть низкой из-за сложности механизмов внимания.
Преимущества Ultralytics: Почему стоит выбрать YOLO26?
В то время как YOLOX служит надежной базой для исследований, а RT-DETRv2 границы точности трансформаторов, Ultralytics предлагает решение, которое сочетает в себе лучшие качества обоих подходов. Ultralytics разработан для разработчиков, которым требуется передовая производительность без сложности экспериментальных репозиториев.
Нативная сквозная архитектура без NMS
YOLO26 использует философию проектирования «End-to-End NMS, впервые примененную в YOLOv10 и RT-DETR реализует ее в рамках высокоэффективной архитектуры CNN. Это означает, что вы получаете упрощенное развертывание RT-DETRv2— без сложной логики постобработки — в сочетании с высокой скоростью CNN.
Непревзойденная эффективность для периферийных вычислений
В отличие от тяжелых блоков трансформаторов в RT-DETRv2, YOLO26 оптимизирован для разнообразного оборудования.
- Удаление DFL: благодаря удалению Distribution Focal Loss (фокальной потери распределения) структура модели упрощается, что повышает совместимость с ускорителями на границе и устройствами с низким энергопотреблением.
- CPU : YOLO26 обеспечивает до 43% более быстрое вычисление на ЦП по сравнению с предыдущими поколениями, что делает его лучшим выбором для развертывания Edge AI, где GPU недоступны.
Динамика продвинутого обучения
YOLO26 интегрирует MuSGD Optimizer, гибрид SGD оптимизатора Muon, вдохновленный обучением LLM. Это нововведение привносит стабильность обучения больших языковых моделей в компьютерное зрение, что приводит к более быстрой конвергенции и более надежным весам. Кроме того, улучшенные функции потерь, такие как ProgLoss и STAL, значительно повышают производительность при работе с небольшими объектами, что было слабым местом старых моделей, таких как YOLOX.
Безупречный рабочий процесс с Ultralytics
Возможно, самым большим преимуществом является Ultralytics . В то время как YOLOX и RT-DETRv2 требуют навигации по фрагментированным кодовым базам GitHub, Ultralytics единый интерфейс. Вы можете переключаться между задачами —обнаружением, сегментацией, оценкой позы, классификацией и OBB— просто изменив название модели.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
Заключение
Для академических исследований, требующих чистого базового уровня CNN, YOLOX остается актуальным вариантом. Для сценариев с достаточной GPU , где максимальная точность является единственным показателем, RT-DETRv2 является сильным конкурентом. Однако для реальных производственных систем, требующих баланса скорости, точности и простоты обслуживания, Ultralytics является лучшим выбором, предоставляя возможности нового поколения с эффективностью, необходимой для современного развертывания.
Дополнительная литература
Чтобы ознакомиться с другими высокопроизводительными моделями Ultralytics , посетите:
- YOLO11: надежная универсальная модель, поддерживающая широкий спектр задач в области компьютерного зрения.
- YOLOv10: первая YOLO , в которой реализовано сквозное обнаружение объектов в реальном времени.
- RT-DETR: Наша реализация трансформатора обнаружения в реальном времени для тех, кто предпочитает архитектуры на основе трансформаторов.