YOLOX против RTDETRv2: Оценка эволюции моделей обнаружения объектов в реальном времени
Выбор оптимальной архитектуры для приложений компьютерного зрения требует тщательного баланса между точностью, скоростью инференса и возможностью развертывания. В этом всестороннем техническом анализе мы исследуем фундаментальные различия между YOLOX, весьма успешной безанкерной архитектурой CNN, и RTDETRv2, современным трансформером для обнаружения объектов в реальном времени.
Хотя обе модели внесли значительный вклад в область обнаружения объектов, разработчики, создающие готовые к производству приложения, часто обнаруживают, что современные альтернативы, такие как Ultralytics YOLO26, обеспечивают превосходную эффективность обучения, более низкие требования к памяти и более надежную экосистему развертывания.
YOLOX: Преодоление разрыва между исследованиями и промышленностью
YOLOX появился как очень популярная безанкерная адаптация серии YOLO, представив упрощенную конструкцию, которая обеспечила впечатляющие улучшения производительности на момент ее выпуска.
- Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
- Организация:Megvii
- Дата: 18 июля 2021 г.
- Ссылки:Arxiv, GitHub, Документация
Архитектурные инновации
YOLOX перевел семейство YOLO на безанкерную парадигму, интегрировав разделенную голову (decoupled head) и передовую стратегию назначения меток SimOTA. За счет исключения анкерных боксов архитектура значительно сократила количество проектных параметров и улучшила обобщающую способность на различных эталонных наборах данных. Его облегченные версии, YOLOX-Nano и YOLOX-Tiny, стали популярным выбором для развертывания приложений компьютерного зрения на базе ИИ на периферийных устройствах.
Соображения по устаревшим системам
Хотя YOLOX принес заметные достижения, его зависимость от сложных конвейеров аугментации и старых процедур постобработки (таких как традиционная NMS) может приводить к более высокой задержке по сравнению с нативными сквозными моделями.
RTDETRv2: Развитие трансформеров компьютерного зрения реального времени
Опираясь на основу своего предшественника, RTDETRv2 использует мощь Vision Transformers (ViTs) для достижения высококонкурентной точности без ущерба для скорости инференса в реальном времени.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация:Baidu
- Дата: 2024-07-24
- Ссылки:Arxiv, GitHub
Архитектурные инновации
RTDETRv2 фундаментально переосмысливает конвейер обнаружения, используя архитектуру на основе трансформеров, которая нативно обходит Non-Maximum Suppression (NMS). Это достигается за счет гибридного кодировщика и выбора запросов с учетом IoU, что улучшает инициализацию объектных запросов. Модель эффективно обрабатывает многомасштабные признаки, позволяя ей захватывать сложные детали в комплексных средах, таких как обнаружение объектов на ночных видеозаписях дорожного движения.
Однако трансформеры по своей природе ресурсоемки. Обучение RTDETRv2 обычно требует значительно больше памяти GPU и вычислительных циклов, чем альтернативы на основе CNN, что может стать препятствием для команд, работающих в условиях строгих бюджетных ограничений или требующих частой настройки модели.
Таблица сравнения производительности
Для объективной оценки этих архитектур мы исследуем их производительность на наборе данных COCO. В таблице ниже показаны компромиссы между точностью (mAP), количеством параметров и вычислительной сложностью.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Хотя RTDETRv2 достигает впечатляющей точности, YOLOX сохраняет преимущество в легковесных профилях параметров, особенно с его вариантами Nano и Tiny.
Сценарии использования и рекомендации
Выбор между YOLOX и RT-DETR зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать YOLOX
YOLOX является отличным выбором для:
- Исследования безъякорного detect: Академические исследования, использующие чистую, безъякорную архитектуру YOLOX в качестве основы для экспериментов с новыми головами detect или функциями потерь.
- Сверхлегкие граничные устройства: Развертывание на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый объем (0,91 млн параметров) варианта YOLOX-Nano.
- Исследования по назначению меток SimOTA: Исследовательские проекты, изучающие стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.
Когда выбрать RT-DETR
RT-DETR рекомендуется для:
- Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
- Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
- Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Преимущество Ultralytics: YOLO26
Хотя YOLOX и RTDETRv2 обладают явными преимуществами, недавно выпущенная Ultralytics YOLO26 переопределяет современный уровень для ИИ-зрения, разрешая исторические компромиссы между скоростью, точностью и простотой развертывания.
1. Сквозная архитектура без NMS
Вдохновляясь трансформерными моделями при сохранении эффективности CNN, YOLO26 обладает нативно сквозной NMS-free архитектурой. Устраняя Non-Maximum Suppression (NMS) как этап постобработки, YOLO26 значительно упрощает конвейеры развертывания, обеспечивая стабильную задержку инференса на различных периферийных устройствах без накладных расходов на сложную настройку порогов.
2. До 43% быстрее инференс на CPU
В отличие от трансформерных архитектур, таких как RTDETRv2, которые сильно зависят от высокопроизводительных GPU, YOLO26 специально оптимизирован для сред граничных вычислений. Благодаря удалению Distribution Focal Loss (DFL), YOLO26 упрощает экспорт моделей и достигает до 43% более быстрого вывода на CPU, что делает его идеальным выбором для интеграции в такое оборудование, как Raspberry Pi или стандартные мобильные устройства.
3. Эффективность обучения с MuSGD
Обучение трансформерных моделей часто приводит к чрезмерному потреблению памяти CUDA и увеличению времени обучения. YOLO26 представляет новый оптимизатор MuSGD — гибрид стохастического градиентного спуска и вдохновленного LLM оптимизатора Muon. Это нововведение обеспечивает исключительно стабильное обучение и более быструю сходимость, значительно снижая требования к аппаратному обеспечению по сравнению с RTDETRv2.
4. Непревзойденная экосистема и универсальность
The Экосистема Ultralytics обеспечивает интуитивно понятный, оптимизированный опыт разработчика. Благодаря обширной документации, активной поддержке сообщества и облачной платформе Ultralytics, управление полным жизненным циклом ИИ никогда не было таким простым. Кроме того, YOLO26 очень универсален. В то время как RTDETRv2 фокусируется на обнаружении объектов, YOLO26 беспрепятственно поддерживает задачи сегментации экземпляров, оценки позы, классификации изображений и ориентированных ограничивающих рамок (OBB). Усовершенствованный новыми функциями потерь ProgLoss + STAL, YOLO26 также превосходно справляется с распознаванием мелких объектов, что является критически важной функцией для аэрофотосъемки и обнаружения промышленных дефектов.
Другие поддерживаемые модели
Фреймворк Ultralytics также поддерживает предыдущие поколения YOLO11 и YOLOv8, что позволяет пользователям легко проводить бенчмаркинг и переводить устаревшие конвейеры.
Бесшовная интеграция с Ultralytics
Развертывание моделей не должно требовать борьбы со сложными, фрагментированными кодовыми базами. Python API Ultralytics позволяет загружать, обучать и экспортировать передовые модели всего за несколько строк кода.
from ultralytics import YOLO
# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)
Используя Ultralytics, вы обходите сложные конфигурации среды, обычно связанные с исследовательскими репозиториями, ускоряя выход на рынок.
Заключение
YOLOX и RTDETRv2 представляют собой важные вехи в развитии обнаружения объектов в реальном времени. YOLOX доказал жизнеспособность высокоэффективных безанкерных сверточных нейронных сетей (CNN), в то время как RTDETRv2 успешно адаптировал трансформеры для работы в реальном времени.
Однако для современных приложений, от аналитики умной розничной торговли до встроенной робототехники, Ultralytics YOLO26 предлагает окончательное решение. Объединяя NMS-free инференс с беспрецедентной скоростью CPU, уменьшенным объемом памяти и надежной поддержкой платформы Ultralytics, YOLO26 позволяет разработчикам создавать следующее поколение надежных, высокопроизводительных систем компьютерного зрения.