Link to this sectionYOLOX против RTDETRv2#
Выбор оптимальной архитектуры для приложений компьютерного зрения требует тщательного баланса между точностью, скоростью инференса и простотой развертывания. В этом подробном техническом анализе мы исследуем фундаментальные различия между YOLOX, крайне успешной архитектурой CNN без якорей (anchor-free), и RTDETRv2, передовым трансформером для детекции в реальном времени.
Хотя обе модели внесли значительный вклад в область детекции объектов, разработчики, создающие промышленные приложения, часто обнаруживают, что современные альтернативы, такие как Ultralytics YOLO26, обеспечивают превосходную эффективность обучения, меньшие требования к памяти и более надежную экосистему для развертывания.
Link to this sectionYOLOX: преодолевая разрыв между исследованиями и индустрией#
YOLOX стала очень популярной адаптацией серии YOLO без использования якорей, предложив упрощенный дизайн, который на момент выпуска обеспечил впечатляющие улучшения производительности.
- Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
- Организация: Megvii
- Дата: 18 июля 2021 г.
- Ссылки: Arxiv, GitHub, Docs
Link to this sectionАрхитектурные инновации#
YOLOX перевела семейство YOLO на безъякорную парадигму, внедрив декоплированную голову (decoupled head) и передовую стратегию назначения меток SimOTA. Устранив якорные боксы, архитектура значительно сократила количество параметров проектирования и улучшила обобщающую способность на различных эталонных наборах данных. Её облегченные версии, YOLOX-Nano и YOLOX-Tiny, стали популярным выбором для развертывания AI-приложений компьютерного зрения на периферийных устройствах.
Хотя YOLOX привнесла значительные достижения, её зависимость от тяжелых конвейеров аугментации и старых процедур постобработки (таких как традиционный NMS) может привести к большей задержке по сравнению с нативными end-to-end моделями.
Link to this sectionRTDETRv2: развитие Vision Transformers в реальном времени#
Основываясь на достижениях своего предшественника, RTDETRv2 использует мощь Vision Transformers (ViTs) для достижения конкурентоспособной точности без ущерба для скорости инференса в реальном времени.
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 24.07.2024
- Ссылки: Arxiv, GitHub
Link to this sectionАрхитектурные инновации#
RTDETRv2 фундаментально переосмысливает конвейер детекции, используя архитектуру на базе трансформера, которая нативно обходит Non-Maximum Suppression (NMS). Это достигается за счет гибридного энкодера и выбора запросов (query selection) с учетом IoU, что улучшает инициализацию запросов объектов. Модель эффективно обрабатывает многомасштабные признаки, позволяя улавливать сложные детали в трудных условиях, например, при детекции дорожного движения на видео в ночное время.
Тем не менее, трансформеры по своей природе ресурсоемки. Обучение RTDETRv2 обычно требует значительно больше памяти GPU и вычислительных циклов, чем CNN-альтернативы, что может стать препятствием для команд, работающих в рамках жестких бюджетных ограничений или нуждающихся в частой настройке моделей.
Link to this sectionТаблица сравнения производительности#
Чтобы объективно оценить эти архитектуры, мы рассмотрим их производительность на наборе данных COCO. Таблица ниже иллюстрирует компромиссы между точностью (mAP), количеством параметров и вычислительной сложностью.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Хотя RTDETRv2 достигает впечатляющей точности, YOLOX сохраняет преимущество в легковесных профилях параметров, особенно в версиях Nano и Tiny.
Link to this sectionСценарии использования и рекомендации#
Выбор между YOLOX и RT-DETR зависит от твоих специфических требований к проекту, ограничений развертывания и предпочтений в экосистеме.
Link to this sectionКогда выбирать YOLOX#
YOLOX — сильный выбор для:
- Исследований безъякорного обнаружения: академических исследований, использующих чистую безъякорную архитектуру YOLOX как базу для экспериментов с новыми головами детекции или функциями потерь.
- Сверхлегких Edge-устройств: развертывания на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый вес варианта YOLOX-Nano (0.91 млн параметров).
- Изучения назначения меток SimOTA: исследовательских проектов, анализирующих стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.
Link to this sectionКогда выбирать RT-DETR#
RT-DETR рекомендуется для:
- Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
- Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionПреимущество Ultralytics: YOLO26#
Хотя и YOLOX, и RTDETRv2 обладают своими сильными сторонами, недавно выпущенная Ultralytics YOLO26 переопределяет состояние технологий в области Vision AI, решая исторические компромиссы между скоростью, точностью и простотой развертывания.
Link to this sectionEnd-to-end архитектура без NMS#
Вдохновляясь трансформерными моделями и сохраняя эффективность CNN, YOLO26 отличается нативным end-to-end дизайном без NMS. Устранив Non-Maximum Suppression как этап постобработки, YOLO26 радикально упрощает конвейеры развертывания, обеспечивая стабильную задержку инференса на различных периферийных устройствах без накладных расходов на сложную настройку порогов.
Link to this sectionДо 43% быстрее инференс на CPU#
В отличие от архитектур на базе трансформеров, таких как RTDETRv2, которые сильно зависят от мощных GPU, YOLO26 специально оптимизирована для сред периферийных вычислений. Благодаря удалению Distribution Focal Loss (DFL), YOLO26 упрощает экспорт моделей и достигает до 43% более быстрого инференса на CPU, что делает её идеальным выбором для интеграции в такое оборудование, как Raspberry Pi, или стандартные мобильные устройства.
Link to this sectionЭффективность обучения с MuSGD#
Обучение трансформерных моделей часто приводит к чрезмерному потреблению памяти CUDA и длительному времени обучения. YOLO26 представляет новый оптимизатор MuSGD — гибрид стохастического градиентного спуска (SGD) и вдохновленного LLM оптимизатора Muon. Эта инновация обеспечивает исключительно стабильное обучение и более быструю сходимость, значительно снижая аппаратные требования по сравнению с RTDETRv2.
Link to this sectionНепревзойденная экосистема и универсальность#
Экосистема Ultralytics обеспечивает интуитивно понятный и оптимизированный опыт для разработчика. Благодаря обширной документации, активной поддержке сообщества и облачной платформе Ultralytics Platform, управление полным жизненным циклом AI стало проще, чем когда-либо. Более того, YOLO26 обладает высокой универсальностью. В то время как RTDETRv2 фокусируется на детекции объектов, YOLO26 нативно поддерживает сегментацию экземпляров, оценку позы, классификацию изображений и задачи ориентированных ограничивающих рамок (OBB). Улучшенная за счет новых функций потерь ProgLoss + STAL, YOLO26 также отлично справляется с распознаванием мелких объектов, что является критически важной функцией для аэрофотосъемки и детекции промышленных дефектов.
Link to this sectionБесшовная интеграция с Ultralytics#
Развертывание моделей не должно требовать борьбы со сложными, фрагментированными кодовыми базами. Python API от Ultralytics позволяет загружать, обучать и экспортировать передовые модели всего в несколько строк кода.
from ultralytics import YOLO
# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)Используя Ultralytics, ты избегаешь сложных конфигураций окружения, обычно связанных с исследовательскими репозиториями, что ускоряет выход твоего продукта на рынок.
Link to this sectionЗаключение#
YOLOX и RTDETRv2 представляют собой важные вехи в развитии детекции объектов в реальном времени. YOLOX доказала жизнеспособность высокоэффективных безъякорных CNN, в то время как RTDETRv2 успешно адаптировала трансформеры для условий реального времени.
Однако для современных приложений, начиная от умной розничной аналитики и заканчивая встроенной робототехникой, Ultralytics YOLO26 предоставляет окончательное решение. Объединяя инференс без NMS с непревзойденной скоростью на CPU, уменьшенным объемом используемой памяти и надежной поддержкой платформы Ultralytics Platform, YOLO26 дает разработчикам возможность создавать следующее поколение надежных и высокопроизводительных систем компьютерного зрения.