RTDETRv2 против YOLOX: подробное исследование эволюции обнаружения объектов в реальном времени
За последние несколько лет область обнаружения объектов быстро развивалась, перейдя от архитектур на основе анкоров к конструкциям без анкоров, а в последнее время — к гибридным моделям на основе трансформаторов. Двумя важными вехами на этом пути стали RTDETRv2 и YOLOX. В то время как YOLOX переопределил возможности YOLO в 2021 году, устранив анкеры и NMS , RTDETRv2 (выпущенный в 2024 году) еще больше расширил границы, интегрировав Vision Transformers (ViT) для обеспечения превосходной точности в сложных сценах.
В этом руководстве представлено всестороннее техническое сравнение этих двух влиятельных моделей с анализом их архитектуры, показателей производительности и идеальных вариантов использования, чтобы помочь вам выбрать подходящий инструмент для ваших проектов в области компьютерного зрения.
RTDETRv2: Конкурент на основе трансформера
RTDETRv2 (Real-Time Detection Transformer version 2) представляет собой значительный скачок в применении архитектур трансформаторов в сценариях реального времени. В то время как традиционные трансформаторы были мощными, но медленными, RTDETRv2 оптимизирует этот компромисс, обеспечивая современную точность при конкурентоспособных скоростях.
Ключевые архитектурные особенности
RTDETRv2 основан на оригинальном RT-DETR и использует гибридную структуру кодировщика-декодировщика. Он использует базовую сеть CNN (обычно ResNet или HGNetv2) для эффективного извлечения признаков, а затем трансформер-кодировщик для захвата дальних зависимостей по всему изображению.
- Интеграция Vision Transformer: в отличие от моделей, основанных исключительно на CNN, RTDETRv2 использует механизмы самовнимания для понимания взаимосвязи между удаленными частями изображения, что делает его исключительно эффективным при обработке сцен с окклюзией и большим количеством объектов.
- Сквозное прогнозирование: его цель — оптимизировать процесс обнаружения, хотя некоторые реализации все еще нуждаются в оптимизации.
- Динамическое масштабирование: архитектура разработана таким образом, чтобы более эффективно обрабатывать многомасштабные объекты, чем ее предшественники.
Авторы: Вэнью Лв, Янь Чжао, Циньяо Чан, Куй Хуан, Гуанчжун Ван и И Лю
Организация:Baidu
Дата: 17 апреля 2023 г. (v1), июль 2024 г. (v2)
Ссылки:Arxiv | GitHub
YOLOX: пионер Anchor-Free
Выпущенная в 2021 году, YOLOX стала революционной разработкой, которая отошла от традиционного YOLO (YOLOv3, v4, v5), приняв механизм без якорей и развязанную головку.
Ключевые архитектурные особенности
YOLOX упростил процесс обнаружения, устранив необходимость в предварительно определенных анкорных рамках, которые часто требовали эвристической настройки для конкретных наборов данных.
- Механизм без анкеров: благодаря непосредственному прогнозированию центров и размеров объектов YOLOX упростил конструкцию и улучшил обобщение на разнообразных наборах данных.
- Разделенная головка: Разделение задач классификации и регрессии на разные ветви головки сети позволило добиться лучшей конвергенции и точности.
- Назначение меток SimOTA: эта усовершенствованная стратегия назначения меток рассматривала процесс обучения как задачу оптимального транспорта, что привело к более быстрой конвергенции и лучшему динамическому назначению меток.
Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация:Megvii
Дата: 18 июля 2021 г.
Ссылки:Arxiv | GitHub
Сравнение технических характеристик
При выборе модели для производства решающее значение имеют исходные показатели. Ниже приводится подробное сравнение производительности на COCO .
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Анализ метрик
Данные показывают явное различие между поколениями. RTDETRv2 стабильно превосходит YOLOX по точности (mAP) для моделей аналогичного размера. Например, RTDETRv2-l достигает 53,4% mAP, что значительно выше, чем 49,7% у YOLOX-l, при этом сохраняя сопоставимую скорость вывода на GPU .
Однако YOLOX сохраняет преимущество в категории сверхлегких решений. Варианты YOLOX-Nano и Tiny чрезвычайно малы (начиная с 0,91 Мб параметров), что делает их пригодными для использования на устаревшем оборудовании для пограничных вычислений, где важен каждый килобайт памяти.
Использование памяти Transformer
Хотя RTDETRv2 обеспечивает более высокую точность, модели на основе трансформаторов обычно потребляют значительно больше VRAM во время обучения и инференции по сравнению с чистыми архитектурами CNN, такими как YOLOX. Эти высокие требования к памяти могут стать препятствием при обучении на потребительских графических процессорах с ограниченным CUDA .
Преимущество Ultralytics
Хотя анализ исторических моделей, таких как YOLOX и RTDETRv2, имеет большое значение для исследований, современные разработки требуют инструментов, которые отличаются простотой использования, хорошо поддерживаемой экосистемой и высокой эффективностью.
Ultralytics , включая YOLOv8 и ультрасовременной YOLO26, разработаны для того, чтобы сократить разрыв между высокой производительностью и опытом разработчиков.
- Оптимизированный API: для переключения между моделями требуется всего одна строка кода.
- Универсальность: в отличие от YOLOX, который фокусируется исключительно на обнаружении, Ultralytics изначально Ultralytics сегментацию, оценку позы и обнаружение ориентированных ограничивающих прямоугольников (OBB).
- Эффективность обучения: Ultralytics оптимизированы для более быстрого обучения с меньшими затратами памяти, что делает высокотехнологичный ИИ доступным без использования промышленного оборудования.
Производительность нового поколения: YOLO26
Разработчикам, стремящимся к максимальной производительности в 2026 году, мы рекомендуем YOLO26. Он сочетает в себе лучшие характеристики CNN и Transformers, устраняя при этом их недостатки.
- Сквозное NMS: YOLO26 изначально является сквозной системой, что устраняет необходимость в немаксимальном подавлении (NMS). Это значительно упрощает процессы развертывания по сравнению с YOLOX.
- Оптимизатор MuSGD: Используя инновации в области обучения LLM (вдохновленные Moonshot AI), YOLO26 использует оптимизатор MuSGD для стабильной и быстрой конвергенции.
- Оптимизация полей: благодаря удалению Distribution Focal Loss (DFL) YOLO26 работает на 43 % быстрее при CPU , что делает его намного превосходящим RTDETRv2 для пограничных устройств, не имеющих мощных GPU.
Реальные примеры использования
Выбор между этими архитектурами в значительной степени зависит от вашей конкретной среды развертывания.
Идеально подходит для RTDETRv2
- Наблюдение за скоплением людей: механизм трансформаторного внимания отлично подходит для сценариев управления скоплением людей, где объекты (люди) сильно пересекаются.
- Комплексное понимание сцены: приложения, требующие контекстной осведомленности, такие как навигация автономных транспортных средств, извлекают выгоду из глобального рецептивного поля трансформатора.
Идеально подходит для YOLOX
- Устаревшие периферийные устройства: для устройств с чрезвычайно ограниченными возможностями, таких как старые Raspberry Pi или микроконтроллеры, YOLOX-Nano является легким вариантом, который подходит там, где трансформаторы не могут быть использованы.
- Академические базовые показатели: благодаря отдельной головке и конструкции без креплений YOLOX остается популярным базовым показателем для изучения фундаментальных механизмов обнаружения объектов в научных исследованиях.
Пример кода: Ultralytics
Одним из самых весомых аргументов в пользу использования Ultralytics является унифицированный интерфейс. Независимо от того, используете ли вы модель на основе трансформатора, такую как RT-DETR модель YOLO на основе CNN, код остается неизменным.
Вот как можно загрузить и запустить инференцию с помощьюPython Ultralytics Python :
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model (Transformer-based)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a YOLO26 model (State-of-the-art CNN)
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image
# The API is identical, simplifying A/B testing
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display results
results_yolo[0].show()
Отслеживание экспериментов
Ultralytics легко Ultralytics с такими инструментами, как MLflow и Weights & Biases, что позволяет track разных моделей параллельно, не изменяя скрипты обучения.
Заключение
Как RTDETRv2, так и YOLOX внесли значительный вклад в область компьютерного зрения. YOLOX доказал, что конструкции без анкеров могут быть очень эффективными, а RTDETRv2 продемонстрировал, что трансформеры могут работать в режиме реального времени.
Однако для большинства практических применений в 2026 году модель Ultralytics предлагает наиболее сбалансированное решение. Ее конструкцияNMS, функции ProgLoss для небольших объектов и CPU обеспечивают «лучшее из обоих миров» — высокую точность без огромных вычислительных затрат трансформаторов. Независимо от того, создаете ли вы систему для интеллектуального производства или мониторинга сельского хозяйства, хорошо поддерживаемая Ultralytics гарантирует, что ваш проект останется актуальным в будущем.
Для дальнейшего изучения вам также может быть интересно сравнить RT-DETR YOLO11 или углубиться в конкретные преимущества YOLO26 по сравнению с YOLOv10.