RTDETRv2 против YOLOX: углубленный технический анализ современных детекторов объектов
Сфера компьютерного зрения стремительно развивается, предлагая разработчикам и исследователям широкий выбор архитектур для создания систем на базе визуальных данных. Двумя важными вехами на этом пути стали архитектура на основе трансформеров RTDETRv2 и CNN-архитектура YOLOX. Хотя обе модели внесли значительный вклад в область детектирования объектов в реальном времени, они представляют собой принципиально разные подходы к решению задач визуального распознавания.
Это подробное руководство исследует архитектурные нюансы, показатели производительности и идеальные сценарии развертывания для обеих моделей. Кроме того, мы рассмотрим, как современные альтернативы, такие как передовая Ultralytics YOLO26, опираются на эти наработки для достижения превосходной точности, эффективности и простоты использования.
RTDETRv2: Трансформеры для обнаружения в реальном времени
Представленная как преемник оригинального RT-DETR, модель RTDETRv2 использует архитектуру трансформеров для достижения высокопроизводительного детектирования объектов в реальном времени. Исключив необходимость в NMS, она упрощает конвейер логического вывода.
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 2024-07-24
- Ссылки: Статья на Arxiv, Официальный GitHub, Документация
Архитектура и дизайн
RTDETRv2 в значительной степени полагается на механизмы self-attention, присущие трансформерам, что позволяет модели захватывать глобальный контекст всего изображения. Такое целостное понимание дает ей возможность напрямую предсказывать BBox и вероятности классов. Она внедряет многомасштабные признаки обнаружения, которые улучшают способность распознавать небольшие объекты в загроможденных сценах.
Хотя трансформеры отлично справляются с захватом глобального контекста, их механизмы self-attention масштабируются квадратично относительно длины последовательности, что часто приводит к значительно более высокому потреблению памяти CUDA во время обучения по сравнению с традиционными CNN.
Сильные и слабые стороны
Основная сила RTDETRv2 заключается в ее естественном сквозном дизайне. Избегая NMS, она предотвращает скачки задержки, часто связанные с плотными перекрывающимися предсказаниями. Однако высокая вычислительная нагрузка блоков трансформеров означает, что для обучения и развертывания требуются значительные ресурсы GPU. Это делает модель менее подходящей для устройств на периферии с ограниченными ресурсами или устаревшего мобильного оборудования.
YOLOX: развитие CNN без использования анкоров
Разработанная для сокращения разрыва между академическими исследованиями и промышленным применением, YOLOX представила разделенную голову (decoupled head) и дизайн без использования анкоров для популярного семейства моделей YOLO.
- Авторы: Чжэн Гэ, Сун Тао Лю, Фэн Ван, Земин Ли и Цзянь Сунь
- Организация: Megvii
- Дата: 18 июля 2021 г.
- Ссылки: Статья на Arxiv, Официальный GitHub, Документация
Архитектура и дизайн
YOLOX знаменует собой отход от традиционных детекторов, основанных на анкорах, за счет прямого предсказания местоположения объектов без предопределенных anchor boxes. Это упрощает дизайн сети и снижает количество эвристических параметров настройки, необходимых для оптимальной производительности. Кроме того, YOLOX использует разделенную голову, отделяя задачи классификации и регрессии, что повышает скорость сходимости во время обучения.
Сильные и слабые стороны
Отсутствие анкоров делает YOLOX легко адаптируемой к различным задачам компьютерного зрения и более простой для обучения на пользовательских наборах данных. Ее облегченные варианты, такие как YOLOX-Nano, хорошо подходят для развертывания на микроконтроллерах и IoT-устройствах с низким энергопотреблением. Однако, поскольку YOLOX появилась до революции NMS-free, она все еще полагается на традиционную постобработку, что может привести к сложностям при развертывании и повышенной задержке в сценах с высокой плотностью объектов.
Сравнение производительности и метрик
При сравнении этих моделей оценка их скорости, точности и эффективности параметров имеет решающее значение для определения того, какая из них лучше всего подходит для твоего конкретного случая использования. В таблице ниже представлена производительность моделей различных размеров на стандартном наборе данных COCO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Как видно из данных, RTDETRv2 достигает более высокой максимальной точности (54.3 mAP) в своем самом большом варианте по сравнению с YOLOXx. Однако YOLOX предлагает значительно меньшие и более быстрые варианты, такие как YOLOXs, которые обладают меньшим количеством параметров и более высокой скоростью вывода на GPU NVIDIA T4.
Преимущество Ultralytics: знакомство с YOLO26
Хотя RTDETRv2 и YOLOX обладают уникальными преимуществами, современным разработчикам часто требуется унифицированное решение, объединяющее лучшее из обоих миров — высокую точность, невероятно быстрый вывод и доступную экосистему. Недавно выпущенная Ultralytics YOLO26 представляет собой вершину этой эволюции.
Ключевые инновации YOLO26
- Сквозной NMS-free дизайн: Развивая концепции, впервые предложенные в YOLOv10, YOLO26 работает без NMS. Это обеспечивает бесшовный вывод, как у RTDETRv2, но без огромных требований трансформеров к памяти.
- Оптимизатор MuSGD: Вдохновленный инновациями в обучении больших языковых моделей, гибридный оптимизатор MuSGD (сочетающий SGD и Muon) стабилизирует процесс обучения и значительно ускоряет сходимость.
- До 43% более быстрый вывод на CPU: Стратегически удалив модуль Distribution Focal Loss (DFL), YOLO26 специально оптимизирована для периферийных вычислений и устройств с низким энергопотреблением, что делает ее существенно быстрее на CPU по сравнению с предыдущими итерациями, такими как YOLO11.
- ProgLoss + STAL: Эти передовые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, решая общую проблему в аэрофотосъемке и робототехнических приложениях.
Непревзойденная универсальность и экосистема
Помимо базовой производительности, Ultralytics Platform предлагает комплексную экосистему для перехода от идеи до производства. В отличие от статических академических репозиториев, модели Ultralytics активно поддерживаются и легко справляются с несколькими задачами с помощью единого интуитивно понятного API. Независимо от того, выполняешь ли ты сегментацию экземпляров, отслеживаешь позы с помощью оценки поз или работаешь с повернутыми объектами через ориентированные ограничивающие рамки (OBB), рабочий процесс остается идентичным.
Кроме того, модели Ultralytics славятся низкими требованиями к памяти как во время обучения, так и при выводе, что позволяет запускать большие размеры пакетов (batch sizes) на потребительском оборудовании — это резкий контраст с тяжелыми архитектурами на основе трансформеров.
Пример кода для обучения
Сила экосистемы Ultralytics лучше всего проявляется в ее простоте. Для обучения современной модели YOLO26 требуется всего несколько строк кода, что полностью скрывает сложности загрузки данных и настройки гиперпараметров.
from ultralytics import YOLO
# Initialize the natively NMS-free YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)
# Validate the model's performance seamlessly
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")
# Export to ONNX or TensorRT for rapid deployment
model.export(format="engine", device=0)Реальные приложения и идеальные сценарии использования
Выбор подходящей архитектуры полностью зависит от твоих ограничений при развертывании и доступности оборудования.
Высококачественная облачная обработка
Если твое приложение работает на высокопроизводительных серверных GPU и приоритетом является максимальная точность — например, при анализе сцен с большой плотностью людей или обработке медицинских изображений высокого разрешения, — надежные механизмы внимания RTDETRv2 могут быть весьма эффективны.
Развертывание на устаревшем граничном оборудовании
Для развертывания на старых мобильных телефонах или микроконтроллерах с жесткими ограничениями, где минимальное количество FLOPs является строгой необходимостью, ультралегкая YOLOX-Nano по-прежнему служит жизнеспособным вариантом благодаря своей простой CNN-архитектуре.
Современный стандарт: AIoT и робототехника
Для подавляющего большинства современных вариантов использования — от инфраструктуры умных городов и розничной аналитики до автономной навигации — Ultralytics YOLO26 является окончательным выбором. Ее на 43% более быстрый вывод на CPU делает ее непревзойденной для периферийных вычислений, а NMS-free дизайн гарантирует низкую и стабильную задержку. В сочетании с исчерпывающей документацией и активной поддержкой сообщества экосистемы Ultralytics, это позволяет командам быстрее, чем когда-либо, переходить от разметки данных к глобальному развертыванию.
Готов улучшить свои проекты в области компьютерного зрения? Изучи комплексные возможности Ultralytics Platform, чтобы легко управлять данными, обучать модели в облаке и развертывать интеллектуальные приложения в масштабе.
Разработчикам, желающим изучить другие архитектуры в экосистеме Ultralytics, можно также рассмотреть YOLOv8 для глубоко интегрированных решений сообщества или YOLOv5 для непревзойденной стабильности в унаследованных конвейерах. Однако для расширения границ возможного в 2026 году YOLO26 остается отраслевым стандартом.