Link to this sectionRTDETRv2 против YOLOX#
Сфера компьютерного зрения стремительно развивается, предлагая разработчикам и исследователям широкий спектр архитектур на выбор при создании систем на основе зрения. Двумя заметными вехами на этом пути стали RTDETRv2 на базе Transformer и YOLOX на базе CNN. Хотя обе модели внесли значительный вклад в область обнаружения объектов в реальном времени, они представляют принципиально разные подходы к решению задач визуального распознавания.
В этом подробном руководстве рассматриваются архитектурные нюансы, показатели производительности и идеальные сценарии развертывания для обеих моделей. Кроме того, мы рассмотрим, как современные альтернативы, такие как передовая Ultralytics YOLO26, развивают эти основы, обеспечивая превосходную точность, эффективность и простоту использования.
Link to this sectionRTDETRv2: Трансформеры для детектирования в реальном времени#
Представленная как преемник оригинальной RT-DETR, модель RTDETRv2 использует архитектуру Transformer для достижения высокопроизводительного обнаружения объектов в реальном времени. Устраняя необходимость в Non-Maximum Suppression (NMS), она упрощает конвейер вывода.
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 24.07.2024
- Ссылки: Arxiv Paper, Official GitHub, Documentation
Link to this sectionАрхитектура и дизайн#
RTDETRv2 в значительной степени полагается на механизмы self-attention, присущие трансформерам, что позволяет модели охватывать глобальный контекст всего изображения. Такое целостное понимание позволяет ей предсказывать BBox и вероятности классов напрямую. Она представляет функции обнаружения в нескольких масштабах, которые повышают способность распознавать мелкие объекты в сложных условиях.
Хотя трансформеры превосходно справляются с захватом глобального контекста, их механизмы self-attention масштабируются квадратично относительно длины последовательности, что часто приводит к значительно более высокому потреблению памяти CUDA во время обучения по сравнению с традиционными CNN.
Link to this sectionСильные и слабые стороны#
Основное преимущество RTDETRv2 заключается в ее нативном дизайне end-to-end. Пропуская NMS, она избегает скачков задержки, часто связанных с плотными перекрывающимися предсказаниями. Однако высокий вычислительный вес ее блоков Transformer означает, что она требует значительных ресурсов GPU как для обучения, так и для развертывания. Это делает ее менее подходящей для граничных устройств с ограниченными ресурсами или устаревшего мобильного оборудования.
Link to this sectionYOLOX: развитие CNN без якорей (Anchor-Free)#
Разработанная для преодоления разрыва между академическими исследованиями и промышленным применением, YOLOX представила разделенную голову (decoupled head) и дизайн без якорей (anchor-free) для популярного семейства моделей YOLO.
- Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
- Организация: Megvii
- Дата: 18 июля 2021 г.
- Ссылки: Arxiv Paper, Official GitHub, Documentation
Link to this sectionАрхитектура и дизайн#
YOLOX отходит от традиционных детекторов на основе якорей, предсказывая местоположения объектов напрямую без предопределенных якорных рамок. Это упрощает дизайн сети и сокращает количество эвристических параметров настройки, необходимых для достижения оптимальной производительности. Кроме того, YOLOX использует разделенную голову, отделяя задачи классификации и регрессии, что повышает скорость сходимости во время обучения.
Link to this sectionСильные и слабые стороны#
Природа YOLOX без якорей делает ее легко адаптируемой к различным задачам computer vision и более простой для обучения на пользовательских наборах данных. Ее более легкие варианты, такие как YOLOX-Nano, хорошо подходят для развертывания на микроконтроллерах и IoT-устройствах с низким энергопотреблением. Однако, поскольку YOLOX появилась до революции без NMS, она все еще полагается на традиционную постобработку, что может привести к сложностям при развертывании и увеличению задержки в плотных сценах.
Link to this sectionСравнение производительности и метрик#
При сравнении этих моделей оценка их скорости, точности и эффективности параметров имеет решающее значение для определения того, какая из них лучше всего подходит для твоего конкретного случая использования. В таблице ниже приведена производительность различных размеров моделей на стандартном наборе данных COCO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Как видно из данных, RTDETRv2 достигает более высокой максимальной точности (54.3 mAP) в своем самом большом варианте по сравнению с YOLOXx. Однако YOLOX предлагает значительно меньшие и более быстрые варианты, такие как YOLOXs, которые могут похвастаться меньшим количеством параметров и более высокой скоростью вывода на GPU NVIDIA T4.
Link to this sectionПреимущество Ultralytics: знакомься с YOLO26#
Хотя и RTDETRv2, и YOLOX предлагают уникальные преимущества, современным разработчикам часто требуется единое решение, объединяющее лучшее из обоих миров — высокую точность, невероятно быстрый вывод и доступную экосистему. Недавно выпущенная Ultralytics YOLO26 представляет собой вершину этой эволюции.
Link to this sectionКлючевые инновации YOLO26#
- Дизайн End-to-End без NMS: Основываясь на концепциях, впервые предложенных в YOLOv10, YOLO26 работает нативно без NMS. Это обеспечивает бесшовный вывод, как у RTDETRv2, без огромных требований к памяти, характерных для трансформеров.
- Оптимизатор MuSGD: Вдохновленный инновациями в обучении больших языковых моделей, гибридный оптимизатор MuSGD (смешивающий SGD и Muon) стабилизирует процесс обучения и радикально ускоряет сходимость.
- До 43% быстрее вывод на CPU: Благодаря стратегическому удалению модуля Distribution Focal Loss (DFL), YOLO26 специально оптимизирована для граничных вычислений и устройств с низким энергопотреблением, что делает ее существенно быстрее на CPU, чем предыдущие итерации, такие как YOLO11.
- ProgLoss + STAL: Эти продвинутые функции потерь дают заметные улучшения в распознавании мелких объектов, решая общую проблему в аэрофотосъемке и робототехнике.
Link to this sectionНепревзойденная универсальность и экосистема#
Помимо базовой производительности, Ultralytics Platform предлагает комплексную экосистему от нуля до продакшена. В отличие от статических академических репозиториев, модели Ultralytics активно поддерживаются и легко поддерживают множество задач через единый, интуитивно понятный API. Независимо от того, выполняешь ли ты Instance Segmentation, отслеживаешь позы с помощью Pose Estimation или работаешь с повернутыми объектами с помощью Oriented Bounding Boxes (OBB), рабочий процесс остается идентичным.
Более того, модели Ultralytics славятся своими низкими требованиями к памяти как во время обучения, так и во время вывода, что позволяет исследователям запускать пакеты большего размера на потребительском оборудовании — резкий контраст с тяжелым весом архитектур на базе Transformer.
Link to this sectionПример кода обучения#
Сила экосистемы Ultralytics лучше всего демонстрируется через ее простоту. Обучение современной модели YOLO26 требует всего нескольких строк кода, полностью абстрагируясь от сложностей загрузки данных и настройки гиперпараметров.
from ultralytics import YOLO
# Initialize the natively NMS-free YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)
# Validate the model's performance seamlessly
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")
# Export to ONNX or TensorRT for rapid deployment
model.export(format="engine", device=0)Link to this sectionРеальные применения и идеальные сценарии использования#
Выбор правильной архитектуры полностью зависит от твоих ограничений при развертывании и доступности оборудования.
Link to this sectionВысокоточная облачная обработка#
Если твое приложение работает на высокопроизводительных серверных GPU и отдает приоритет максимальной точности — например, при анализе плотных сцен скопления людей или обработке медицинских изображений высокого разрешения, — надежные механизмы внимания RTDETRv2 могут быть очень эффективны.
Link to this sectionРазвертывание на устаревшем граничном оборудовании#
Для развертывания на старых мобильных телефонах или сильно ограниченных микроконтроллерах, где минимальное количество FLOP является строгой необходимостью, сверхлегкая YOLOX-Nano все еще служит жизнеспособным запасным вариантом благодаря своей простой архитектуре CNN.
Link to this sectionСовременный стандарт: AIoT и робототехника#
Для подавляющего большинства современных вариантов использования — от инфраструктуры умных городов и розничной аналитики до автономной навигации — Ultralytics YOLO26 является окончательным выбором. Ее вывод на CPU, который на 43% быстрее, делает ее непревзойденной для граничных вычислений, а дизайн без NMS гарантирует низкую и стабильную задержку. В сочетании с исчерпывающей документацией и поддержкой активного сообщества экосистемы Ultralytics, она позволяет командам переходить от аннотирования данных к глобальному развертыванию быстрее, чем когда-либо прежде.
Готов улучшить свои проекты по компьютерному зрению? Исследуй широкие возможности Ultralytics Platform, чтобы легко управлять данными, обучать модели в облаке и развертывать интеллектуальные приложения в масштабе.
Для разработчиков, желающих изучить другие архитектуры в экосистеме Ultralytics, ты также можешь рассмотреть YOLOv8 для глубоко проработанных интеграций с сообществом или YOLOv5 для непревзойденной стабильности в устаревших конвейерах. Однако для расширения границ возможного в 2026 году YOLO26 остается отраслевым стандартом.