YOLOX против RTDETRv2: техническое сравнение для object detection
В быстро развивающейся области компьютерного зрения выбор правильной архитектуры для вашего проекта часто включает в себя навигацию по сложному компромиссу между скоростью вывода, точностью и эффективностью вычислительных ресурсов. В этом сравнении рассматриваются два различных подхода к обнаружению объектов: YOLOX, высокопроизводительная CNN без привязки, и RTDETRv2, передовой детектор-трансформер реального времени.
В то время как YOLOX представлял собой значительный сдвиг в сторону методологий без привязки к якорям в семействе YOLO, RTDETRv2 использует возможности Vision Transformers (ViTs) для захвата глобального контекста, бросая вызов традиционным сверточным нейронным сетям (CNN). В этом руководстве анализируются их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам принять обоснованное решение.
Анализ производительности: скорость в сравнении с точностью
Приведенные ниже метрики производительности иллюстрируют фундаментальные философии проектирования этих двух моделей. RTDETRv2 обычно достигает более высокой средней Precision (mAP) за счет использования механизмов внимания для понимания сложных сцен. Однако эта accuracy часто достигается за счет увеличения вычислительных затрат. YOLOX, особенно в своих меньших вариантах, отдает приоритет низкой задержке inference и эффективному выполнению на стандартном оборудовании.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Как показано в таблице, RT-DETRv2-x достигает наивысшей точности с mAP 54.3, превосходя самый большой вариант YOLOX. И наоборот, YOLOX-s демонстрирует превосходную скорость на GPU оборудовании, что делает его очень эффективным для приложений, чувствительных к задержкам.
YOLOX: Эффективность Anchor-Free
YOLOX совершенствует серию YOLO, переключаясь на anchor-free механизм и decoupling detection head. Устраняя необходимость в предварительно определенных anchor boxes, YOLOX упрощает процесс обучения и улучшает обобщение для различных форм объектов.
Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация:Megvii
Дата: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021
Ключевые преимущества
- Дизайн без Anchor: Устраняет ручную настройку гиперпараметров anchor, снижая сложность проектирования.
- Разделенная голова (Decoupled Head): Разделяет задачи классификации и регрессии, что помогает модели быстрее сходиться и достигать большей точности.
- SimOTA: Продвинутая стратегия назначения меток, которая динамически назначает положительные примеры, улучшая стабильность обучения.
Слабые стороны
- Устаревающая архитектура: Выпущенная в 2021 году, она не имеет некоторых современных оптимизаций, имеющихся в более новых итерациях, таких как YOLO11.
- Ограниченная поддержка задач: В первую очередь ориентирован на detection, отсутствует встроенная поддержка segment или оценки позы в рамках той же структуры.
RTDETRv2: мощь Transformer
RTDETRv2 (Real-Time Detection Transformer version 2) представляет собой скачок в применении архитектур Transformer к обнаружению объектов в реальном времени. Он решает проблему высоких вычислительных затрат, обычно связанных с Transformers, путем внедрения эффективного гибридного энкодера.
Авторы: Веню Лв, Йиан Чжао, Циняо Чанг, Куи Хуанг, Гуанжонг Ванг и Йи Лиу
Организация:Baidu
Дата: 2023-04-17 (v1), 2024-07 (v2)
Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
Ключевые преимущества
- Глобальный контекст: Механизм само-внимания позволяет модели понимать взаимосвязи между удаленными объектами на изображении, уменьшая количество ложных срабатываний в сложных сценах.
- Высокая точность: Стабильно достигает более высоких показателей mAP по сравнению с моделями на основе CNN аналогичного масштаба.
- NMS не требуется: Архитектура transformer естественным образом устраняет дублирующиеся detections, устраняя необходимость в постобработке Non-Maximum Suppression (NMS).
Слабые стороны
- Интенсивность использования памяти: Требует значительно больше GPU VRAM во время обучения по сравнению с CNN, что затрудняет обучение на оборудовании потребительского класса.
- Задержка CPU: Хотя операции Transformer оптимизированы для GPU, они могут быть медленнее на периферийных устройствах только с CPU по сравнению с облегченными CNN, такими как YOLOX-Nano.
Идеальные варианты использования
Выбор между этими моделями часто зависит от конкретных ограничений среды развертывания.
- Выберите YOLOX, если: Вы выполняете развертывание на периферийных устройствах с ограниченными ресурсами, таких как Raspberry Pi или мобильные телефоны, где важна каждая миллисекунда задержки. Он также отлично подходит для промышленных инспекционных линий, где объекты являются жесткими и предсказуемыми.
- Выберите RTDETRv2, если: у вас есть доступ к мощным GPU (например, NVIDIA T4 или A100) и точность имеет первостепенное значение. Он превосходно подходит для переполненных сцен, автономного вождения или воздушного наблюдения, где контекст и отношения между объектами имеют решающее значение.
Оптимизация развертывания
Независимо от выбранной модели, использование фреймворков оптимизации, таких как TensorRT или OpenVINO, имеет важное значение для достижения скорости в реальном времени в производственных средах. Обе модели значительно выигрывают от квантования до FP16 или INT8.
Почему модели Ultralytics YOLO являются превосходным выбором
В то время как YOLOX и RTDETRv2 впечатляют, экосистема Ultralytics YOLO, возглавляемая YOLO11, предлагает более целостное решение для разработчиков и исследователей. Ultralytics уделяет приоритетное внимание пользовательскому опыту, обеспечивая доступность, эффективность и универсальность современной AI.
1. Непревзойденная универсальность и экосистема
В отличие от YOLOX, который в основном является моделью для detect, Ultralytics YOLO11 изначально поддерживает широкий спектр задач компьютерного зрения, включая сегментацию экземпляров, оценку позы, классификацию и detect ориентированных ограничивающих рамок (OBB). Это позволяет решать несколько задач с помощью единого унифицированного API.
2. Простота использования и обслуживания
Пакет Ultralytics упрощает сложный мир MLOps. Благодаря хорошо поддерживаемой кодовой базе, частым обновлениям и обширной документации, пользователи могут перейти от установки к обучению за считанные минуты.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on a custom dataset
train_results = model.train(
data="coco8.yaml", # path to dataset YAML
epochs=100, # number of training epochs
imgsz=640, # training image size
device="cpu", # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)
# Evaluate model performance on the validation set
metrics = model.val()
3. Эффективность обучения и объем памяти
Одним из важнейших преимуществ моделей Ultralytics YOLO является их эффективность. Известно, что модели на основе трансформеров, такие как RTDETRv2, требуют большого количества данных и памяти, часто нуждаясь в высокопроизводительных GPU с большим объемом VRAM для обучения. В отличие от них, модели Ultralytics YOLO оптимизированы для эффективного обучения на более широком спектре оборудования, включая потребительские GPU, при этом используя меньше памяти CUDA. Эта эффективность обучения делает высокопроизводительный ИИ более доступным.
4. Баланс производительности
Модели Ultralytics разработаны для достижения «золотой середины» между скоростью и точностью. Для большинства реальных приложений — от розничной аналитики до мониторинга безопасности — YOLO11 обеспечивает точность, сопоставимую с Transformer, сохраняя при этом молниеносную скорость вывода, необходимую для прямых видеотрансляций.
Заключение
И YOLOX, и RTDETRv2 внесли значительный вклад в область компьютерного зрения. YOLOX остается надежным выбором для строго ограниченных устаревших встроенных систем, в то время как RTDETRv2 расширяет границы точности для высокопроизводительного оборудования.
Однако, для большинства разработчиков, ищущих перспективное, универсальное и простое в использовании решение, Ultralytics YOLO11 выделяется как лучший выбор. Сочетание низких требований к памяти, широкой поддержки задач и процветающего сообщества гарантирует, что ваш проект будет построен на основе надежности и производительности.
Изучите другие сравнения
Чтобы дополнительно уточнить выбор модели, рассмотрите возможность изучения этих связанных технических сравнений:
- YOLO11 vs. YOLOv10
- RT-DETR против YOLOv8
- YOLO11 vs. EfficientDet
- YOLOv8 против YOLOX
- YOLO11 vs MobileNet SSD