Перейти к содержанию

YOLOX против RTDETRv2: Техническое сравнение для обнаружения объектов

В быстро развивающемся ландшафте компьютерного зрения выбор подходящей архитектуры для вашего проекта часто связан со сложным компромиссом между скоростью вывода, точностью и эффективностью использования вычислительных ресурсов. В данном сравнении рассматриваются два различных подхода к обнаружению объектов: YOLOX, высокопроизводительный CNN без якорей, и RTDETRv2, передовой трансформатор обнаружения в реальном времени.

В то время как YOLOX представлял собой значительный сдвиг в сторону безъякорных методологий в семействе YOLO , RTDETRv2 использует мощь трансформаторов зрения (ViTs) для захвата глобального контекста, бросая вызов традиционным конволюционным нейронным сетям (CNN). В этом руководстве анализируются их архитектуры, показатели производительности и идеальные сценарии использования, чтобы помочь вам принять обоснованное решение.

Анализ производительности: скорость в сравнении с точностью

Приведенные ниже показатели производительности иллюстрируют фундаментальную философию проектирования этих двух моделей. RTDETRv2 обычно достигает более высокой средней точности (mAP) за счет использования механизмов внимания для понимания сложных сцен. Однако такая точность часто сопровождается повышенными вычислительными затратами. YOLOX, особенно в своих небольших вариантах, ставит во главу угла низкую задержку вывода и эффективное выполнение на стандартном оборудовании.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Как видно из таблицы, RTDETRv2-x достигает наивысшей точности с mAP 54,3, опережая самый большой вариант YOLOX. И наоборот, YOLOX-s демонстрирует более высокую скорость работы на аппаратном обеспечении GPU , что делает его очень эффективным для приложений, чувствительных к задержкам.

YOLOX: эффективность без якорей

YOLOX усовершенствует серию YOLO , перейдя на безъякорный механизм и отсоединив головку обнаружения. Благодаря отсутствию необходимости в предварительно заданных якорных ящиках YOLOX упрощает процесс обучения и улучшает обобщение при работе с объектами различной формы.

Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
Organization:Megvii
Date: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021

Основные сильные стороны

  • Дизайн без якорей: Устраняет ручную настройку гиперпараметров якоря, снижая сложность проектирования.
  • Decoupled Head: разделяет задачи классификации и регрессии, что помогает модели сходиться быстрее и достигать большей точности.
  • SimOTA: усовершенствованная стратегия присвоения меток, которая динамически присваивает положительные образцы, повышая стабильность обучения.

Слабые стороны

  • Стареющая архитектура: Выпущенная в 2021 году, она лишена некоторых современных оптимизаций, которые можно найти в более новых итерациях, таких как YOLO11.
  • Ограниченная поддержка задач: Основное внимание уделяется обнаружению, отсутствует встроенная поддержка сегментации или оценки позы в рамках одного фреймворка.

Узнайте больше о YOLOX

RTDETRv2: Трансформер-мощник

RTDETRv2 (Real-Time Detection Transformer version 2) представляет собой скачок в применении архитектур трансформеров для обнаружения объектов в реальном времени. Он решает проблему высоких вычислительных затрат, обычно связанных с трансформаторами, путем внедрения эффективного гибридного кодера.

Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organization:Baidu
Date: 2023-04-17 (v1), 2024-07 (v2)
Arxiv:RT-DETRv2: Улучшенная базовая линия с использованием Bag-of-Freebies

Основные сильные стороны

  • Глобальный контекст: Механизм самовнушения позволяет модели понимать взаимосвязь между удаленными объектами на изображении, что уменьшает количество ложных срабатываний в сложных сценах.
  • Высокая точность: Последовательное достижение более высоких показателей mAP по сравнению с моделями на основе CNN аналогичного масштаба.
  • Не требуется NMS : Архитектура трансформатора естественным образом исключает дублирование обнаружений, устраняя необходимость в постобработке с использованием технологии немаксимального подавления (NMS).

Слабые стороны

  • Интенсивность памяти: Требует значительно больше VRAM на GPU во время обучения по сравнению с CNN, что затрудняет обучение на оборудовании потребительского класса.
  • Задержка наCPU : Несмотря на оптимизацию под GPU, операции трансформера могут быть медленнее на устройствах, CPU, по сравнению с легкими CNN, такими как YOLOX-Nano.

Узнайте больше о RTDETRv2

Идеальные варианты использования

Выбор между этими моделями часто зависит от конкретных ограничений среды развертывания.

  • Выбирайте YOLOX, если: Вы развертываете пограничные устройства с ограниченными ресурсами, такие как Raspberry Pi или мобильные телефоны, где важна каждая миллисекунда задержки. Он также отлично подходит для промышленных линий контроля, где объекты жесткие и предсказуемые.
  • Выбирайте RTDETRv2, если: У вас есть доступ к мощным GPU (например, NVIDIA T4 или A100), а точность имеет первостепенное значение. Он отлично подходит для сцен с большим скоплением людей, автономного вождения или воздушного наблюдения, где контекст и взаимосвязь объектов имеют решающее значение.

Оптимизация развертывания

Независимо от выбранной модели, использование оптимизационных фреймворков, таких как TensorRT или OpenVINO очень важно для достижения скорости реального времени в производственных средах. Обе модели значительно выигрывают от квантования в FP16 или INT8.

Почему моделиYOLO от Ultralytics - это лучший выбор

Хотя YOLOX и RTDETRv2 впечатляют, экосистемаUltralytics YOLO , возглавляемая YOLO11предлагает более целостное решение для разработчиков и исследователей. Ultralytics уделяет первостепенное внимание удобству пользователей, обеспечивая доступность, эффективность и универсальность современного ИИ.

1. Непревзойденная универсальность и экосистема

В отличие от YOLOX, который в первую очередь является моделью обнаружения, Ultralytics YOLO11 поддерживает широкий спектр задач компьютерного зрения, включая сегментацию объектов, оценку позы, классификацию и обнаружение ориентированных границ (Oriented Bounding Box, OBB). Это позволяет решать множество задач с помощью единого, унифицированного API.

2. Простота использования и обслуживания

Пакет Ultralytics упрощает сложный мир MLOps. Благодаря хорошо поддерживаемой кодовой базе, частым обновлениям и обширной документации пользователи могут пройти путь от установки до обучения за считанные минуты.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
train_results = model.train(
    data="coco8.yaml",  # path to dataset YAML
    epochs=100,  # number of training epochs
    imgsz=640,  # training image size
    device="cpu",  # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)

# Evaluate model performance on the validation set
metrics = model.val()

3. Эффективность обучения и объем памяти

Одним из важнейших преимуществ моделейYOLO от Ultralytics является их эффективность. Известно, что модели на основе трансформаторов, такие как RTDETRv2, требовательны к объему данных и памяти, поэтому для их обучения часто требуются высокопроизводительные графические процессоры с большим объемом VRAM. В отличие от них, модели Ultralytics YOLO оптимизированы для эффективного обучения на более широком спектре оборудования, включая потребительские GPU, и при этом используют меньше памяти CUDA . Такая эффективность обучения обеспечивает демократичный доступ к высокопроизводительному ИИ.

4. Баланс производительности

Модели Ultralytics разработаны таким образом, чтобы обеспечить оптимальное соотношение скорости и точности. Для большинства реальных приложений - от аналитики розничной торговли до мониторинга безопасности - YOLO11 обеспечивает точность, сравнимую с трансформерами, сохраняя при этом молниеносную скорость вывода, необходимую для работы с живыми видеоданными.

Заключение

И YOLOX, и RTDETRv2 внесли значительный вклад в область компьютерного зрения. YOLOX остается надежным выбором для встраиваемых систем с жесткими ограничениями, в то время как RTDETRv2 расширяет границы точности для высокопроизводительного оборудования.

Однако большинство разработчиков ищут перспективное, универсальное и простое в использовании решение, Ultralytics YOLO11 является лучшим выбором. Его сочетание низких требований к памяти, широкой поддержки задач и процветающего сообщества гарантирует, что ваш проект будет построен на фундаменте надежности и производительности.

Изучите другие сравнения

Чтобы еще больше уточнить выбор модели, изучите эти связанные технические сравнения:


Комментарии