YOLOX против RTDETRv2: техническое сравнение для object detection

В быстро развивающейся области компьютерного зрения выбор правильной архитектуры для вашего проекта часто включает в себя навигацию по сложному компромиссу между скоростью вывода, точностью и эффективностью вычислительных ресурсов. В этом сравнении рассматриваются два различных подхода к обнаружению объектов: YOLOX, высокопроизводительная CNN без привязки, и RTDETRv2, передовой детектор-трансформер реального времени.

В то время как YOLOX представлял собой значительный сдвиг в сторону методологий без привязки к якорям в семействе YOLO, RTDETRv2 использует возможности Vision Transformers (ViTs) для захвата глобального контекста, бросая вызов традиционным сверточным нейронным сетям (CNN). В этом руководстве анализируются их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам принять обоснованное решение.

Анализ производительности: скорость в сравнении с точностью

Приведенные ниже метрики производительности иллюстрируют фундаментальные философии проектирования этих двух моделей. RTDETRv2 обычно достигает более высокой средней Precision (mAP) за счет использования механизмов внимания для понимания сложных сцен. Однако эта accuracy часто достигается за счет увеличения вычислительных затрат. YOLOX, особенно в своих меньших вариантах, отдает приоритет низкой задержке inference и эффективному выполнению на стандартном оборудовании.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Как показано в таблице, RT-DETRv2-x достигает наивысшей точности с mAP 54.3, превосходя самый большой вариант YOLOX. И наоборот, YOLOX-s демонстрирует превосходную скорость на GPU оборудовании, что делает его очень эффективным для приложений, чувствительных к задержкам.

YOLOX: Эффективность Anchor-Free

YOLOX совершенствует серию YOLO, переключаясь на anchor-free механизм и decoupling detection head. Устраняя необходимость в предварительно определенных anchor boxes, YOLOX упрощает процесс обучения и улучшает обобщение для различных форм объектов.

Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация:Megvii
Дата: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021

Ключевые преимущества

Дизайн без Anchor: Устраняет ручную настройку гиперпараметров anchor, снижая сложность проектирования.
Разделенная голова (Decoupled Head): Разделяет задачи классификации и регрессии, что помогает модели быстрее сходиться и достигать большей точности.
SimOTA: Продвинутая стратегия назначения меток, которая динамически назначает положительные примеры, улучшая стабильность обучения.

Слабые стороны

Устаревающая архитектура: Выпущенная в 2021 году, она не имеет некоторых современных оптимизаций, имеющихся в более новых итерациях, таких как YOLO11.
Ограниченная поддержка задач: В первую очередь ориентирован на detection, отсутствует встроенная поддержка segment или оценки позы в рамках той же структуры.

Узнайте больше о YOLOX

RTDETRv2: мощь Transformer

RTDETRv2 (Real-Time Detection Transformer version 2) представляет собой скачок в применении архитектур Transformer к обнаружению объектов в реальном времени. Он решает проблему высоких вычислительных затрат, обычно связанных с Transformers, путем внедрения эффективного гибридного энкодера.

Авторы: Веню Лв, Йиан Чжао, Циняо Чанг, Куи Хуанг, Гуанжонг Ванг и Йи Лиу
Организация:Baidu
Дата: 2023-04-17 (v1), 2024-07 (v2)
Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies

Ключевые преимущества

Глобальный контекст: Механизм само-внимания позволяет модели понимать взаимосвязи между удаленными объектами на изображении, уменьшая количество ложных срабатываний в сложных сценах.
Высокая точность: Стабильно достигает более высоких показателей mAP по сравнению с моделями на основе CNN аналогичного масштаба.
NMS не требуется: Архитектура transformer естественным образом устраняет дублирующиеся detections, устраняя необходимость в постобработке Non-Maximum Suppression (NMS).

Слабые стороны

Интенсивность использования памяти: Требует значительно больше GPU VRAM во время обучения по сравнению с CNN, что затрудняет обучение на оборудовании потребительского класса.
Задержка CPU: Хотя операции Transformer оптимизированы для GPU, они могут быть медленнее на периферийных устройствах только с CPU по сравнению с облегченными CNN, такими как YOLOX-Nano.

Узнайте больше о RTDETRv2

Идеальные варианты использования

Выбор между этими моделями часто зависит от конкретных ограничений среды развертывания.

Выберите YOLOX, если: Вы выполняете развертывание на периферийных устройствах с ограниченными ресурсами, таких как Raspberry Pi или мобильные телефоны, где важна каждая миллисекунда задержки. Он также отлично подходит для промышленных инспекционных линий, где объекты являются жесткими и предсказуемыми.
Выберите RTDETRv2, если: у вас есть доступ к мощным GPU (например, NVIDIA T4 или A100) и точность имеет первостепенное значение. Он превосходно подходит для переполненных сцен, автономного вождения или воздушного наблюдения, где контекст и отношения между объектами имеют решающее значение.

Оптимизация развертывания

Независимо от выбранной модели, использование фреймворков оптимизации, таких как TensorRT или OpenVINO, имеет важное значение для достижения скорости в реальном времени в производственных средах. Обе модели значительно выигрывают от квантования до FP16 или INT8.

Почему модели Ultralytics YOLO являются превосходным выбором

В то время как YOLOX и RTDETRv2 впечатляют, экосистема Ultralytics YOLO, возглавляемая YOLO11, предлагает более целостное решение для разработчиков и исследователей. Ultralytics уделяет приоритетное внимание пользовательскому опыту, обеспечивая доступность, эффективность и универсальность современной AI.

1. Непревзойденная универсальность и экосистема

В отличие от YOLOX, который в основном является моделью для detect, Ultralytics YOLO11 изначально поддерживает широкий спектр задач компьютерного зрения, включая сегментацию экземпляров, оценку позы, классификацию и detect ориентированных ограничивающих рамок (OBB). Это позволяет решать несколько задач с помощью единого унифицированного API.

2. Простота использования и обслуживания

Пакет Ultralytics упрощает сложный мир MLOps. Благодаря хорошо поддерживаемой кодовой базе, частым обновлениям и обширной документации, пользователи могут перейти от установки к обучению за считанные минуты.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
train_results = model.train(
    data="coco8.yaml",  # path to dataset YAML
    epochs=100,  # number of training epochs
    imgsz=640,  # training image size
    device="cpu",  # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)

# Evaluate model performance on the validation set
metrics = model.val()

3. Эффективность обучения и объем памяти

Одним из важнейших преимуществ моделей Ultralytics YOLO является их эффективность. Известно, что модели на основе трансформеров, такие как RTDETRv2, требуют большого количества данных и памяти, часто нуждаясь в высокопроизводительных GPU с большим объемом VRAM для обучения. В отличие от них, модели Ultralytics YOLO оптимизированы для эффективного обучения на более широком спектре оборудования, включая потребительские GPU, при этом используя меньше памяти CUDA. Эта эффективность обучения делает высокопроизводительный ИИ более доступным.

4. Баланс производительности

Модели Ultralytics разработаны для достижения «золотой середины» между скоростью и точностью. Для большинства реальных приложений — от розничной аналитики до мониторинга безопасности — YOLO11 обеспечивает точность, сопоставимую с Transformer, сохраняя при этом молниеносную скорость вывода, необходимую для прямых видеотрансляций.

Заключение

И YOLOX, и RTDETRv2 внесли значительный вклад в область компьютерного зрения. YOLOX остается надежным выбором для строго ограниченных устаревших встроенных систем, в то время как RTDETRv2 расширяет границы точности для высокопроизводительного оборудования.

Однако, для большинства разработчиков, ищущих перспективное, универсальное и простое в использовании решение, Ultralytics YOLO11 выделяется как лучший выбор. Сочетание низких требований к памяти, широкой поддержки задач и процветающего сообщества гарантирует, что ваш проект будет построен на основе надежности и производительности.

Изучите другие сравнения

Чтобы дополнительно уточнить выбор модели, рассмотрите возможность изучения этих связанных технических сравнений:

YOLOX против RTDETRv2: техническое сравнение для object detection

Анализ производительности: скорость в сравнении с точностью

YOLOX: Эффективность Anchor-Free

Ключевые преимущества

Слабые стороны

RTDETRv2: мощь Transformer

Ключевые преимущества

Слабые стороны

Идеальные варианты использования

Почему модели Ultralytics YOLO являются превосходным выбором

1. Непревзойденная универсальность и экосистема

2. Простота использования и обслуживания

3. Эффективность обучения и объем памяти

4. Баланс производительности

Заключение

Изучите другие сравнения

Комментарии