Перейти к содержанию

YOLOX против RTDETRv2: техническое сравнение для обнаружения объектов

Выбор подходящей модели обнаружения объектов — это критически важное решение, которое обеспечивает баланс между точностью, скоростью и вычислительными затратами. Это сравнение углубляется в две мощные, но различные архитектуры: YOLOX, высокопроизводительную модель на основе CNN, известную своей скоростью и эффективностью, и RTDETRv2, модель на основе трансформера, которая расширяет границы точности. Понимание их архитектурных различий, показателей производительности и идеальных вариантов использования поможет вам выбрать лучшую модель для вашего конкретного проекта в области компьютерного зрения.

YOLOX: высокопроизводительное обнаружение без привязки к якорям

YOLOX стал значительной эволюцией в серии YOLO, представив конструкцию без anchor, чтобы упростить конвейер обнаружения и повысить производительность. Он направлен на устранение разрыва между академическими исследованиями и промышленными приложениями, предлагая семейство моделей, которые масштабируются от легких до высокопроизводительных.

Узнайте больше о YOLOX

Архитектура и ключевые особенности

Основные инновации YOLOX заключаются в его anchor-free дизайне, который устраняет необходимость в предопределенных anchor boxes, снижая сложность проектирования. Ключевые архитектурные особенности включают в себя:

  • Decoupled Head (Разделенная голова): В отличие от традиционных моделей YOLO, которые выполняют классификацию и регрессию в одной голове, YOLOX использует разделенную голову. Это разделение улучшает скорость сходимости и точность.
  • Назначение меток SimOTA: В YOLOX используется продвинутая стратегия назначения меток под названием SimOTA (Simplified Optimal Transport Assignment, упрощенное оптимальное транспортное назначение). Она рассматривает назначение меток как задачу оптимальной транспортировки, что приводит к более точным и надежным назначениям, особенно в случаях перекрывающихся объектов.
  • Надежная аугментация данных: Модель использует мощные методы аугментации данных, такие как MixUp и Mosaic, для улучшения своих возможностей обобщения.

Сильные и слабые стороны

Преимущества:

  • Превосходный компромисс между скоростью и точностью: Модели YOLOX, особенно небольшие варианты, предлагают исключительную скорость инференса, что делает их подходящими для приложений, работающих в реальном времени.
  • Масштабируемость: Предоставляется ряд моделей от YOLOX-Nano для периферийных устройств до YOLOX-X для задач, требующих высокой точности.
  • Упрощенная конструкция: Подход без anchor-ов уменьшает количество гиперпараметров, которые необходимо настраивать.

Слабые стороны:

  • Ориентированность на задачу: YOLOX в первую очередь разработан для обнаружения объектов и не обладает встроенной универсальностью для других задач, таких как сегментация или оценка позы, которая есть в более современных фреймворках.
  • Экосистема и обслуживание: Будучи проектом с открытым исходным кодом, он не имеет такого же уровня непрерывной разработки, интегрированных инструментов (таких как Ultralytics HUB) или обширной поддержки сообщества, как экосистема Ultralytics.

Идеальные варианты использования

YOLOX превосходно справляется со сценариями, где производительность в реальном времени и эффективность имеют решающее значение, особенно на устройствах с ограниченной вычислительной мощностью.

  • Edge AI: Легкие модели YOLOX-Nano и YOLOX-Tiny идеально подходят для развертывания на платформах, таких как Raspberry Pi или NVIDIA Jetson.
  • Робототехника: Быстрое восприятие имеет решающее значение для навигации и манипулирования объектами в робототехнике.
  • Промышленный контроль: Автоматизированные визуальные проверки на быстро движущихся производственных линиях выигрывают от высокоскоростного обнаружения для улучшения производства.

RTDETRv2: Высокоточный детектор реального времени на основе Transformer

RTDETRv2 (Real-Time Detection Transformer version 2) представляет собой переход от CNN-ориентированных дизайнов к архитектурам на основе transformer для обнаружения объектов. Он нацелен на обеспечение высокой точности Vision Transformers при сохранении скорости работы в реальном времени.

Узнайте больше о RTDETRv2

Архитектура и ключевые особенности

RTDETRv2 использует гибридную архитектуру, которая сочетает в себе CNN backbone для эффективного извлечения признаков с кодировщиком-декодировщиком transformer для моделирования глобальных взаимосвязей внутри изображения.

  • Transformer-Based Decoder: Ядром RTDETRv2 является его transformer decoder, который использует механизмы самоанализа для понимания глобального контекста изображения, что позволяет ему превосходно обнаруживать объекты в сложных и загроможденных сценах.
  • Anchor-Free с обнаружением на основе запросов (Anchor-Free with Query-Based Detection): Как и другие модели DETR, он использует набор обучаемых запросов объектов для поиска объектов, избегая сложностей якорных прямоугольников и немаксимального подавления (NMS) в некоторых конфигурациях.

Сильные и слабые стороны

Преимущества:

  • Современная точность: Архитектура transformer позволяет RTDETRv2 достигать очень высоких показателей mAP, часто превосходя CNN-аналоги по точности.
  • Надёжность в сложных сценах: Его способность захватывать глобальный контекст делает его очень эффективным для изображений с большим количеством перекрывающихся или маленьких объектов.

Слабые стороны:

  • Высокая вычислительная стоимость: Transformer-модели являются вычислительно интенсивными, требуя больше FLOPs и значительно больше памяти GPU для обучения по сравнению с эффективными CNN, такими как Ultralytics YOLOv8.
  • Более медленный инференс на CPU: Будучи оптимизированным для инференса на GPU, его скорость может быть узким местом на CPU или периферийных устройствах с ограниченными ресурсами по сравнению с такими моделями, как YOLOX или Ultralytics YOLO11.
  • Сложность обучения: Обучение моделей на основе трансформеров может быть более сложным и трудоемким, часто требуя более длительных графиков обучения и больше ресурсов.

Идеальные варианты использования

RTDETRv2 — предпочтительный выбор для приложений, где максимальная точность является бескомпромиссной и доступны достаточные вычислительные ресурсы.

  • Автономные транспортные средства: Необходимы для надежного восприятия в автомобилях с автоматическим управлением, где точность может быть вопросом безопасности.
  • Медицинская визуализация: Точное обнаружение аномалий в медицинских сканах — идеальное применение.
  • Анализ спутниковых изображений: Детальный анализ спутниковых снимков высокого разрешения для таких приложений, как мониторинг окружающей среды или градостроительство.

Противостояние производительности: скорость против точности

В следующей таблице представлено прямое сравнение различных моделей YOLOX и RTDETRv2, в котором освещены компромиссы между точностью (mAP), скоростью и размером модели. Модели YOLOX обычно демонстрируют более быстрый вывод, особенно при оптимизации с помощью TensorRT, в то время как модели RTDETRv2 достигают более высоких показателей mAP.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Заключение: какую модель вам следует выбрать?

YOLOX и RTDETRv2 — мощные детекторы объектов, но они служат разным потребностям. YOLOX — это оптимальный выбор для приложений, требующих высокой скорости и эффективности, что делает его идеальным для систем реального времени и периферийных развертываний. В отличие от этого, RTDETRv2 — превосходный вариант, когда основная цель — достижение максимально возможной точности, при условии наличия достаточных вычислительных ресурсов.

Почему стоит выбрать модели Ultralytics YOLO?

Несмотря на то, что YOLOX и RTDETRv2 обладают широкими возможностями, модели Ultralytics YOLO, такие как YOLOv8 и новейшая YOLO11, часто представляют собой более привлекательный общий пакет для разработчиков и исследователей.

  • Простота использования: Ultralytics предлагает оптимизированный Python API, обширную документацию и многочисленные руководства, которые упрощают весь жизненный цикл разработки.
  • Развитая экосистема: Воспользуйтесь преимуществами активной разработки, сильного сообщества, частых обновлений и бесшовной интеграции с Ultralytics HUB для сквозного MLOps.
  • Баланс производительности: Модели Ultralytics разработаны для достижения превосходного компромисса между скоростью и точностью, что делает их идеально подходящими для широкого спектра реальных сценариев.
  • Эффективность использования памяти: Модели Ultralytics YOLO разработаны для эффективного использования памяти как во время обучения, так и во время инференса. Они обычно требуют меньше памяти CUDA, чем модели на основе трансформеров, такие как RTDETRv2, которые известны своими высокими требованиями к ресурсам.
  • Универсальность: Модели Ultralytics поддерживают множество задач «из коробки», включая сегментацию, оценку позы, классификацию и отслеживание, и все это в рамках единой унифицированной структуры.
  • Эффективность обучения: Наслаждайтесь более быстрым временем обучения и эффективным использованием ресурсов с готовыми предварительно обученными весами на наборах данных, таких как COCO.

Изучите другие сравнения

Чтобы принять более взвешенное решение, рассмотрите возможность изучения других сравнений моделей:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии