Перейти к содержанию

RTDETRv2 против YOLOX: техническое сравнение для обнаружения объектов

Выбор правильной модели обнаружения объектов имеет решающее значение для проектов по компьютерному зрению. Ultralytics предлагает разнообразные модели, включая серию YOLO и серию RT-DETR , каждая из которых обладает уникальными преимуществами. На этой странице представлено подробное техническое сравнение RTDETRv2 и YOLOX, двух самых современных моделей для обнаружения объектов, чтобы помочь вам принять обоснованное решение, исходя из требований вашего проекта.

RTDETRv2: Высокоточное обнаружение в режиме реального времени

RTDETRv2(Real-Time Detection Transformer v2) - это передовая модель обнаружения объектов, разработанная компанией Baidu и известная своей высокой точностью и производительностью в режиме реального времени. Представленная 2023-04-17 и подробно описанная в статье Arxiv, RTDETRv2 использует архитектуру Vision Transformer (ViT) для достижения самых современных результатов. Официальная реализация доступна на GitHub.

Архитектура и ключевые особенности

Архитектура RTDETRv2 основана на трансформаторах зрения, что позволяет ей улавливать глобальный контекст в изображениях с помощью механизмов самовнимания. Такой подход на основе трансформаторов позволяет надежно выделять признаки и точно локализовать объекты, особенно в сложных сценах. В отличие от традиционных моделей на основе CNN, RTDETRv2 лучше понимает взаимосвязи между различными частями изображения, что позволяет повысить точность обнаружения.

Показатели производительности

Модели RTDETRv2 демонстрируют впечатляющие показатели mAP, а более крупные варианты, такие как RTDETRv2-x, достигают mAPval50-95 на уровне 54,3. Хотя подробные показатели скорости CPU ONNX не представлены в таблице ниже, скорость TensorRT является конкурентоспособной, что делает его подходящим для приложений реального времени на мощном оборудовании, таком как графические процессоры NVIDIA T4. Подробные показатели производительности приведены в таблице сравнения моделей ниже.

Сильные и слабые стороны

Сильные стороны:

  • Превосходная точность: Трансформаторная архитектура обеспечивает превосходную точность обнаружения объектов.
  • Возможность работы в режиме реального времени: Достигает конкурентоспособной скорости вывода с аппаратным ускорением, подходит для систем реального времени.
  • Эффективное извлечение характеристик: Преобразователи зрения эффективно улавливают глобальный контекст и мельчайшие детали.

Слабые стороны:

  • Больший размер модели: Модели RTDETRv2, особенно большие версии, имеют большее количество параметров и FLOP, что требует больше вычислительных ресурсов.
  • Ограничения скорости вывода: Несмотря на работу в режиме реального времени, на менее мощных устройствах она может быть не такой быстрой, как высокооптимизированные модели типа YOLOX.

Идеальные варианты использования

RTDETRv2 лучше всего подходит для приложений, где точность имеет первостепенное значение, а вычислительные ресурсы достаточны. Идеальные варианты использования включают:

Узнайте больше о RTDETRv2

YOLOX: эффективное и универсальное обнаружение объектов

YOLOX(You Only Look Once X) - это модель обнаружения объектов без якорей, разработанная компанией Megvii и известная своей высокой производительностью и эффективностью. Представленная 2021-07-18 и подробно описанная в статье Arxiv, YOLOX развивает серию YOLO , предлагая упрощенный дизайн с самыми современными результатами. Официальная документация содержит исчерпывающую информацию.

Архитектура и ключевые особенности

YOLOX использует безъякорный подход, устраняя необходимость в предопределенных якорных ящиках, что упрощает модель и уменьшает гиперпараметры. В модели реализована раздельная голова для классификации и локализации, что повышает эффективность и точность обучения. Для повышения надежности используются передовые методы дополнения данных, такие как MixUp и Mosaic. YOLOX отличается высокой скоростью и эффективностью, что делает его подходящим для приложений реального времени и развертывания на различных аппаратных платформах.

Показатели производительности

YOLOX предлагает ряд размеров моделей, от Nano до XLarge, удовлетворяющих различным вычислительным бюджетам и требованиям к точности. Модели YOLOX обеспечивают хороший баланс между скоростью и точностью. Например, модель YOLOX-s достигает mAPval50-95 40,5 при высокой скорости вычислений на TensorRT. Подробные показатели производительности различных вариантов YOLOX приведены в таблице сравнения моделей ниже.

Сильные и слабые стороны

Сильные стороны:

  • Высокая эффективность и скорость: Оптимизирован для быстрого вывода, что делает его идеальным для приложений, работающих в режиме реального времени.
  • Безъякорная конструкция: Упрощает архитектуру и процесс обучения, улучшая обобщение.
  • Универсальные размеры моделей: Предлагает ряд размеров моделей для удовлетворения различных вычислительных ограничений.
  • Сильная производительность: Достигает хорошего баланса между скоростью и точностью.

Слабые стороны:

  • Компромисс с точностью: Несмотря на эффективность, в сложных сценариях точность может быть немного ниже, чем у моделей на основе трансформаторов, таких как RTDETRv2.
  • Производительность в сложных сценах: Будучи одноступенчатым детектором, он может быть менее надежным в очень переполненных сценах по сравнению с некоторыми двухступенчатыми детекторами, хотя YOLOX значительно смягчает этот недостаток по сравнению с предыдущими версиями YOLO .

Идеальные варианты использования

YOLOX идеально подходит для приложений, требующих обнаружения объектов в реальном времени с акцентом на скорость и эффективность. К ним относятся:

Узнайте больше о YOLOX

Сравнительная таблица моделей

Модель размер(пиксели) mAPval
50-95
CPU ONNX
(мс)
SpeedT4TensorRT10
(мс)
params(M) FLOPs(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

Заключение

И RTDETRv2, и YOLOX - мощные модели обнаружения объектов, но они отвечают разным приоритетам. RTDETRv2 является лучшим выбором, когда требуется максимальная точность и вычислительные ресурсы не являются ограничивающим фактором. YOLOX, наоборот, лучше в сценариях, где важны производительность в реальном времени, эффективность и развертывание на менее мощном оборудовании.

Для пользователей, изучающих другие варианты, Ultralytics предлагает широкий выбор моделей, включая:

Выбор между RTDETRv2, YOLOX и другими моделями Ultralytics должен определяться конкретными потребностями вашего проекта по компьютерному зрению, тщательно взвешивая точность, скорость и доступные ресурсы. Изучите документациюUltralytics и репозиторий GitHub для получения более подробной информации и деталей реализации.

📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии