Перейти к содержанию

RTDETRv2 и YOLOv9: техническое сравнение современных моделей detect

В быстро развивающейся области компьютерного зрения выбор правильной архитектуры detect объектов имеет решающее значение для балансировки точности, скорости и вычислительных ресурсов. В этом руководстве представлено подробное техническое сравнение между RTDETRv2 (Real-Time Detection Transformer v2), усовершенствованной моделью на основе transformer, и YOLOv9, современной моделью, ориентированной на эффективность и интегрированной в экосистему Ultralytics.

В то время как RTDETRv2 расширяет границы обнаружения на основе трансформеров, YOLOv9 представляет новые архитектурные концепции, такие как Programmable Gradient Information (PGI), для максимальной эффективности параметров. Ниже мы проанализируем их архитектуры, показатели производительности и идеальные сценарии развертывания, чтобы помочь вам решить, какая модель соответствует потребностям вашего проекта.

Метрики производительности: Точность и скорость

В следующей таблице представлено прямое сравнение ключевых показателей производительности, оцененных на датасете COCO. В ней показано, как YOLOv9 достигает конкурентоспособной или превосходной точности (mAP) при значительно более низких вычислительных затратах (FLOPs) и более высокой скорости инференса по сравнению с RTDETRv2.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Как показано, YOLOv9e превосходит RT-DETRv2-x по точности (55.6% против 54.3% mAP), используя при этом меньше FLOPs (189B против 259B). Эта эффективность делает YOLOv9 привлекательным выбором для приложений реального времени, где ресурсы оборудования имеют значение.

RTDETRv2: совершенствование Transformer для detect

RTDETRv2 — это эволюция оригинальной RT-DETR, разработанная для устранения ограничений традиционных детекторов на основе якорей за счет использования архитектуры transformer. Он фокусируется на улучшении стабильности и производительности transformerов обнаружения в реальном времени с помощью подхода "Bag-of-Freebies", оптимизируя стратегии обучения и динамическое определение размера словаря.

Архитектура и ключевые характеристики

RTDETRv2 использует гибридную архитектуру энкодера-декодера. Энкодер обрабатывает признаки изображения, а декодер transformer генерирует объектные запросы. Ключевые архитектурные улучшения включают оптимизированный механизм attention, который позволяет динамически выбирать запросы, снижая вычислительные затраты, обычно связанные с трансформерами.

В отличие от стандартных моделей YOLO, которые полагаются на CNN-based backbones и heads, RTDETRv2 отделяет понятие «anchors» от detection head, рассматривая object detection как прямую задачу прогнозирования набора. Это устраняет необходимость в Non-Maximum Suppression (NMS) во многих конфигурациях, теоретически упрощая конвейер постобработки.

Сильные и слабые стороны

Преимущества:

  • Точность: Превосходно обнаруживает объекты со сложными взаимодействиями или окклюзиями благодаря глобальной осведомленности о контексте.
  • Без привязки к якорям: Устраняет необходимость ручной настройки anchor box, упрощая конфигурацию для различных наборов данных.
  • Адаптируемость: Динамический словарь позволяет модели лучше адаптироваться к различным условиям обучения.

Слабые стороны:

  • Интенсивность использования ресурсов: Архитектуры Transformer обычно требуют больше памяти GPU и вычислительной мощности для обучения по сравнению с CNN.
  • Задержка инференса: Несмотря на оптимизации, трансформеры могут работать медленнее на периферийных устройствах ИИ по сравнению с высокооптимизированными CNN, такими как YOLOv9.
  • Сложность: Конвейер обучения и настройка гиперпараметров для transformers могут быть более сложными, чем для моделей YOLO.

Идеальные варианты использования

RTDETRv2 хорошо подходит для высокопроизводительных серверных развертываний, где точность имеет первостепенное значение, например:

  • Медицинская визуализация: Анализ сложных сканов, где глобальный контекст помогает выявлять аномалии.
  • Воздушное наблюдение: Обнаружение мелких объектов на больших спутниковых снимках с высоким разрешением.
  • Детальный контроль качества: Проверка производственных дефектов, где мельчайшие детали важнее скорости.

Узнайте больше о RT-DETR

YOLOv9: Эффективность благодаря программируемым градиентам

YOLOv9 представляет собой значительный скачок в семействе YOLO, представляя архитектурные инновации, которые решают проблему информационного узкого места в глубине нейронных сетей. Обеспечивая сохранение информации о градиенте на глубоких слоях, YOLOv9 достигает современного уровня производительности с замечательной эффективностью параметров.

Архитектура: PGI и GELAN

YOLOv9 представляет две новаторские концепции:

  1. Программируемая градиентная информация (PGI): Вспомогательная структура контроля, которая генерирует надежные градиенты для обновления весов сети, обеспечивая сохранение ключевой информации о признаках в глубоких слоях. Это имитирует преимущества репараметризации без затрат на вывод.
  2. Обобщенная эффективная сеть агрегации слоев (GELAN): Легкая архитектура сети, которая оптимизирует использование параметров и вычислительную пропускную способность (FLOPs). GELAN позволяет YOLOv9 работать быстрее, используя меньше памяти, чем ее предшественники и конкуренты.

Почему стоит выбрать YOLOv9?

Интеграция YOLOv9 в экосистему Ultralytics предоставляет разработчикам следующие преимущества:

  • Эффективность обучения: YOLOv9 требует значительно меньше памяти GPU во время обучения, чем модели на основе трансформеров, такие как RTDETRv2. Это позволяет проводить обучение на оборудовании потребительского класса или использовать большие размеры пакетов в корпоративных кластерах.
  • Простота использования: С помощью Ultralytics Python API пользователи могут обучать, проверять и развертывать YOLOv9 всего в несколько строк кода.
  • Универсальность: Будучи в первую очередь моделью обнаружения объектов, базовая архитектура достаточно гибка, чтобы поддерживать такие задачи, как сегментация экземпляров и обнаружение ориентированных ограничивающих рамок (OBB).
  • Баланс производительности: Он обеспечивает оптимальный баланс, обеспечивая первоклассную точность со скоростью, необходимой для видеоаналитики в реальном времени.

Преимущество экосистемы

Ultralytics предоставляет унифицированный интерфейс для всех своих моделей. Переключение с YOLOv8 или YOLO11 на YOLOv9 требует только изменения строки имени модели, что позволяет легко проводить бенчмаркинг и эксперименты.

Идеальные варианты использования

YOLOv9 – предпочтительный выбор для реальных развертываний, требующих скорости и эффективности:

  • Периферийные вычисления: Развертывание на встроенных устройствах, таких как NVIDIA Jetson или Raspberry Pi.
  • Аналитика в реальном времени: Мониторинг трафика, аналитика розничной торговли и анализ спортивных соревнований, где важна высокая частота кадров.
  • Мобильные приложения: Эффективная работа на устройствах iOS и Android через экспорт CoreML или TFLite.
  • Робототехника: Обеспечение быстрого восприятия для автономной навигации и взаимодействия.

Узнайте больше о YOLOv9

Сравнительный анализ: Архитектура и рабочий процесс

При выборе между RTDETRv2 и YOLOv9 учитывайте фундаментальные архитектурные различия. RTDETRv2 опирается на мощь Transformers, используя механизмы самоанализа для понимания глобального контекста. Это часто приводит к более высокой точности на сложных статических изображениях, но достигается ценой большего потребления памяти при обучении и более медленного инференса на оборудовании, отличном от GPU.

В отличие от этого, YOLOv9 использует усовершенствованную архитектуру CNN (GELAN), улучшенную с помощью PGI. Эта конструкция изначально более удобна для оборудования, извлекая выгоду из многолетней оптимизации CNN в таких библиотеках, как TensorRT и OpenVINO.

Методология обучения

Обучение RTDETRv2 обычно требует большего времени сходимости и большего объема памяти для размещения карт внимания. И наоборот, YOLOv9 выигрывает от эффективных процессов обучения, отточенных командой Ultralytics. Доступность предварительно обученных весов и возможность беспрепятственной интеграции с Ultralytics HUB упрощает рабочий процесс от аннотации данных до развертывания модели.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your dataset with excellent memory efficiency
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with high speed
results = model("path/to/image.jpg")

Вывод: Какая модель соответствует вашим потребностям?

Для подавляющего большинства коммерческих и исследовательских приложений YOLOv9 является рекомендуемым выбором. Он предлагает превосходный компромисс между точностью и скоростью, поддерживаемый надежной экосистемой Ultralytics. Его меньший объем памяти и универсальные варианты развертывания делают его подходящим для всего, от облачных серверов до периферийных устройств.

RTDETRv2 остается мощным инструментом для академических исследований и специализированных сценариев, где уникальные свойства vision transformers обеспечивают определенное преимущество, а вычислительные ограничения не являются основной проблемой.

Изучите другие модели Ultralytics

Если вы ищете еще больше возможностей, рассмотрите следующие альтернативы в рамках Ultralytics:

  • YOLO11: Последняя итерация в серии YOLO, предлагающая дальнейшие усовершенствования в скорости и точности для передовых приложений.
  • YOLOv8: Универсальная модель, поддерживающая detect, segment, оценку позы и классификацию, известная своей стабильностью и широким распространением.
  • RT-DETR: Ultralytics также поддерживает оригинальную модель RT-DETR, позволяя вам экспериментировать с обнаружением на основе трансформеров в рамках знакомого API Ultralytics.

Комментарии