Перейти к содержанию

RTDETRv2 против YOLOv9: техническое сравнение современных моделей обнаружения

В быстро развивающейся области компьютерного зрения выбор правильной архитектуры обнаружения объектов имеет решающее значение для обеспечения баланса между точностью, скоростью и вычислительными ресурсами. В данном руководстве приводится подробное техническое сравнение RTDETRv2 (Real-Time Detection Transformer v2), усовершенствованной модели на основе трансформатора, и YOLOv9передовой моделью, ориентированной на эффективность, интегрированной в экосистемуUltralytics .

В то время как RTDETRv2 расширяет границы обнаружения на основе трансформаторов, YOLOv9 представляет новые архитектурные концепции, такие как программируемая градиентная информация (PGI), чтобы максимизировать эффективность параметров. Ниже мы проанализируем их архитектуры, показатели производительности и идеальные сценарии развертывания, чтобы помочь вам решить, какая модель соответствует потребностям вашего проекта.

Метрики производительности: Точность и скорость

В следующей таблице представлено сравнение ключевых показателей производительности, оцененных на наборе данныхCOCO . В ней показано, как YOLOv9 достигает конкурентоспособной или превосходящей точностиmAP) при значительно меньших вычислительных затратах (FLOPs) и более высокой скорости вывода по сравнению с RTDETRv2.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Как видно из иллюстрации, YOLOv9e превосходит RTDETRv2-x по точности(55,6% против 54,3% mAP), используя при этом меньшее количество FLOP (189B против 259B). Такая эффективность делает YOLOv9 привлекательным выбором для приложений реального времени, где требуется учет аппаратных ресурсов.

RTDETRv2: Усовершенствование трансформатора обнаружения

RTDETRv2 является развитием оригинального RT-DETRразработанное для устранения ограничений традиционных детекторов на основе якорей путем использования архитектуры трансформатора. Он сосредоточен на повышении стабильности и производительности трансформаторов обнаружения в реальном времени с помощью подхода "Bag-of-Freebies", оптимизации стратегий обучения и динамического определения размера словаря.

Архитектура и основные характеристики

В RTDETRv2 используется гибридная архитектура кодера-декодера. Кодер обрабатывает признаки изображения, а декодер-трансформер генерирует запросы к объектам. Основные архитектурные усовершенствования включают оптимизированный механизм внимания, который позволяет динамически выбирать запросы, снижая вычислительные затраты, обычно связанные с трансформаторами.

В отличие от стандартных моделей YOLO , которые опираются на основы и головы на базе CNN, RTDETRv2 отделяет концепцию "якорей" от головы обнаружения, рассматривая обнаружение объектов как задачу прямого предсказания множества. Это устраняет необходимость в немаксимальном подавлении (NMS) во многих конфигурациях, теоретически упрощая конвейер постобработки.

Сильные и слабые стороны

Преимущества:

  • Точность: Превосходно обнаруживает объекты со сложными взаимодействиями или окклюзиями благодаря глобальной осведомленности о контексте.
  • Без якорей: устраняет необходимость в ручной настройке якорных ящиков, упрощая конфигурацию для различных наборов данных.
  • Адаптивность: Динамический словарь позволяет модели лучше адаптироваться к изменяющимся условиям обучения.

Слабые стороны:

  • Ресурсоемкость: Архитектуры трансформеров обычно требуют больше памяти GPU и вычислительных мощностей для обучения по сравнению с CNN.
  • Латентность выводов: Несмотря на оптимизацию, трансформаторы могут работать медленнее на устройствах с граничным ИИ по сравнению с высоко оптимизированными CNN, такими как YOLOv9.
  • Сложность: Конвейер обучения и настройка гиперпараметров для трансформаторов могут быть более сложными, чем для моделей YOLO .

Идеальные варианты использования

RTDETRv2 хорошо подходит для развертывания серверов высокого класса, где точность имеет первостепенное значение, например:

  • Медицинская визуализация: Анализ сложных снимков, где глобальный контекст помогает выявить аномалии.
  • Воздушное наблюдение: Обнаружение мелких объектов на крупных спутниковых снимках высокого разрешения.
  • Детальный контроль качества: Проверка производственных дефектов, когда мельчайшие детали имеют большее значение, чем скорость обработки.

Узнайте больше о RT-DETR

YOLOv9: Эффективность благодаря программируемым градиентам

YOLOv9 Представляет собой значительный скачок в семействе YOLO , внедряя архитектурные инновации, которые решают проблему "узкого места" в глубине нейронных сетей. Обеспечивая сохранение информации о градиенте в глубоких слоях, YOLOv9 достигает современной производительности с замечательной эффективностью использования параметров.

Архитектура: PGI и GELAN

YOLOv9 представляет две новаторские концепции:

  1. Программируемая градиентная информация (PGI): Вспомогательная система контроля, которая генерирует надежные градиенты для обновления весов сети, гарантируя, что глубокие слои сохранят важную информацию о признаках. Это имитирует преимущества повторной параметризации без затрат на вывод.
  2. Обобщенная эффективная сеть агрегирования уровней (GELAN): Легкая сетевая архитектура, оптимизирующая использование параметров и вычислительную пропускную способность (FLOPs). GELAN позволяет YOLOv9 работать быстрее, используя меньше памяти, чем его предшественники и конкуренты.

Почему стоит выбрать YOLOv9?

Интеграция YOLOv9 в экосистемуUltralytics дает разработчикам явные преимущества:

  • Эффективность обучения: YOLOv9 требует значительно меньше памяти GPU при обучении, чем модели на основе трансформаторов, такие как RTDETRv2. Это позволяет проводить обучение на оборудовании потребительского класса или на корпоративных кластерах с большими объемами партий.
  • Простота использования: С помощью Ultralytics Python API пользователи могут обучать, проверять и развертывать YOLOv9 всего за несколько строк кода.
  • Универсальность: Несмотря на то, что в первую очередь это модель обнаружения объектов, базовая архитектура достаточно гибкая, чтобы поддерживать такие задачи, как сегментация объектов и обнаружение ориентированных ограничительных рамок (OBB).
  • Баланс производительности: Оптимальный баланс, обеспечивающий высочайшую точность и скорость, необходимую для видеоаналитики в реальном времени.

Преимущество экосистемы

Ultralytics предоставляет единый интерфейс для всех своих моделей. Переход от YOLOv8 или YOLO11 к YOLOv9 требует только изменения строки имени модели, что позволяет легко проводить бенчмаркинг и эксперименты.

Идеальные варианты использования

YOLOv9 - это предпочтительный выбор для реальных развертываний, требующих скорости и эффективности:

  • Пограничные вычисления: Развертывание на встраиваемых устройствах, таких как NVIDIA Jetson или Raspberry Pi.
  • Аналитика в реальном времени: Мониторинг трафика, аналитика розничной торговли и спортивного анализа, где важна высокая частота кадров.
  • Мобильные приложения: эффективная работа на устройствах iOS и Android с помощью CoreML или TFLite экспорт.
  • Робототехника: Обеспечение быстрого восприятия для автономной навигации и взаимодействия.

Узнайте больше о YOLOv9

Сравнительный анализ: Архитектура и рабочий процесс

Выбирая между RTDETRv2 и YOLOv9, обратите внимание на фундаментальные архитектурные различия. RTDETRv2 опирается на возможности трансформеров, используя механизмы самовнимания для понимания глобального контекста. Это часто приводит к более высокой точности на сложных статических изображениях, но за это приходится платить большим объемом памяти для обучения и более медленным выводом на аппаратном обеспечении без GPU .

В отличие от, YOLOv9 использует развитую архитектуру CNN (GELAN), усовершенствованную PGI. Эта конструкция по своей сути более дружественна к аппаратному обеспечению, что подтверждается многолетним опытом оптимизации CNN в таких библиотеках, как TensorRT и OpenVINO.

Методология обучения

Обучение RTDETRv2 обычно требует больше времени на сходимость и больше памяти для размещения карт внимания. Напротив, YOLOv9 выигрывает от эффективных процессов обучения, отточенных командой Ultralytics . Наличие предварительно обученных весов и возможность беспрепятственной интеграции с Ultralytics HUB упрощают рабочий процесс от аннотации данных до развертывания модели.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your dataset with excellent memory efficiency
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with high speed
results = model("path/to/image.jpg")

Заключение: Какая модель соответствует вашим потребностям?

Для подавляющего большинства коммерческих и исследовательских приложений, YOLOv9 является рекомендуемым выбором. Он предлагает превосходный компромисс между точностью и скоростью, поддерживаемый надежной экосистемойUltralytics . Благодаря меньшему объему занимаемой памяти и широким возможностям развертывания он подходит для любых приложений - от облачных серверов до периферийных устройств.

RTDETRv2 остается мощным инструментом для академических исследований и специализированных сценариев, где уникальные свойства трансформаторов зрения дают особое преимущество, а вычислительные ограничения не являются первостепенной задачей.

Изучите другие модели Ultralytics

Если вы ищете еще больше возможностей, рассмотрите эти альтернативы в рамках Ultralytics :

  • YOLO11: последняя итерация в серии YOLO , предлагающая дальнейшие усовершенствования в скорости и точности для самых современных применений.
  • YOLOv8: Универсальная модель, поддерживающая обнаружение, сегментацию, оценку позы и классификацию, известная своей стабильностью и широким распространением.
  • RT-DETR: Ultralytics также поддерживает оригинальную модель RT-DETR , позволяя вам экспериментировать с обнаружением на основе трансформаторов в рамках привычного API Ultralytics .

Комментарии