Перейти к содержанию

YOLOv9 против RTDETRv2: Технический глубокий анализ современного обнаружения объектов

Ландшафт обнаружения объектов в реальном времени претерпел сдвиг парадигмы в последние годы. Две различные архитектурные философии стали доминировать в этой области: высокооптимизированные сверточные нейронные сети (CNN) и трансформеры обнаружения в реальном времени (DETR). Вершиной этих двух подходов являются YOLOv9 и RTDETRv2.

Это всеобъемлющее руководство сравнивает эти две мощные модели, анализируя их архитектурные инновации, метрики производительности и идеальные сценарии развертывания, чтобы помочь вам выбрать правильную модель для вашего конвейера компьютерного зрения.

Краткое изложение

Обе модели достигают передовых результатов, но ориентированы на несколько разные ограничения развертывания и экосистемы разработки.

  • Выбирайте YOLOv9, если: Вам требуется высокоэффективное использование параметров и быстрый инференс на периферийных устройствах. YOLOv9 расширяет теоретические пределы эффективности CNN, что делает его идеальным для сред со строго ограниченными вычислительными ресурсами.
  • Выберите RTDETRv2, если: Вам требуется тонкое понимание контекста, которое обеспечивают трансформеры, особенно в сценах с сильной окклюзией или сложными отношениями между объектами, и у вас есть оборудование для поддержки немного более тяжелой архитектуры.
  • Выберите YOLO26 (рекомендуется), если: вы хотите получить абсолютно лучшее из двух миров. Будучи новейшим поколением, доступным на Ultralytics Platform, YOLO26 обладает нативной сквозной NMS-Free архитектурой (подобной моделям DETR, но значительно быстрее), устраняя узкие места постобработки и предлагая до 43% более быстрый инференс на CPU по сравнению с предыдущими поколениями.

Технические характеристики и авторство

Понимание истоков и замысла проектирования этих моделей обеспечивает важный контекст для их архитектурных решений.

YOLOv9

Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
Организация:Институт информатики, Academia Sinica
Дата: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:WongKinYiu/YOLOv9

Узнайте больше о YOLOv9

RTDETRv2

Авторы: Вэньюй Лю, Иань Чжао, Циняо Чан, Куй Хуан, Гуаньчжун Ван и И Лю
Организация:BaiduДата: 24.07.2024
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:lyuwenyu/RT-DETR

Узнайте больше о RTDETR

Архитектурные инновации

YOLOv9: Решение проблемы узкого места информации

Ultralytics YOLOv9 представляет две основные инновации, разработанные для решения проблемы потери информации при прохождении данных через глубокие нейронные сети:

  1. Программируемая градиентная информация (PGI): Этот вспомогательный фреймворк контроля гарантирует генерацию надёжных градиентов для обновления весов сети, сохраняя критически важную информацию о признаках даже в очень глубоких слоях сети.
  2. Обобщенная эффективная сеть агрегации слоев (GELAN): Новая архитектура, сочетающая в себе преимущества CSPNet и ELAN. GELAN оптимизирует эффективность параметров, позволяя YOLOv9 достигать более высокой точности с меньшим количеством операций FLOP по сравнению с традиционными CNN.

RTDETRv2: Улучшение трансформеров реального времени

Основываясь на успехе оригинального RT-DETR, RTDETRv2 использует архитектуру на основе трансформеров, которая по своей сути позволяет избежать необходимости в Non-Maximum Suppression (NMS). Его улучшения включают:

  1. Стратегия Bag-of-Freebies: Итерация v2 включает передовые методы обучения и аугментации данных, которые значительно повышают точность без увеличения задержки инференса.
  2. Эффективный гибридный энкодер: Обрабатывая многомасштабные признаки с помощью декомпозированного механизма внимания внутри масштаба и между масштабами, RTDETRv2 эффективно управляет традиционно высокой вычислительной стоимостью Vision Transformers.

Нативное сквозное обнаружение

В то время как RTDETRv2 использует трансформеры для обнаружения без NMS, новая архитектура YOLO26 достигает этого нативно в рамках высокооптимизированной структуры CNN, обеспечивая такое же упрощенное развертывание, но с значительно превосходящей скоростью инференса на периферийных устройствах.

Сравнение производительности

При оценке моделей для производства критически важен компромисс между точностью и вычислительными требованиями. В таблице ниже представлена производительность моделей различных размеров по стандартным бенчмаркам.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Анализ

Как показывают данные, YOLOv9 сохраняет строгое преимущество в эффективности использования параметров. Модель YOLOv9c достигает впечатляющего 53.0 mAP всего с 25.3M параметрами, что делает её невероятно легковесной.

Напротив, RTDETRv2 составляет сильную конкуренцию в категориях моделей среднего и большого размера. Однако это достигается за счет большего количества параметров и значительно больших FLOPs, что характерно для Transformer моделей. Это архитектурное различие также влияет на использование памяти: модели YOLO обычно требуют значительно меньше памяти CUDA как во время обучения, так и во время инференса по сравнению с их Transformer-аналогами.

Преимущества Ultralytics: Экосистема и универсальность

Хотя чистые архитектурные метрики важны, программная экосистема часто определяет успех проекта ИИ. Доступ к этим передовым моделям через Ultralytics Python API предлагает беспрецедентные преимущества.

Оптимизированные обучение и развертывание

Обучение Detection Transformer обычно требует сложных файлов конфигурации и высокопроизводительных GPU. Используя фреймворк Ultralytics, разработчики могут обучать модели YOLOv9 и RTDETR с идентичным, простым синтаксисом, извлекая выгоду из высокоэффективных конвейеров обучения и легкодоступных предварительно обученных весов.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Непревзойденная универсальность задач

Основным ограничением специализированных моделей, таких как RTDETRv2, является их узкая направленность на обнаружение ограничивающих рамок. В отличие от этого, более широкая экосистема Ultralytics, включающая такие модели, как YOLO11 и YOLOv8, поддерживает широкий спектр задач компьютерного зрения. Это включает в себя пиксельную сегментацию экземпляров, скелетную оценку позы, классификацию всего изображения и обнаружение ориентированных ограничивающих рамок (OBB) для аэрофотоснимков.

Приложения в реальном мире

Высокоскоростная периферийная аналитика

Для розничной торговли или производственных линий, требующих распознавания продуктов в реальном времени на периферийных устройствах, YOLOv9 является превосходным выбором. Его архитектура GELAN обеспечивает высокую пропускную способность на ограниченном оборудовании, таком как серия NVIDIA Jetson, позволяя осуществлять автоматизированный контроль качества без значительных задержек.

Анализ сложных сцен

В сценариях, таких как мониторинг плотных толп или сложные транспортные перекрестки, где объекты часто перекрывают друг друга, глобальные механизмы внимания RTDETRv2 проявляют себя наилучшим образом. Способность модели нативно рассуждать о контексте всего изображения позволяет ей поддерживать надежный track и detect даже при частичном скрытии объектов.

Сценарии использования и рекомендации

Выбор между YOLOv9 и RT-DETR зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбирать YOLOv9

YOLOv9 — отличный выбор для:

  • Исследования информационного узкого места: Академические проекты, изучающие архитектуры Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
  • Исследования по оптимизации потока градиентов: Исследования, направленные на понимание и снижение потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинг обнаружения с высокой точностью: Сценарии, где высокая производительность YOLOv9 в бенчмарке COCO необходима в качестве эталонной точки для архитектурных сравнений.

Когда выбрать RT-DETR

RT-DETR рекомендуется для:

  • Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
  • Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
  • Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Будущее: Встречайте YOLO26

Хотя YOLOv9 и RTDETRv2 представляют собой огромные достижения, область компьютерного зрения быстро развивается. Для разработчиков, планирующих начать новые проекты, YOLO26 является рекомендуемым передовым решением.

Выпущенный в 2026 году, YOLO26 включает в себя лучшие особенности как CNN, так и DETR. Он имеет сквозную архитектуру без NMS, полностью устраняющую задержку постобработки — техника, впервые примененная в YOLOv10. Кроме того, YOLO26 удаляет Distribution Focal Loss (DFL) для лучшей совместимости с периферийными устройствами и представляет революционный оптимизатор MuSGD. Вдохновленный обучением больших языковых моделей (в частности, Kimi K2 от Moonshot AI), этот гибридный оптимизатор обеспечивает беспрецедентную стабильность обучения и более быструю сходимость.

В сочетании с улучшенными функциями потерь, такими как ProgLoss и STAL, для исключительного распознавания мелких объектов, YOLO26 обеспечивает до 43% более быструю инференцию на CPU, укрепляя свою позицию в качестве идеальной модели для современных развертываний ИИ.


Комментарии