YOLOv9 против RTDETRv2: Технический разбор современного обнаружения объектов

Ландшафт обнаружения объектов в реальном времени претерпел значительные изменения за последние годы. В этой области доминируют две архитектурные философии: высокооптимизированные сверточные нейронные сети (CNN) и детекционные трансформеры (DETR) для работы в реальном времени. Вершиной этих двух подходов являются YOLOv9 и RTDETRv2.

Это подробное руководство сравнивает эти две мощные модели, анализируя их архитектурные инновации, показатели производительности и идеальные сценарии развертывания, чтобы помочь тебе выбрать подходящую модель для твоего конвейера компьютерного зрения.

Краткий обзор

Обе модели показывают передовые результаты, но они ориентированы на немного разные ограничения развертывания и экосистемы разработки.

  • Выбирай YOLOv9, если: тебе нужна максимально эффективная утилизация параметров и быстрая обработка (инференс) на граничных (edge) устройствах. YOLOv9 расширяет теоретические границы эффективности CNN, что делает модель идеальной для сред, где вычислительные ресурсы строго ограничены.
  • Выбирай RTDETRv2, если: тебе необходимо глубокое понимание контекста, которое обеспечивают трансформеры, особенно в сценах со значительным перекрытием объектов или сложными взаимосвязями между ними, и если у тебя есть оборудование для поддержки чуть более тяжелой архитектуры.
  • Выбирай YOLO26 (рекомендуется), если: ты хочешь получить лучшее от обоих миров. Будучи новейшим поколением, доступным на платформе Ultralytics, YOLO26 обладает нативным дизайном End-to-End NMS-Free (подобно моделям DETR, но значительно быстрее), что устраняет узкие места постобработки и обеспечивает до 43% более быстрый инференс на CPU по сравнению с предыдущими поколениями.

Технические характеристики и авторство

Понимание происхождения и замысла дизайна этих моделей дает критически важный контекст для анализа их архитектурных решений.

YOLOv9

Авторы: Чиен-Яо Ван и Хун-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica
Дата: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9

Узнай больше о YOLOv9

RTDETRv2

Авторы: Вэнью Лю, Иянь Чжао, Циньяо Чан, Куй Хуан, Гуаньчжун Ван и И Лю
Организация: Baidu Дата: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

Узнай больше о RTDETR

Архитектурные инновации

YOLOv9: решение проблемы информационного «бутылочного горлышка»

Ultralytics YOLOv9 представляет две ключевые инновации, направленные на предотвращение потери информации при прохождении данных через глубокие нейронные сети:

  1. Программируемая градиентная информация (PGI): Этот вспомогательный механизм обучения гарантирует создание надежных градиентов для обновления весов сети, сохраняя критически важную информацию о признаках даже в очень глубоких слоях сети.
  2. Generalized Efficient Layer Aggregation Network (GELAN): Новая архитектура, объединяющая преимущества CSPNet и ELAN. GELAN оптимизирует эффективность параметров, позволяя YOLOv9 достигать более высокой точности при меньшем количестве FLOP по сравнению с традиционными CNN.

RTDETRv2: Совершенствование трансформеров реального времени

Основываясь на успехе оригинальной модели RT-DETR, RTDETRv2 использует архитектуру на основе трансформеров, которая естественным образом исключает необходимость в Non-Maximum Suppression (NMS). Ее улучшения включают:

  1. Стратегия Bag-of-Freebies: Итерация v2 включает продвинутые методы обучения и аугментации данных, которые существенно повышают точность, не увеличивая задержку инференса.
  2. Эффективный гибридный энкодер: Обрабатывая мультимасштабные признаки с помощью механизма разделенного внутримасштабного и межмасштабного внимания, RTDETRv2 эффективно справляется с традиционно высокими вычислительными затратами Vision Transformers.
Нативное сквозное (End-to-End) обнаружение

Хотя RTDETRv2 использует трансформеры для обнаружения без NMS, новая архитектура YOLO26 достигает этого нативно внутри высокооптимизированной структуры CNN, обеспечивая такое же упрощенное развертывание, но с гораздо более высокой скоростью инференса на граничных устройствах.

Сравнение производительности

При оценке моделей для продакшена критически важен баланс между точностью и вычислительными требованиями. В таблице ниже представлена производительность моделей разных размеров по стандартным бенчмаркам.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Анализ

Как показывают данные, YOLOv9 сохраняет явное преимущество в эффективности параметров. Модель YOLOv9c достигает впечатляющих 53.0 mAP при всего 25.3 млн параметров, что делает ее невероятно легкой.

С другой стороны, RTDETRv2 составляет сильную конкуренцию в категориях средних и больших моделей. Однако это достигается за счет большего количества параметров и значительно больших FLOP, что типично для трансформерных моделей. Эта архитектурная разница также влияет на использование памяти: моделям YOLO обычно требуется гораздо меньше памяти CUDA как во время обучения, так и при инференсе, по сравнению с их аналогами на базе трансформеров.

Преимущество Ultralytics: экосистема и универсальность

Хотя чистые архитектурные показатели важны, программная экосистема часто определяет успех AI-проекта. Доступ к этим продвинутым моделям через Python API Ultralytics дает непревзойденные преимущества.

Упрощенное обучение и развертывание

Обучение трансформера для обнаружения обычно требует сложных конфигурационных файлов и мощных GPU. Используя фреймворк Ultralytics, разработчики могут обучать как модели YOLOv9, так и RTDETR, используя идентичный, простой синтаксис, пользуясь преимуществами высокоэффективных конвейеров обучения и легкодоступных предобученных весов.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Непревзойденная универсальность задач

Основным ограничением специализированных моделей, таких как RTDETRv2, является их узкая направленность на обнаружение ограничивающих рамок. Напротив, более широкая экосистема Ultralytics, охватывающая модели вроде YOLO11 и YOLOv8, поддерживает широкий спектр задач компьютерного зрения. Сюда входят попиксельная сегментация экземпляров, скелетная оценка позы, классификация всего изображения и обнаружение ориентированных ограничивающих рамок (OBB) для аэрофотоснимков.

Применение в реальных условиях

Высокоскоростная граничная аналитика

Для розничных сред или производственных линий, требующих распознавания товаров в реальном времени на граничных устройствах, YOLOv9 является лучшим выбором. Ее архитектура GELAN обеспечивает высокую пропускную способность на ограниченном оборудовании, например, в серии NVIDIA Jetson, что позволяет автоматизировать контроль качества без существенных задержек.

Анализ сложных сцен

В таких сценариях, как мониторинг плотных толп или сложные дорожные перекрестки, где объекты часто перекрывают друг друга, механизмы глобального внимания RTDETRv2 проявляют себя лучше всего. Способность модели нативно рассуждать о контексте всего изображения позволяет ей поддерживать надежное отслеживание и обнаружение, даже если объекты частично скрыты.

Варианты использования и рекомендации

Выбор между YOLOv9 и RT-DETR зависит от твоих конкретных проектных требований, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать YOLOv9

YOLOv9 — сильный выбор для:

  • Исследований информационных узких мест: академических проектов, изучающих архитектуры PGI (Programmable Gradient Information) и GELAN (Generalized Efficient Layer Aggregation Network).
  • Изучения оптимизации градиентного потока: исследований, сфокусированных на понимании и смягчении потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинга высокоточного детектирования: сценариев, где высокая производительность YOLOv9 на бенчмарке COCO нужна как точка отсчета для архитектурных сравнений.

Когда стоит выбирать RT-DETR

RT-DETR рекомендуется для:

  • Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
  • Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Будущее: YOLO26

Хотя YOLOv9 и RTDETRv2 представляют собой огромные достижения, область компьютерного зрения развивается стремительно. Разработчикам, планирующим новые проекты, рекомендуется использовать YOLO26 как передовое решение текущего состояния технологий.

Выпущенный в 2026 году, YOLO26 воплощает лучшие особенности как CNN, так и DETR. Он обладает дизайном End-to-End NMS-Free, полностью устраняющим задержку постобработки — технику, впервые предложенную в YOLOv10. Кроме того, YOLO26 удаляет Distribution Focal Loss (DFL) для лучшей совместимости с edge-устройствами и представляет революционный оптимизатор MuSGD. Вдохновленный обучением больших языковых моделей (в частности Kimi K2 от Moonshot AI), этот гибридный оптимизатор обеспечивает беспрецедентную стабильность обучения и более быструю сходимость.

В сочетании с улучшенными функциями потерь, такими как ProgLoss и STAL, для исключительного распознавания мелких объектов, YOLO26 обеспечивает до 43% более быстрый инференс на CPU, укрепляя свои позиции как идеальной модели для современных AI-развертываний.

Комментарии