Перейти к содержанию

YOLOv9 RTDETRv2: подробное изучение архитектур обнаружения в реальном времени

В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для обеспечения баланса между скоростью, точностью и ограничениями развертывания. В этом руководстве представлено всестороннее техническое сравнение между YOLOv9, известной своей программируемой градиентной информацией и эффективностью, и RTDETRv2, ведущим детектором на основе трансформатора в реальном времени. Анализируя их архитектуру, показатели производительности и варианты использования, разработчики могут принимать обоснованные решения для своих конкретных приложений.

Бенчмарк производительности

В следующей таблице представлено прямое сравнение ключевых показателей. Жирным шрифтом выделены лучшие показатели в каждой категории.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

YOLOv9: Программируемая градиентная информация

YOLOv9 представляет собой значительный скачок в серии You Only Look Once, направленный на устранение информационных узких мест в глубоких сетях. В нем представлены GELAN (Generalized Efficient Layer Aggregation Network) и PGI (Programmable Gradient Information) для сохранения важных характеристик данных на всех глубоких уровнях сети.

Узнайте больше о YOLOv9

Ключевые архитектурные инновации

  • Архитектура GELAN: эта новая архитектура сочетает в себе преимущества CSPNet и ELAN, оптимизируя планирование градиентного пути. Она позволяет создать легкую структуру, которая сохраняет высокую скорость вывода, эффективно агрегируя характеристики в разных масштабах.
  • Программируемая информация о градиенте (PGI): глубокие сети часто страдают от потери информации при прохождении данных через слои. PGI вводит вспомогательную ветвь контроля для управления обновлениями градиента, обеспечивая обучение основной ветви надежным характеристикам без дополнительных затрат во время вывода.
  • Эффективность: Варианты «t» (tiny) и «s» (small) особенно примечательны своим чрезвычайно низким количеством параметров (начиная с 2,0 млн), что делает их исключительно подходящими для развертывания пограничного ИИ, где память ограничена.

Технические характеристики

Почему стоит выбрать YOLOv9?

YOLOv9 для сценариев, в которых вычислительные ресурсы ограничены, но требуется высокая точность. Его инновационная потеря PGI гарантирует, что даже небольшие модели обучаются эффективно, обеспечивая превосходное соотношение параметров и точности по сравнению со многими предшественниками.

RTDETRv2: Трансформеры реального времени

RTDETRv2 основан на успехе оригинального RT-DETR и еще больше усовершенствует «Bag-of-Freebies» для трансформаторов обнаружения в реальном времени. Он нацелен на то, чтобы превзойти YOLO , используя глобальные контекстные возможности трансформаторов и одновременно снижая их высокую вычислительную стоимость.

Узнайте больше о RT-DETR

Ключевые архитектурные инновации

  • Гибридный кодер: RTDETRv2 эффективно обрабатывает многомасштабные характеристики путем развязки внутримасштабного взаимодействия и межмасштабного слияния, снижая типично высокую стоимость трансформаторных кодеров.
  • Выбор запросовIoU: этот механизм улучшает инициализацию за счет выбора высококачественных характеристик кодировщика в качестве запросов объектов, что помогает декодеру быстрее сходиться.
  • Динамическая выборка: усовершенствованная базовая линия включает гибкие стратегии выборки во время обучения, повышая скорость сходимости и конечную точность без увеличения задержки вывода.
  • Конструкция без анкеров: как и его предшественник, он не имеет анкеров, что упрощает аннотирование данных и процесс обучения, устраняя необходимость в настройке анкерных рамок.

Технические характеристики

  • Авторы: Вэнью Лю, Иань Чжао и др.
  • Организация: Baidu
  • Дата: 17 апреля 2023 г. (v1), июль 2024 г. (v2)
  • Ссылка:arXiv:2304.08069
  • Репозиторий:GitHub

Критическое сравнение: скорость, точность и эффективность

При выборе между этими двумя архитектурами становится очевидным ряд компромиссов.

Скорость вывода и задержка

YOLOv9 , сохраняет лидерство по скорости сырой инференции, особенно на GPU . Модель YOLOv9t, имеющая всего 2,0 млн параметров, достигает чрезвычайно низкой задержки (2,3 мс на T4 TensorRT), что делает ее быстрее, чем самый маленький вариант RTDETRv2-s, который работает со скоростью около 5,03 мс. Для обработки видео в реальном времени, где важна каждая миллисекунда, например, в автономных транспортных средствах или высокоскоростном производстве, YOLOv9 явное преимущество по пропускной способности.

Точность и обнаружение мелких объектов

В то время как YOLOv9 достигает впечатляющих 55,6% mAP, RTDETRv2 является высококонкурентным в диапазоне средних и крупных моделей. RTDETRv2-x достигает 54,3% mAP, что немного ниже, чем у YOLOv9, но часто демонстрирует лучшую стабильность в сложных сценах благодаря глобальному рецептивному полю трансформаторов. Трансформаторы естественным образом превосходны в понимании контекста между объектами, что может снизить количество ложных срабатываний в переполненных средах, таких как аналитика розничной торговли. Однако архитектура GELAN YOLOv9 специально настроена на сохранение мелких деталей, что часто дает ей преимущество в обнаружении более мелких, трудноразличимых объектов.

Требования к ресурсам и памяти

Это является основным отличительным фактором. Архитектура RTDETRv2 на основе трансформатора обычно требует больше CUDA во время обучения и инференции по сравнению с YOLOv9 на основе CNN.

  • YOLOv9: чрезвычайно эффективное использование памяти. Небольшие и миниатюрные модели могут легко работать на периферийных устройствах, таких как Raspberry Pi или мобильные телефоны.
  • RTDETRv2: Несмотря на оптимизацию для скорости в реальном времени, механизмы внимания по-прежнему требуют больших затрат памяти, что часто делает их более подходящими для развертывания на стороне сервера или мощных пограничных графических процессоров, таких как NVIDIA Orin.

Интеграция с Ultralytics

Обе модели могут быть легко интегрированы в рабочие процессы с помощью Ultralytics Python , который упрощает сложные процедуры настройки.

Простота использования и экосистема

Ultralytics предлагает унифицированный интерфейс для обучения, валидации и развертывания. Независимо от того, выберете ли вы эффективность CNN YOLOv9 мощность трансформатора RTDETRv2 (через RT-DETR ), API остается неизменным. Это позволяет разработчикам менять модели с помощью одной строки кода, чтобы проверить, какая архитектура лучше всего подходит для их набора данных.

from ultralytics import RTDETR, YOLO

# Load YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=100)

# Load RT-DETR model (RTDETRv2 architecture compatible)
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr.train(data="coco8.yaml", epochs=100)

Эффективность обучения

Ultralytics славятся своей эффективностью обучения. Фреймворк реализует интеллектуальные настройки по умолчанию для гиперпараметров, автоматическое увеличение объема данных и эффективное управление памятью. Это особенно полезно при работе с YOLOv9, поскольку пользователи могут воспользоваться предварительно обученными весами, чтобы значительно сократить время обучения и вычислительные затраты по сравнению с обучением трансформеров с нуля.

Готовность к будущему: аргументы в пользу YOLO26

Хотя YOLOv9 RTDETRv2 являются отличным выбором, область инноваций в области искусственного интеллекта никогда не стоит на месте. Для разработчиков, которые ищут самые последние достижения в области производительности и простоты развертывания, рекомендуется использовать YOLO26.

Узнайте больше о YOLO26

YOLO26 представляет несколько революционных функций, которые устраняют ограничения предыдущих поколений:

  • NMS от начала до конца: в отличие от YOLOv9 требует постобработки с помощью Non-Maximum Suppression (NMS), и аналогично RTDETRv2, YOLO26 изначально NMS использует NMS. Это упрощает экспорт в ONNX и TensorRT сокращает задержку развертывания.
  • MuSGD Optimizer: вдохновленный обучением LLM, этот оптимизатор сочетает SGD Muon для более быстрой конвергенции и стабильности, устраняя некоторые из нестабильностей обучения, часто встречающихся в сложных архитектурах.
  • Превосходная скорость: оптимизированная специально для CPU пограничного вывода, YOLO26 обеспечивает на 43 % более быстрый CPU по сравнению с предыдущими версиями, устраняя разрыв между точностью серверного уровня и ограничениями пограничных устройств.
  • Универсальность задач: в то время как RTDETRv2 в первую очередь ориентирован на обнаружение, YOLO26 предлагает передовые возможности в области сегментации, оценки позы и OBB, что делает его универсальным инструментом для различных задач машинного зрения.

Заключение

Как YOLOv9 RTDETRv2 обладают неоспоримыми преимуществами. YOLOv9 является лидером по эффективности, предлагая непревзойденное соотношение скорости и точности для периферийного развертывания и сред с ограниченными ресурсами. RTDETRv2 представляет собой сильную альтернативу для сценариев, в которых используются глобальный контекст и архитектуры трансформаторов, особенно на мощном оборудовании.

Однако для обеспечения максимальной оптимизации, минимальной задержки и широкой поддержки задач Ultralytics , а именно новая модель YOLO26, предоставляет наиболее надежное и «перспективное» решение для современных приложений компьютерного зрения.

Дополнительная литература

Изучите другие сравнения, чтобы увидеть, как эти модели соотносятся с конкурентами:


Комментарии