Перейти к содержанию

RTDETRv2 против DAMO-YOLO: Всеобъемлющее руководство по современному обнаружению объектов в реальном времени

Ландшафт компьютерного зрения постоянно развивается, исследователи и инженеры стремятся создавать модели, которые идеально сбалансированы по скорости, точности и эффективности. Две выдающиеся архитектуры, которые произвели значительный фурор в этой области, — это RTDETRv2, разработанная Baidu, и DAMO-YOLO, созданная Alibaba Group. Обе модели расширяют границы обнаружения объектов в реальном времени, но при этом используют принципиально разные архитектурные философии для достижения своих впечатляющих результатов.

В этом техническом сравнении мы углубимся в их архитектуры, методологии обучения и возможности развертывания в реальном мире. Мы также рассмотрим, как эти модели соотносятся с более широкой экосистемой, в частности с высокооптимизированной платформой Ultralytics и передовой архитектурой YOLO26.

Архитектурные инновации

Понимание основных механизмов этих моделей имеет решающее значение для инженеров по машинному обучению, которым поручено выбрать правильный инструмент для производственных сред.

RTDETRv2: подход Transformer

Основываясь на успехе оригинального RT-DETR, RTDETRv2 использует гибридный энкодер и трансформер-декодер. Такая конструкция позволяет модели высокоэффективно обрабатывать глобальный контекст, что делает ее исключительно хорошей в различении перекрывающихся объектов в плотных сценах. Наиболее значительным преимуществом этой архитектуры является ее нативная NMS-free (Non-Maximum Suppression) конструкция. Устраняя этап постобработки NMS, RTDETRv2 оптимизирует конвейер инференса и обеспечивает более стабильную задержку при различных аппаратных конфигурациях.

Узнайте больше о RTDETRv2

DAMO-YOLO: Повышение эффективности CNN

DAMO-YOLO, с другой стороны, остается укорененным в очень успешной линии YOLO на основе CNN, но привносит несколько новаторских улучшений. Он использует Neural Architecture Search (NAS) для оптимизации своего магистрального модуля, обеспечивая максимальную эффективность извлечения признаков. Кроме того, он включает эффективную RepGFPN (репараметризованную обобщенную пирамидальную сеть признаков) и дизайн ZeroHead, наряду с AlignedOTA и методами улучшения дистилляции. Эти инновации позволяют DAMO-YOLO достигать высокой скорости вывода, сохраняя при этом очень конкурентоспособный показатель mAPval.

Узнайте больше о DAMO-YOLO

Архитектурная дивергенция

В то время как RTDETRv2 фокусируется на использовании механизмов внимания для глобального понимания признаков без NMS, DAMO-YOLO максимизирует эффективность традиционных CNN за счет NAS и продвинутой дистилляции, требуя стандартной постобработки, но предлагая явные преимущества в скорости на определенном оборудовании.

Сравнение производительности и метрик

При оценке моделей для развертывания метрики производительности, такие как средняя точность (mAP), скорость инференса и количество параметров, имеют первостепенное значение. Ниже приведено подробное сравнение двух семейств моделей.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Анализ результатов

Как видно из таблицы, RTDETRv2-x достигает наивысшей точности с mAPval 54.3, демонстрируя мощь архитектуры трансформера на сложных валидациях, таких как набор данных COCO. Однако это достигается за счёт значительно большего количества параметров (76M) и операций FLOPs.

Напротив, DAMO-YOLOt (Tiny) исключительно легковесна, требуя всего 8,5 млн параметров, что делает ее невероятно быстрым вариантом для сред, где память CUDA сильно ограничена. DAMO-YOLO обычно обеспечивает выгодный компромисс между скоростью и точностью для устаревших периферийных устройств.

Экосистема, удобство использования и преимущества Ultralytics

Хотя независимые репозитории, такие как официальный RT-DETR GitHub и DAMO-YOLO GitHub, предлагают исходный код для обучения этих моделей, их интеграция в производственные конвейеры часто требует обширного шаблонного кода и ручной оптимизации.

Именно здесь экосистема Ultralytics значительно упрощает опыт разработчиков. Ultralytics интегрирует модели, такие как RTDETRv2, непосредственно в свой унифицированный API, позволяя пользователям обучать, проверять и экспортировать модели с помощью одной строки кода. Кроме того, модели Ultralytics известны своими минимальными требованиями к памяти во время обучения по сравнению с тяжелыми автономными репозиториями на основе трансформеров.

Пример кода: Бесшовная интеграция

Вот как легко вы можете использовать библиотеку Ultralytics Python для выполнения инференса. API остается согласованным независимо от того, используете ли вы модель-трансформер или современную CNN.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")

# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")

# Display the results
results_yolo[0].show()

Экспорт моделей для продакшена

Используя API Ultralytics, вы можете легко экспорт ваших обученных моделей в такие форматы, как TensorRT, ONNX или CoreML, с помощью простой команды model.export(format="engine") команда, значительно снижающая сложности развертывания.

Идеальные варианты использования

Выбор между этими архитектурами полностью зависит от ваших конкретных требований к проекту:

  • RTDETRv2 отлично проявляет себя в серверной обработке, где VRAM в изобилии. Его глобальное контекстное понимание идеально подходит для медицинской визуализации и анализа плотных скоплений людей, где часто встречаются окклюзии.
  • DAMO-YOLO отлично подходит для встроенных IoT-приложений и быстродвижущихся промышленных инспекционных линий, где малое количество параметров и высокая частота кадров (FPS) являются строгими требованиями.

Будущее: Ultralytics YOLO26

Хотя RTDETRv2 и DAMO-YOLO имеют свои достоинства, область компьютерного зрения быстро развивается. Для новых проектов новейшая Ultralytics YOLO26 представляет собой идеальный синтез скорости, точности и удобства для разработчиков.

YOLO26 использует сквозную NMS-Free архитектуру, получая основное преимущество трансформеров без значительных вычислительных затрат. Он включает инновационный оптимизатор MuSGD—вдохновленный обучением больших языковых моделей—для стабильной и быстрой сходимости. Кроме того, благодаря удалению DFL (Distribution Focal Loss удалена для упрощенного экспорта и лучшей совместимости с периферийными/маломощными устройствами), YOLO26 достигает до 43% более быстрой инференции на CPU, что делает его бесспорным лидером для граничных вычислений. Дополнительно, ProgLoss + STAL обеспечивает улучшенные функции потерь со значительными улучшениями в распознавании мелких объектов, что критически важно для IoT, робототехники и аэрофотосъемки.

В отличие от моделей, строго ограниченных ограничивающими рамками, семейство YOLO26 предлагает беспрецедентную универсальность, поддерживая задачи от сегментации экземпляров и оценки позы до ориентированных ограничивающих рамок (OBB), все это бесшовно управляется через интуитивно понятную платформу Ultralytics.

Изучите YOLO26 на платформе

Детали модели и ссылки

RTDETRv2

  • Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
  • Организация:Baidu
  • Дата: 2024-07-24
  • Arxiv:2407.17140
  • GitHub:Репозиторий RT-DETR

DAMO-YOLO

Для пользователей, заинтересованных в изучении других сравнений, ознакомьтесь с нашими руководствами по RTDETRv2 против YOLO11 или DAMO-YOLO против YOLOv8, чтобы увидеть, как эти модели работают по сравнению с предыдущими поколениями семейства Ultralytics.


Комментарии