Link to this sectionRTDETRv2 против DAMO-YOLO#

Ландшафт компьютерного зрения постоянно развивается, а исследователи и инженеры стремятся создавать модели, которые идеально балансируют между скоростью, точностью и эффективностью. Две выдающиеся архитектуры, наделавшие много шума в этой области, — это RTDETRv2, разработанная Baidu, и DAMO-YOLO, созданная Alibaba Group. Обе модели расширяют границы обнаружения объектов, однако для достижения впечатляющих результатов они используют принципиально разные архитектурные подходы.

В этом техническом сравнении мы подробно разберем их архитектуру, методологии обучения и возможности развертывания в реальных условиях. Мы также исследуем, как эти модели соотносятся с более широкой экосистемой, особенно с высокооптимизированной платформой Ultralytics и передовой архитектурой YOLO26.

Link to this sectionАрхитектурные инновации#

Понимание основных принципов работы этих моделей крайне важно для инженеров по машинному обучению, которым поручено выбрать правильный инструмент для производственных сред.

Link to this sectionRTDETRv2: Трансформерный подход#

Основываясь на успехе оригинального RT-DETR, RTDETRv2 использует гибридный энкодер и трансформерный декодер. Такая конструкция позволяет модели крайне эффективно обрабатывать глобальный контекст, что делает ее исключительно хорошей в различении перекрывающихся объектов в плотных сценах. Самым значительным преимуществом этой архитектуры является нативная конструкция без NMS (подавления немаксимумов). Исключив этап постобработки NMS, RTDETRv2 упрощает конвейер вывода и обеспечивает более стабильную задержку на различных конфигурациях оборудования.

Узнай больше о RTDETRv2

Link to this sectionDAMO-YOLO: Повышение эффективности CNN#

DAMO-YOLO, с другой стороны, остается верной крайне успешной линейке YOLO на базе CNN, но вводит несколько революционных улучшений. Она использует нейроархитектурный поиск (NAS) для оптимизации своего бэкбоуна, обеспечивая максимальную эффективность извлечения признаков. Кроме того, в ней реализованы эффективная сеть RepGFPN (перепараметризованная обобщенная пирамида признаков) и дизайн ZeroHead, наряду с методами AlignedOTA и усилением дистилляции. Эти инновации позволяют DAMO-YOLO достигать высокой скорости вывода при сохранении весьма конкурентоспособного показателя mAP^val.

Узнай больше о DAMO-YOLO

Архитектурные различия

В то время как RTDETRv2 фокусируется на использовании механизмов внимания для понимания глобальных признаков без NMS, DAMO-YOLO максимизирует традиционную эффективность CNN с помощью NAS и продвинутой дистилляции, что требует стандартной постобработки, но дает заметные преимущества в скорости на определенном оборудовании.

Link to this sectionСравнение производительности и метрик#

При оценке моделей для развертывания метрики производительности, такие как средняя точность (mAP), скорость вывода и количество параметров, имеют первостепенное значение. Ниже приведено детальное сравнение этих двух семейств моделей.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(М)	FLOPs ^(Б)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Link to this sectionАнализ результатов#

Как видно из таблицы, RTDETRv2-x достигает наивысшей точности с mAP^val 54.3, демонстрируя мощь архитектуры трансформеров на сложных валидационных наборах, таких как датасет COCO. Однако это достигается ценой значительно большего количества параметров (76 млн) и FLOPs.

Напротив, DAMO-YOLOt (Tiny) исключительно легковесна и требует всего 8.5 млн параметров, что делает ее невероятно быстрым вариантом для сред, где память CUDA сильно ограничена. DAMO-YOLO обычно обеспечивает выгодный компромисс между скоростью и точностью для устаревших периферийных устройств.

Link to this sectionЭкосистема, удобство использования и преимущество Ultralytics#

Хотя независимые репозитории, такие как официальный RT-DETR GitHub и DAMO-YOLO GitHub, предоставляют исходный код для обучения этих моделей, их интеграция в производственные конвейеры часто требует написания большого объема шаблонного кода и ручной оптимизации.

Именно здесь экосистема Ultralytics радикально упрощает работу разработчика. Ultralytics интегрирует такие модели, как RTDETRv2, непосредственно в свой унифицированный API, позволяя тебе обучать, валидировать и экспортировать модели одной строкой кода. Более того, модели Ultralytics известны минимальными требованиями к памяти при обучении по сравнению с тяжелыми автономными репозиториями на базе трансформеров.

Link to this sectionПример кода: Бесшовная интеграция#

Вот как легко ты можешь использовать библиотеку Ultralytics Python для выполнения вывода. API остается неизменным, независимо от того, используешь ли ты модель-трансформер или современную CNN.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")

# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")

# Display the results
results_yolo[0].show()

Экспорт моделей для производства

Используя API Ultralytics, ты можешь беспрепятственно экспортировать обученные модели в такие форматы, как TensorRT, ONNX или CoreML, с помощью простой команды model.export(format="engine"), что значительно снижает сложность развертывания.

Link to this sectionИдеальные варианты использования#

Выбор между этими архитектурами полностью зависит от твоих конкретных требований к проекту:

RTDETRv2 отлично подходит для серверной обработки, где много видеопамяти. Ее способность понимать глобальный контекст идеально подходит для медицинской визуализации и анализа плотных толп, где часто встречаются перекрытия.
DAMO-YOLO отлично подходит для встраиваемых IoT-приложений и быстро движущихся линий промышленного контроля, где критически важны малое количество параметров и высокий FPS.

Link to this sectionБудущее: Ultralytics YOLO26#

Хотя и RTDETRv2, и DAMO-YOLO имеют свои достоинства, область компьютерного зрения стремительно развивается. Для новых проектов новейшая Ultralytics YOLO26 представляет собой идеальный синтез скорости, точности и удобства для разработчика.

YOLO26 использует End-to-End NMS-Free Design, обеспечивая главное преимущество трансформеров без огромных вычислительных затрат. В ней реализован инновационный оптимизатор MuSGD — вдохновленный обучением больших языковых моделей — для стабильной и быстрой сходимости. Кроме того, благодаря DFL Removal (Distribution Focal Loss удален для упрощения экспорта и лучшей совместимости с периферийными/маломощными устройствами), YOLO26 обеспечивает до 43% более быстрый вывод на CPU, что делает ее неоспоримым лидером для периферийных вычислений. Дополнительно, ProgLoss + STAL предоставляют улучшенные функции потерь с заметными улучшениями в распознавании мелких объектов, что критически важно для IoT, робототехники и аэрофотосъемки.

В отличие от моделей, ограниченных только ограничивающими рамками, семейство YOLO26 предлагает непревзойденную универсальность, поддерживая задачи от сегментации экземпляров и оценки позы до ориентированных ограничивающих рамок (OBB), и все это легко управляется через интуитивно понятную платформу Ultralytics.

Исследуй YOLO26 на платформе

Link to this sectionДетали модели и ссылки#