Link to this sectionRTDETRv2 против YOLOv9#

Область компьютерного зрения стала свидетелем захватывающего расхождения в архитектурных философиях, в основном между сверточными нейронными сетями (CNN) и моделями на основе трансформеров. Сравнивая RTDETRv2 и YOLOv9, разработчики по сути оценивают компромиссы между механизмами глобального внимания и программируемой информацией о градиентах. Обе модели представляют собой вершину своих парадигм, расширяя границы обнаружения объектов в реальном времени.

Link to this sectionВведение в модели#

Link to this sectionRTDETRv2: Трансформер для обнаружения в реальном времени#

Разработанный исследователями из Baidu, RTDETRv2 основан на оригинальном RT-DETR с внедрением «Bag-of-Freebies» для улучшения базового трансформера обнаружения в реальном времени. Он устраняет традиционное «узкое место» трансформеров — скорость вывода, делая их пригодными для приложений реального времени.

Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu
Дата: 24.07.2024
Ссылки: Arxiv, GitHub

Определяющей характеристикой RTDETRv2 является его нативно сквозной дизайн без NMS. Полностью удалив немаксимальное подавление (NMS) в процессе постобработки, модель стабилизирует задержку вывода и упрощает конвейер развертывания. Механизм глобального внимания позволяет модели преуспевать в понимании сложных сцен и плотных толп, поскольку она одновременно оценивает контекст всего изображения.

Узнай больше о RTDETRv2

Link to this sectionYOLOv9: программируемая градиентная информация#

YOLOv9, высокоэффективная архитектура на основе CNN, решает проблему «узкого места» информации, присущую глубоким нейронным сетям. Она внедряет программируемую информацию о градиентах (PGI) и обобщенную сеть эффективной агрегации слоев (GELAN).

Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
Организация: Институт информационных наук, Academia Sinica
Дата: 21 февраля 2024 г.
Ссылки: Arxiv, GitHub

YOLOv9 опирается на проверенные основы сверточных нейронных сетей, но максимизирует эффективность параметров. Сохраняя важную информацию в процессе прямого распространения, она обеспечивает надежные обновления весов, что приводит к невероятно легкой, но высокоточной модели. Однако, в отличие от RTDETRv2, YOLOv9 по-прежнему полагается на стандартную постобработку NMS.

Узнай больше о YOLOv9

Link to this sectionПроизводительность и эффективность ресурсов#

При оценке этих моделей для продакшена критически важно сбалансировать среднюю точность (mAP) с вычислительными затратами. В таблице ниже показана их производительность на наборе данных MS COCO.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(М)	FLOPs ^(Б)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Link to this sectionТребования к памяти и эффективность обучения#

Трансформеры, такие как RTDETRv2, печально известны своей высокой потребностью в памяти во время обучения, часто требуя значительного объема памяти CUDA и более длительных графиков обучения для полной сходимости. Напротив, архитектуры CNN, такие как YOLOv9 и другие модели Ultralytics YOLO, предлагают значительно меньшее использование памяти, позволяя тебе обучать с большими размерами батчей на потребительском оборудовании.

Эффективное обучение

Чтобы максимизировать использование оборудования, подумай об использовании платформы Ultralytics для оптимизированного облачного обучения. Она автоматически настраивает окружение и оптимальный размер батча.

Link to this sectionПреимущество Ultralytics: экосистема и простота использования#

Хотя изучение автономных репозиториев, таких как официальные страницы RTDETRv2 или YOLOv9 на GitHub, может быть очень познавательным, производственные среды требуют стабильности, простоты использования и хорошо поддерживаемой экосистемы. Интеграция этих моделей через Python API Ultralytics предлагает бесшовный опыт для разработчика.

Link to this sectionЕдиный API и универсальность#

Фреймворк Ultralytics абстрагирует сложности загрузки данных, аугментаций и распределенного обучения. Более того, в то время как оригинальный RTDETRv2 строго сфокусирован на обнаружении, экосистема Ultralytics позволяет тебе легко переключаться между обнаружением объектов, сегментацией экземпляров и оценкой позы.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

Благодаря надежной документации, автоматическому отслеживанию экспериментов и бесшовным возможностям экспорта в такие форматы, как ONNX, TensorRT и OpenVINO, Ultralytics радикально сокращает время от прототипа до продакшена.

Link to this sectionИдеальные варианты использования#

Link to this sectionВ чем преуспевает RTDETRv2#

Благодаря механизму глобального внимания, RTDETRv2 является мощным инструментом для серверной обработки и сред, где глобальный контекст имеет первостепенное значение. Он превосходен в:

Медицинской визуализации: выявлении тонких аномалий, где окружающий контекст имеет решающее значение.
Воздушном наблюдении: обнаружении мелких объектов на кадрах дронов высокого разрешения без пространственных искажений, присущих традиционным сверткам CNN.
Анализе плотных толп: отслеживании отдельных людей, где сильное перекрытие обычно сбивает с толку модели на основе анкоров.

Link to this sectionВ чем преуспевает YOLOv9#

YOLOv9 — чемпион по развертыванию на периферийных устройствах с ограниченными ресурсами. Его вычислительная эффективность делает его идеальным для:

Робототехники: навигации в реальном времени и избегания препятствий, где требуется минимальная задержка.
Умных городов (IoT): развертывания на периферийных устройствах, таких как NVIDIA Jetson, для мониторинга дорожного движения.
Промышленного контроля: контроля качества на высокоскоростных сборочных линиях, требующего высокого количества кадров в секунду (FPS).

Link to this sectionБудущее: Представляем Ultralytics YOLO26#

Хотя YOLOv9 и RTDETRv2 представляют собой огромные шаги вперед, ландшафт быстро эволюционирует. Для современных развертываний недавно выпущенный Ultralytics YOLO26 представляет собой идеальную синергию обеих архитектурных философий.

Взяв лучшее от трансформеров и CNN, YOLO26 устанавливает новый стандарт:

Сквозной дизайн без NMS: как и RTDETRv2, YOLO26 является нативно сквозным, полностью устраняя постобработку NMS для более быстрых, простых и легко предсказуемых конвейеров развертывания.
Оптимизатор MuSGD: вдохновленный методами обучения больших языковых моделей (LLM) (такими как Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD и Muon. Это приносит беспрецедентную стабильность обучения и быструю сходимость в компьютерном зрении.
До 43% более быстрый вывод на CPU: в отличие от тяжелых трансформеров, YOLO26 серьезно оптимизирован для граничных вычислений (edge computing) и устройств без GPU.
Удаление DFL: удаление распределенной фокусной потери (Distribution Focal Loss) радикально упрощает граф модели, обеспечивая безупречный экспорт на маломощные периферийные устройства и встроенные нейронные процессоры (NPU).
ProgLoss + STAL: эти улучшенные функции потерь значительно повышают распознавание мелких объектов, что является критически важной функцией для IoT и аэрофотоснимков.

Командам, желающим начать новый проект в области компьютерного зрения, мы настоятельно рекомендуем оценить YOLO26. Он обеспечивает элегантность трансформера без NMS при невероятной скорости и эффективности обучения, характерной для высокооптимизированной архитектуры YOLO.

Узнай больше о YOLO26

Link to this sectionРезюме#

Выбор между RTDETRv2 и YOLOv9 во многом зависит от твоего оборудования для развертывания и конкретных потребностей в точности. RTDETRv2 обеспечивает передовую точность и понимание контекста для серверных приложений, в то время как YOLOv9 предлагает исключительную эффективность для периферийных устройств.

Однако, используя зрелую экосистему Ultralytics, разработчики могут без усилий экспериментировать с обеими моделями. Более того, с появлением новых моделей, таких как YOLO11, и нативно сквозной YOLO26, найти идеальный баланс между высокоскоростным выводом, поддержкой универсальных задач и низким потреблением памяти стало проще, чем когда-либо.

Участники

GLglenn-jocher¹² PDpderrenger¹

Создано 27 янв. 2025 г.Обновлено 3 недели назад