Link to this sectionRTDETRv2 против YOLOv9#
Область компьютерного зрения стала свидетелем захватывающего расхождения в архитектурных философиях, в основном между сверточными нейронными сетями (CNN) и моделями на основе трансформеров. Сравнивая RTDETRv2 и YOLOv9, разработчики по сути оценивают компромиссы между механизмами глобального внимания и программируемой информацией о градиентах. Обе модели представляют собой вершину своих парадигм, расширяя границы обнаружения объектов в реальном времени.
Link to this sectionВведение в модели#
Link to this sectionRTDETRv2: Трансформер для обнаружения в реальном времени#
Разработанный исследователями из Baidu, RTDETRv2 основан на оригинальном RT-DETR с внедрением «Bag-of-Freebies» для улучшения базового трансформера обнаружения в реальном времени. Он устраняет традиционное «узкое место» трансформеров — скорость вывода, делая их пригодными для приложений реального времени.
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 24.07.2024
- Ссылки: Arxiv, GitHub
Определяющей характеристикой RTDETRv2 является его нативно сквозной дизайн без NMS. Полностью удалив немаксимальное подавление (NMS) в процессе постобработки, модель стабилизирует задержку вывода и упрощает конвейер развертывания. Механизм глобального внимания позволяет модели преуспевать в понимании сложных сцен и плотных толп, поскольку она одновременно оценивает контекст всего изображения.
Link to this sectionYOLOv9: программируемая градиентная информация#
YOLOv9, высокоэффективная архитектура на основе CNN, решает проблему «узкого места» информации, присущую глубоким нейронным сетям. Она внедряет программируемую информацию о градиентах (PGI) и обобщенную сеть эффективной агрегации слоев (GELAN).
- Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
- Организация: Институт информационных наук, Academia Sinica
- Дата: 21 февраля 2024 г.
- Ссылки: Arxiv, GitHub
YOLOv9 опирается на проверенные основы сверточных нейронных сетей, но максимизирует эффективность параметров. Сохраняя важную информацию в процессе прямого распространения, она обеспечивает надежные обновления весов, что приводит к невероятно легкой, но высокоточной модели. Однако, в отличие от RTDETRv2, YOLOv9 по-прежнему полагается на стандартную постобработку NMS.
Link to this sectionПроизводительность и эффективность ресурсов#
При оценке этих моделей для продакшена критически важно сбалансировать среднюю точность (mAP) с вычислительными затратами. В таблице ниже показана их производительность на наборе данных MS COCO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Link to this sectionТребования к памяти и эффективность обучения#
Трансформеры, такие как RTDETRv2, печально известны своей высокой потребностью в памяти во время обучения, часто требуя значительного объема памяти CUDA и более длительных графиков обучения для полной сходимости. Напротив, архитектуры CNN, такие как YOLOv9 и другие модели Ultralytics YOLO, предлагают значительно меньшее использование памяти, позволяя тебе обучать с большими размерами батчей на потребительском оборудовании.
Чтобы максимизировать использование оборудования, подумай об использовании платформы Ultralytics для оптимизированного облачного обучения. Она автоматически настраивает окружение и оптимальный размер батча.
Link to this sectionПреимущество Ultralytics: экосистема и простота использования#
Хотя изучение автономных репозиториев, таких как официальные страницы RTDETRv2 или YOLOv9 на GitHub, может быть очень познавательным, производственные среды требуют стабильности, простоты использования и хорошо поддерживаемой экосистемы. Интеграция этих моделей через Python API Ultralytics предлагает бесшовный опыт для разработчика.
Link to this sectionЕдиный API и универсальность#
Фреймворк Ultralytics абстрагирует сложности загрузки данных, аугментаций и распределенного обучения. Более того, в то время как оригинальный RTDETRv2 строго сфокусирован на обнаружении, экосистема Ultralytics позволяет тебе легко переключаться между обнаружением объектов, сегментацией экземпляров и оценкой позы.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")Благодаря надежной документации, автоматическому отслеживанию экспериментов и бесшовным возможностям экспорта в такие форматы, как ONNX, TensorRT и OpenVINO, Ultralytics радикально сокращает время от прототипа до продакшена.
Link to this sectionИдеальные варианты использования#
Link to this sectionВ чем преуспевает RTDETRv2#
Благодаря механизму глобального внимания, RTDETRv2 является мощным инструментом для серверной обработки и сред, где глобальный контекст имеет первостепенное значение. Он превосходен в:
- Медицинской визуализации: выявлении тонких аномалий, где окружающий контекст имеет решающее значение.
- Воздушном наблюдении: обнаружении мелких объектов на кадрах дронов высокого разрешения без пространственных искажений, присущих традиционным сверткам CNN.
- Анализе плотных толп: отслеживании отдельных людей, где сильное перекрытие обычно сбивает с толку модели на основе анкоров.
Link to this sectionВ чем преуспевает YOLOv9#
YOLOv9 — чемпион по развертыванию на периферийных устройствах с ограниченными ресурсами. Его вычислительная эффективность делает его идеальным для:
- Робототехники: навигации в реальном времени и избегания препятствий, где требуется минимальная задержка.
- Умных городов (IoT): развертывания на периферийных устройствах, таких как NVIDIA Jetson, для мониторинга дорожного движения.
- Промышленного контроля: контроля качества на высокоскоростных сборочных линиях, требующего высокого количества кадров в секунду (FPS).
Link to this sectionБудущее: Представляем Ultralytics YOLO26#
Хотя YOLOv9 и RTDETRv2 представляют собой огромные шаги вперед, ландшафт быстро эволюционирует. Для современных развертываний недавно выпущенный Ultralytics YOLO26 представляет собой идеальную синергию обеих архитектурных философий.
Взяв лучшее от трансформеров и CNN, YOLO26 устанавливает новый стандарт:
- Сквозной дизайн без NMS: как и RTDETRv2, YOLO26 является нативно сквозным, полностью устраняя постобработку NMS для более быстрых, простых и легко предсказуемых конвейеров развертывания.
- Оптимизатор MuSGD: вдохновленный методами обучения больших языковых моделей (LLM) (такими как Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD и Muon. Это приносит беспрецедентную стабильность обучения и быструю сходимость в компьютерном зрении.
- До 43% более быстрый вывод на CPU: в отличие от тяжелых трансформеров, YOLO26 серьезно оптимизирован для граничных вычислений (edge computing) и устройств без GPU.
- Удаление DFL: удаление распределенной фокусной потери (Distribution Focal Loss) радикально упрощает граф модели, обеспечивая безупречный экспорт на маломощные периферийные устройства и встроенные нейронные процессоры (NPU).
- ProgLoss + STAL: эти улучшенные функции потерь значительно повышают распознавание мелких объектов, что является критически важной функцией для IoT и аэрофотоснимков.
Командам, желающим начать новый проект в области компьютерного зрения, мы настоятельно рекомендуем оценить YOLO26. Он обеспечивает элегантность трансформера без NMS при невероятной скорости и эффективности обучения, характерной для высокооптимизированной архитектуры YOLO.
Link to this sectionРезюме#
Выбор между RTDETRv2 и YOLOv9 во многом зависит от твоего оборудования для развертывания и конкретных потребностей в точности. RTDETRv2 обеспечивает передовую точность и понимание контекста для серверных приложений, в то время как YOLOv9 предлагает исключительную эффективность для периферийных устройств.
Однако, используя зрелую экосистему Ultralytics, разработчики могут без усилий экспериментировать с обеими моделями. Более того, с появлением новых моделей, таких как YOLO11, и нативно сквозной YOLO26, найти идеальный баланс между высокоскоростным выводом, поддержкой универсальных задач и низким потреблением памяти стало проще, чем когда-либо.