YOLOv9 против RTDETRv2: Технический разбор современного обнаружения объектов
Ландшафт обнаружения объектов в реальном времени претерпел значительные изменения за последние годы. В этой области доминируют две архитектурные философии: высокооптимизированные сверточные нейронные сети (CNN) и детекционные трансформеры (DETR) для работы в реальном времени. Вершиной этих двух подходов являются YOLOv9 и RTDETRv2.
Это подробное руководство сравнивает эти две мощные модели, анализируя их архитектурные инновации, показатели производительности и идеальные сценарии развертывания, чтобы помочь тебе выбрать подходящую модель для твоего конвейера компьютерного зрения.
Краткий обзор
Обе модели показывают передовые результаты, но они ориентированы на немного разные ограничения развертывания и экосистемы разработки.
- Выбирай YOLOv9, если: тебе нужна максимально эффективная утилизация параметров и быстрая обработка (инференс) на граничных (edge) устройствах. YOLOv9 расширяет теоретические границы эффективности CNN, что делает модель идеальной для сред, где вычислительные ресурсы строго ограничены.
- Выбирай RTDETRv2, если: тебе необходимо глубокое понимание контекста, которое обеспечивают трансформеры, особенно в сценах со значительным перекрытием объектов или сложными взаимосвязями между ними, и если у тебя есть оборудование для поддержки чуть более тяжелой архитектуры.
- Выбирай YOLO26 (рекомендуется), если: ты хочешь получить лучшее от обоих миров. Будучи новейшим поколением, доступным на платформе Ultralytics, YOLO26 обладает нативным дизайном End-to-End NMS-Free (подобно моделям DETR, но значительно быстрее), что устраняет узкие места постобработки и обеспечивает до 43% более быстрый инференс на CPU по сравнению с предыдущими поколениями.
Технические характеристики и авторство
Понимание происхождения и замысла дизайна этих моделей дает критически важный контекст для анализа их архитектурных решений.
YOLOv9
Авторы: Чиен-Яо Ван и Хун-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica
Дата: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9
RTDETRv2
Авторы: Вэнью Лю, Иянь Чжао, Циньяо Чан, Куй Хуан, Гуаньчжун Ван и И Лю
Организация: Baidu
Дата: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR
Архитектурные инновации
YOLOv9: решение проблемы информационного «бутылочного горлышка»
Ultralytics YOLOv9 представляет две ключевые инновации, направленные на предотвращение потери информации при прохождении данных через глубокие нейронные сети:
- Программируемая градиентная информация (PGI): Этот вспомогательный механизм обучения гарантирует создание надежных градиентов для обновления весов сети, сохраняя критически важную информацию о признаках даже в очень глубоких слоях сети.
- Generalized Efficient Layer Aggregation Network (GELAN): Новая архитектура, объединяющая преимущества CSPNet и ELAN. GELAN оптимизирует эффективность параметров, позволяя YOLOv9 достигать более высокой точности при меньшем количестве FLOP по сравнению с традиционными CNN.
RTDETRv2: Совершенствование трансформеров реального времени
Основываясь на успехе оригинальной модели RT-DETR, RTDETRv2 использует архитектуру на основе трансформеров, которая естественным образом исключает необходимость в Non-Maximum Suppression (NMS). Ее улучшения включают:
- Стратегия Bag-of-Freebies: Итерация v2 включает продвинутые методы обучения и аугментации данных, которые существенно повышают точность, не увеличивая задержку инференса.
- Эффективный гибридный энкодер: Обрабатывая мультимасштабные признаки с помощью механизма разделенного внутримасштабного и межмасштабного внимания, RTDETRv2 эффективно справляется с традиционно высокими вычислительными затратами Vision Transformers.
Хотя RTDETRv2 использует трансформеры для обнаружения без NMS, новая архитектура YOLO26 достигает этого нативно внутри высокооптимизированной структуры CNN, обеспечивая такое же упрощенное развертывание, но с гораздо более высокой скоростью инференса на граничных устройствах.
Сравнение производительности
При оценке моделей для продакшена критически важен баланс между точностью и вычислительными требованиями. В таблице ниже представлена производительность моделей разных размеров по стандартным бенчмаркам.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Анализ
Как показывают данные, YOLOv9 сохраняет явное преимущество в эффективности параметров. Модель YOLOv9c достигает впечатляющих 53.0 mAP при всего 25.3 млн параметров, что делает ее невероятно легкой.
С другой стороны, RTDETRv2 составляет сильную конкуренцию в категориях средних и больших моделей. Однако это достигается за счет большего количества параметров и значительно больших FLOP, что типично для трансформерных моделей. Эта архитектурная разница также влияет на использование памяти: моделям YOLO обычно требуется гораздо меньше памяти CUDA как во время обучения, так и при инференсе, по сравнению с их аналогами на базе трансформеров.
Преимущество Ultralytics: экосистема и универсальность
Хотя чистые архитектурные показатели важны, программная экосистема часто определяет успех AI-проекта. Доступ к этим продвинутым моделям через Python API Ultralytics дает непревзойденные преимущества.
Упрощенное обучение и развертывание
Обучение трансформера для обнаружения обычно требует сложных конфигурационных файлов и мощных GPU. Используя фреймворк Ultralytics, разработчики могут обучать как модели YOLOv9, так и RTDETR, используя идентичный, простой синтаксис, пользуясь преимуществами высокоэффективных конвейеров обучения и легкодоступных предобученных весов.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")Непревзойденная универсальность задач
Основным ограничением специализированных моделей, таких как RTDETRv2, является их узкая направленность на обнаружение ограничивающих рамок. Напротив, более широкая экосистема Ultralytics, охватывающая модели вроде YOLO11 и YOLOv8, поддерживает широкий спектр задач компьютерного зрения. Сюда входят попиксельная сегментация экземпляров, скелетная оценка позы, классификация всего изображения и обнаружение ориентированных ограничивающих рамок (OBB) для аэрофотоснимков.
Применение в реальных условиях
Высокоскоростная граничная аналитика
Для розничных сред или производственных линий, требующих распознавания товаров в реальном времени на граничных устройствах, YOLOv9 является лучшим выбором. Ее архитектура GELAN обеспечивает высокую пропускную способность на ограниченном оборудовании, например, в серии NVIDIA Jetson, что позволяет автоматизировать контроль качества без существенных задержек.
Анализ сложных сцен
В таких сценариях, как мониторинг плотных толп или сложные дорожные перекрестки, где объекты часто перекрывают друг друга, механизмы глобального внимания RTDETRv2 проявляют себя лучше всего. Способность модели нативно рассуждать о контексте всего изображения позволяет ей поддерживать надежное отслеживание и обнаружение, даже если объекты частично скрыты.
Варианты использования и рекомендации
Выбор между YOLOv9 и RT-DETR зависит от твоих конкретных проектных требований, ограничений развертывания и предпочтений в экосистеме.
Когда выбирать YOLOv9
YOLOv9 — сильный выбор для:
- Исследований информационных узких мест: академических проектов, изучающих архитектуры PGI (Programmable Gradient Information) и GELAN (Generalized Efficient Layer Aggregation Network).
- Изучения оптимизации градиентного потока: исследований, сфокусированных на понимании и смягчении потери информации в глубоких слоях сети во время обучения.
- Бенчмаркинга высокоточного детектирования: сценариев, где высокая производительность YOLOv9 на бенчмарке COCO нужна как точка отсчета для архитектурных сравнений.
Когда стоит выбирать RT-DETR
RT-DETR рекомендуется для:
- Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
- Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Будущее: YOLO26
Хотя YOLOv9 и RTDETRv2 представляют собой огромные достижения, область компьютерного зрения развивается стремительно. Разработчикам, планирующим новые проекты, рекомендуется использовать YOLO26 как передовое решение текущего состояния технологий.
Выпущенный в 2026 году, YOLO26 воплощает лучшие особенности как CNN, так и DETR. Он обладает дизайном End-to-End NMS-Free, полностью устраняющим задержку постобработки — технику, впервые предложенную в YOLOv10. Кроме того, YOLO26 удаляет Distribution Focal Loss (DFL) для лучшей совместимости с edge-устройствами и представляет революционный оптимизатор MuSGD. Вдохновленный обучением больших языковых моделей (в частности Kimi K2 от Moonshot AI), этот гибридный оптимизатор обеспечивает беспрецедентную стабильность обучения и более быструю сходимость.
В сочетании с улучшенными функциями потерь, такими как ProgLoss и STAL, для исключительного распознавания мелких объектов, YOLO26 обеспечивает до 43% более быстрый инференс на CPU, укрепляя свои позиции как идеальной модели для современных AI-развертываний.