Link to this sectionYOLOv9 против RTDETRv2: Технический разбор современного обнаружения объектов#
Ландшафт обнаружения объектов в реальном времени претерпел качественный сдвиг за последние годы. В этой области доминируют две архитектурные философии: высокооптимизированные сверточные нейронные сети (CNN) и трансформеры обнаружения (DETR) реального времени. Вершиной этих двух подходов являются YOLOv9 и RTDETRv2.
Это руководство детально сравнивает две мощные модели, анализируя их архитектурные инновации, метрики производительности и идеальные сценарии развертывания, чтобы помочь тебе выбрать подходящую модель для твоего пайплайна компьютерного зрения.
Link to this sectionКраткий обзор#
Обе модели демонстрируют современные результаты, но они подходят для несколько различающихся ограничений развертывания и сред разработки.
- Выбирай YOLOv9, если: тебе нужна высокоэффективное использование параметров и быстрый вывод на периферийных устройствах. YOLOv9 расширяет теоретические границы эффективности CNN, что делает модель идеальной для сред, где вычислительные ресурсы строго ограничены.
- Выбирай RTDETRv2, если: тебе требуется глубокое понимание контекста, которое обеспечивают трансформеры, особенно в сценах с сильным перекрытием объектов или сложными взаимосвязями между ними, и если у тебя есть оборудование для поддержки чуть более тяжелой архитектуры.
- Выбирай YOLO26 (рекомендуется), если: ты хочешь получить лучшее от обоих миров. Будучи новым поколением на Ultralytics Platform, YOLO26 обладает нативным дизайном End-to-End без NMS (подобно моделям DETR, но значительно быстрее), что устраняет узкие места при постобработке и предлагает до 43% более быстрый вывод на CPU по сравнению с предыдущими поколениями.
Link to this sectionТехнические характеристики и авторство#
Понимание происхождения и целей проектирования этих моделей дает важный контекст для их архитектурных решений.
Link to this sectionYOLOv9#
Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
Организация: Institute of Information Science, Academia Sinica
Дата: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9
Link to this sectionRTDETRv2#
Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu
Дата: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR
Link to this sectionАрхитектурные инновации#
Link to this sectionYOLOv9: Решение проблемы информационного узкого места#
Ultralytics YOLOv9 представляет две важные инновации, направленные на предотвращение потери информации при прохождении данных через глубокие нейронные сети:
- Programmable Gradient Information (PGI): Этот фреймворк вспомогательного контроля гарантирует генерацию надежных градиентов для обновления весов сети, сохраняя ключевую информацию о признаках даже в очень глубоких слоях сети.
- Generalized Efficient Layer Aggregation Network (GELAN): Новая архитектура, сочетающая преимущества CSPNet и ELAN. GELAN оптимизирует эффективность параметров, позволяя YOLOv9 достигать более высокой точности с меньшим количеством FLOP по сравнению с традиционными CNN.
Link to this sectionRTDETRv2: Улучшение трансформеров реального времени#
Развивая успех оригинального RT-DETR, RTDETRv2 использует архитектуру на базе трансформеров, которая изначально избегает необходимости в Non-Maximum Suppression (NMS). Ее улучшения включают:
- Стратегия Bag-of-Freebies: Итерация v2 включает продвинутые методы обучения и аугментацию данных, которые значительно повышают точность без увеличения задержки вывода.
- Эффективный гибридный энкодер: Благодаря обработке многомасштабных признаков через декоплированный механизм внутримасштабного и кросс-масштабного внимания, RTDETRv2 эффективно управляет традиционно высокими вычислительными затратами Vision Transformers.
В то время как RTDETRv2 использует трансформеры для обнаружения без NMS, новая архитектура YOLO26 достигает этого нативно внутри высокооптимизированной структуры CNN, обеспечивая такое же упрощенное развертывание, но с гораздо более высокой скоростью вывода на периферийных устройствах.
Link to this sectionСравнение производительности#
При оценке моделей для продакшена критически важен баланс между точностью и вычислительными требованиями. Таблица ниже показывает производительность моделей разных размеров согласно стандартным бенчмаркам.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Link to this sectionАнализ#
Как показывают данные, YOLOv9 сохраняет преимущество в эффективности параметров. Модель YOLOv9c достигает впечатляющих 53.0 mAP с параметрами всего в 25.3M, что делает ее невероятно легкой.
Напротив, RTDETRv2 составляет серьезную конкуренцию в категориях средних и больших моделей. Однако это достигается за счет большего количества параметров и значительно больших FLOP, что типично для моделей Transformer. Эта архитектурная разница также отражается на использовании памяти: моделям YOLO обычно требуется гораздо меньше CUDA-памяти как во время обучения, так и при выводе по сравнению с их аналогами-трансформерами.
Link to this sectionПреимущество Ultralytics: Экосистема и универсальность#
Хотя чистые архитектурные показатели важны, успех проекта в области ИИ часто зависит от программной экосистемы. Доступ к этим продвинутым моделям через Python API Ultralytics дает несравненные преимущества.
Link to this sectionУпрощенное обучение и развертывание#
Обучение трансформера обнаружения обычно требует сложных конфигурационных файлов и мощных GPU. Используя фреймворк Ultralytics, разработчики могут обучать модели YOLOv9 и RTDETR с одинаковым простым синтаксисом, извлекая выгоду из высокоэффективных конвейеров обучения и доступных предобученных весов.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")Link to this sectionНепревзойденная универсальность задач#
Главным ограничением специализированных моделей, таких как RTDETRv2, является их узкая фокусировка на обнаружении ограничивающих рамок. Напротив, более широкая экосистема Ultralytics, включающая такие модели, как YOLO11 и YOLOv8, поддерживает широкий спектр задач компьютерного зрения. Это включает пиксельно-точную сегментацию экземпляров, скелетную оценку позы, классификацию всего изображения и обнаружение ориентированных BBox (OBB) для аэрофотосъемки.
Link to this sectionПрименение в реальных условиях#
Link to this sectionВысокоскоростная периферийная аналитика#
Для розничных сред или производственных линий, требующих распознавания товаров в реальном времени на периферийных устройствах, YOLOv9 — лучший выбор. Ее архитектура GELAN обеспечивает высокую пропускную способность на ограниченном оборудовании, таком как серия NVIDIA Jetson, позволяя автоматизировать контроль качества без существенных задержек.
Link to this sectionАнализ сложных сцен#
В сценариях, таких как мониторинг плотных толп или сложные дорожные перекрестки, где объекты часто перекрывают друг друга, механизмы глобального внимания RTDETRv2 проявляют себя лучше всего. Способность модели нативно рассуждать о контексте всего изображения позволяет ей поддерживать надежное отслеживание и обнаружение, даже если объекты частично скрыты.
Link to this sectionСценарии использования и рекомендации#
Выбор между YOLOv9 и RT-DETR зависит от твоих конкретных требований к проекту, ограничений по развертыванию и предпочтений в экосистеме.
Link to this sectionКогда стоит выбрать YOLOv9#
YOLOv9 — отличный выбор для:
- Исследований информационных узких мест: Академические проекты по изучению архитектур Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
- Изучения оптимизации потока градиентов: Исследования, направленные на понимание и смягчение потери информации в глубоких слоях сети во время обучения.
- Бенчмаркинга обнаружения высокой точности: Сценарии, где высокие показатели производительности YOLOv9 в бенчмарке COCO необходимы в качестве точки отсчета для архитектурных сравнений.
Link to this sectionКогда выбирать RT-DETR#
RT-DETR рекомендуется для:
- Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
- Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionБудущее: YOLO26#
В то время как YOLOv9 и RTDETRv2 представляют собой огромные достижения, область компьютерного зрения развивается стремительно. Для разработчиков, желающих начать новые проекты, YOLO26 является рекомендуемым современным решением.
Выпущенный в 2026 году, YOLO26 объединяет лучшие черты как CNN, так и DETR. Он обладает дизайном End-to-End без NMS, полностью устраняя задержку постобработки — технику, впервые опробованную в YOLOv10. Кроме того, YOLO26 удаляет Distribution Focal Loss (DFL) для лучшей совместимости с периферийными устройствами и представляет революционный оптимизатор MuSGD. Вдохновленный обучением больших языковых моделей (в частности, Kimi K2 от Moonshot AI), этот гибридный оптимизатор обеспечивает беспрецедентную стабильность обучения и более быструю сходимость.
В сочетании с улучшенными функциями потерь, такими как ProgLoss и STAL для исключительного распознавания мелких объектов, YOLO26 обеспечивает до 43% более быстрый вывод на CPU, закрепляя свою позицию как идеальная модель для современных ИИ-развертываний.