Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 против RTDETRv2: Технический разбор современного обнаружения объектов#

Ландшафт обнаружения объектов в реальном времени претерпел качественный сдвиг за последние годы. В этой области доминируют две архитектурные философии: высокооптимизированные сверточные нейронные сети (CNN) и трансформеры обнаружения (DETR) реального времени. Вершиной этих двух подходов являются YOLOv9 и RTDETRv2.

Это руководство детально сравнивает две мощные модели, анализируя их архитектурные инновации, метрики производительности и идеальные сценарии развертывания, чтобы помочь тебе выбрать подходящую модель для твоего пайплайна компьютерного зрения.

Link to this sectionКраткий обзор#

Обе модели демонстрируют современные результаты, но они подходят для несколько различающихся ограничений развертывания и сред разработки.

  • Выбирай YOLOv9, если: тебе нужна высокоэффективное использование параметров и быстрый вывод на периферийных устройствах. YOLOv9 расширяет теоретические границы эффективности CNN, что делает модель идеальной для сред, где вычислительные ресурсы строго ограничены.
  • Выбирай RTDETRv2, если: тебе требуется глубокое понимание контекста, которое обеспечивают трансформеры, особенно в сценах с сильным перекрытием объектов или сложными взаимосвязями между ними, и если у тебя есть оборудование для поддержки чуть более тяжелой архитектуры.
  • Выбирай YOLO26 (рекомендуется), если: ты хочешь получить лучшее от обоих миров. Будучи новым поколением на Ultralytics Platform, YOLO26 обладает нативным дизайном End-to-End без NMS (подобно моделям DETR, но значительно быстрее), что устраняет узкие места при постобработке и предлагает до 43% более быстрый вывод на CPU по сравнению с предыдущими поколениями.

Link to this sectionТехнические характеристики и авторство#

Понимание происхождения и целей проектирования этих моделей дает важный контекст для их архитектурных решений.

Link to this sectionYOLOv9#

Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
Организация: Institute of Information Science, Academia Sinica
Дата: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9

Узнай больше о YOLOv9

Link to this sectionRTDETRv2#

Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu
Дата: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

Узнай больше о RTDETR

Link to this sectionАрхитектурные инновации#

Link to this sectionYOLOv9: Решение проблемы информационного узкого места#

Ultralytics YOLOv9 представляет две важные инновации, направленные на предотвращение потери информации при прохождении данных через глубокие нейронные сети:

  1. Programmable Gradient Information (PGI): Этот фреймворк вспомогательного контроля гарантирует генерацию надежных градиентов для обновления весов сети, сохраняя ключевую информацию о признаках даже в очень глубоких слоях сети.
  2. Generalized Efficient Layer Aggregation Network (GELAN): Новая архитектура, сочетающая преимущества CSPNet и ELAN. GELAN оптимизирует эффективность параметров, позволяя YOLOv9 достигать более высокой точности с меньшим количеством FLOP по сравнению с традиционными CNN.

Link to this sectionRTDETRv2: Улучшение трансформеров реального времени#

Развивая успех оригинального RT-DETR, RTDETRv2 использует архитектуру на базе трансформеров, которая изначально избегает необходимости в Non-Maximum Suppression (NMS). Ее улучшения включают:

  1. Стратегия Bag-of-Freebies: Итерация v2 включает продвинутые методы обучения и аугментацию данных, которые значительно повышают точность без увеличения задержки вывода.
  2. Эффективный гибридный энкодер: Благодаря обработке многомасштабных признаков через декоплированный механизм внутримасштабного и кросс-масштабного внимания, RTDETRv2 эффективно управляет традиционно высокими вычислительными затратами Vision Transformers.
Нативное обнаружение End-to-End

В то время как RTDETRv2 использует трансформеры для обнаружения без NMS, новая архитектура YOLO26 достигает этого нативно внутри высокооптимизированной структуры CNN, обеспечивая такое же упрощенное развертывание, но с гораздо более высокой скоростью вывода на периферийных устройствах.

Link to this sectionСравнение производительности#

При оценке моделей для продакшена критически важен баланс между точностью и вычислительными требованиями. Таблица ниже показывает производительность моделей разных размеров согласно стандартным бенчмаркам.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this sectionАнализ#

Как показывают данные, YOLOv9 сохраняет преимущество в эффективности параметров. Модель YOLOv9c достигает впечатляющих 53.0 mAP с параметрами всего в 25.3M, что делает ее невероятно легкой.

Напротив, RTDETRv2 составляет серьезную конкуренцию в категориях средних и больших моделей. Однако это достигается за счет большего количества параметров и значительно больших FLOP, что типично для моделей Transformer. Эта архитектурная разница также отражается на использовании памяти: моделям YOLO обычно требуется гораздо меньше CUDA-памяти как во время обучения, так и при выводе по сравнению с их аналогами-трансформерами.

Link to this sectionПреимущество Ultralytics: Экосистема и универсальность#

Хотя чистые архитектурные показатели важны, успех проекта в области ИИ часто зависит от программной экосистемы. Доступ к этим продвинутым моделям через Python API Ultralytics дает несравненные преимущества.

Link to this sectionУпрощенное обучение и развертывание#

Обучение трансформера обнаружения обычно требует сложных конфигурационных файлов и мощных GPU. Используя фреймворк Ultralytics, разработчики могут обучать модели YOLOv9 и RTDETR с одинаковым простым синтаксисом, извлекая выгоду из высокоэффективных конвейеров обучения и доступных предобученных весов.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Link to this sectionНепревзойденная универсальность задач#

Главным ограничением специализированных моделей, таких как RTDETRv2, является их узкая фокусировка на обнаружении ограничивающих рамок. Напротив, более широкая экосистема Ultralytics, включающая такие модели, как YOLO11 и YOLOv8, поддерживает широкий спектр задач компьютерного зрения. Это включает пиксельно-точную сегментацию экземпляров, скелетную оценку позы, классификацию всего изображения и обнаружение ориентированных BBox (OBB) для аэрофотосъемки.

Link to this sectionПрименение в реальных условиях#

Link to this sectionВысокоскоростная периферийная аналитика#

Для розничных сред или производственных линий, требующих распознавания товаров в реальном времени на периферийных устройствах, YOLOv9 — лучший выбор. Ее архитектура GELAN обеспечивает высокую пропускную способность на ограниченном оборудовании, таком как серия NVIDIA Jetson, позволяя автоматизировать контроль качества без существенных задержек.

Link to this sectionАнализ сложных сцен#

В сценариях, таких как мониторинг плотных толп или сложные дорожные перекрестки, где объекты часто перекрывают друг друга, механизмы глобального внимания RTDETRv2 проявляют себя лучше всего. Способность модели нативно рассуждать о контексте всего изображения позволяет ей поддерживать надежное отслеживание и обнаружение, даже если объекты частично скрыты.

Link to this sectionСценарии использования и рекомендации#

Выбор между YOLOv9 и RT-DETR зависит от твоих конкретных требований к проекту, ограничений по развертыванию и предпочтений в экосистеме.

Link to this sectionКогда стоит выбрать YOLOv9#

YOLOv9 — отличный выбор для:

  • Исследований информационных узких мест: Академические проекты по изучению архитектур Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
  • Изучения оптимизации потока градиентов: Исследования, направленные на понимание и смягчение потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинга обнаружения высокой точности: Сценарии, где высокие показатели производительности YOLOv9 в бенчмарке COCO необходимы в качестве точки отсчета для архитектурных сравнений.

Link to this sectionКогда выбирать RT-DETR#

RT-DETR рекомендуется для:

  • Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
  • Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

  • Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
  • Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
  • Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionБудущее: YOLO26#

В то время как YOLOv9 и RTDETRv2 представляют собой огромные достижения, область компьютерного зрения развивается стремительно. Для разработчиков, желающих начать новые проекты, YOLO26 является рекомендуемым современным решением.

Выпущенный в 2026 году, YOLO26 объединяет лучшие черты как CNN, так и DETR. Он обладает дизайном End-to-End без NMS, полностью устраняя задержку постобработки — технику, впервые опробованную в YOLOv10. Кроме того, YOLO26 удаляет Distribution Focal Loss (DFL) для лучшей совместимости с периферийными устройствами и представляет революционный оптимизатор MuSGD. Вдохновленный обучением больших языковых моделей (в частности, Kimi K2 от Moonshot AI), этот гибридный оптимизатор обеспечивает беспрецедентную стабильность обучения и более быструю сходимость.

В сочетании с улучшенными функциями потерь, такими как ProgLoss и STAL для исключительного распознавания мелких объектов, YOLO26 обеспечивает до 43% более быстрый вывод на CPU, закрепляя свою позицию как идеальная модель для современных ИИ-развертываний.

Комментарии