Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 против YOLOv9#

Область компьютерного зрения стала свидетелем захватывающего расхождения в архитектурных философиях, в основном между сверточными нейронными сетями (CNN) и моделями на основе трансформеров. Сравнивая RTDETRv2 и YOLOv9, разработчики по сути оценивают компромиссы между механизмами глобального внимания и программируемой информацией о градиентах. Обе модели представляют собой вершину своих парадигм, расширяя границы обнаружения объектов в реальном времени.

Link to this sectionВведение в модели#

Link to this sectionRTDETRv2: Трансформер для обнаружения в реальном времени#

Разработанный исследователями из Baidu, RTDETRv2 основан на оригинальном RT-DETR с внедрением «Bag-of-Freebies» для улучшения базового трансформера обнаружения в реальном времени. Он устраняет традиционное «узкое место» трансформеров — скорость вывода, делая их пригодными для приложений реального времени.

  • Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
  • Организация: Baidu
  • Дата: 24.07.2024
  • Ссылки: Arxiv, GitHub

Определяющей характеристикой RTDETRv2 является его нативно сквозной дизайн без NMS. Полностью удалив немаксимальное подавление (NMS) в процессе постобработки, модель стабилизирует задержку вывода и упрощает конвейер развертывания. Механизм глобального внимания позволяет модели преуспевать в понимании сложных сцен и плотных толп, поскольку она одновременно оценивает контекст всего изображения.

Узнай больше о RTDETRv2

Link to this sectionYOLOv9: программируемая градиентная информация#

YOLOv9, высокоэффективная архитектура на основе CNN, решает проблему «узкого места» информации, присущую глубоким нейронным сетям. Она внедряет программируемую информацию о градиентах (PGI) и обобщенную сеть эффективной агрегации слоев (GELAN).

YOLOv9 опирается на проверенные основы сверточных нейронных сетей, но максимизирует эффективность параметров. Сохраняя важную информацию в процессе прямого распространения, она обеспечивает надежные обновления весов, что приводит к невероятно легкой, но высокоточной модели. Однако, в отличие от RTDETRv2, YOLOv9 по-прежнему полагается на стандартную постобработку NMS.

Узнай больше о YOLOv9

Link to this sectionПроизводительность и эффективность ресурсов#

При оценке этих моделей для продакшена критически важно сбалансировать среднюю точность (mAP) с вычислительными затратами. В таблице ниже показана их производительность на наборе данных MS COCO.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Link to this sectionТребования к памяти и эффективность обучения#

Трансформеры, такие как RTDETRv2, печально известны своей высокой потребностью в памяти во время обучения, часто требуя значительного объема памяти CUDA и более длительных графиков обучения для полной сходимости. Напротив, архитектуры CNN, такие как YOLOv9 и другие модели Ultralytics YOLO, предлагают значительно меньшее использование памяти, позволяя тебе обучать с большими размерами батчей на потребительском оборудовании.

Эффективное обучение

Чтобы максимизировать использование оборудования, подумай об использовании платформы Ultralytics для оптимизированного облачного обучения. Она автоматически настраивает окружение и оптимальный размер батча.

Link to this sectionПреимущество Ultralytics: экосистема и простота использования#

Хотя изучение автономных репозиториев, таких как официальные страницы RTDETRv2 или YOLOv9 на GitHub, может быть очень познавательным, производственные среды требуют стабильности, простоты использования и хорошо поддерживаемой экосистемы. Интеграция этих моделей через Python API Ultralytics предлагает бесшовный опыт для разработчика.

Link to this sectionЕдиный API и универсальность#

Фреймворк Ultralytics абстрагирует сложности загрузки данных, аугментаций и распределенного обучения. Более того, в то время как оригинальный RTDETRv2 строго сфокусирован на обнаружении, экосистема Ultralytics позволяет тебе легко переключаться между обнаружением объектов, сегментацией экземпляров и оценкой позы.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

Благодаря надежной документации, автоматическому отслеживанию экспериментов и бесшовным возможностям экспорта в такие форматы, как ONNX, TensorRT и OpenVINO, Ultralytics радикально сокращает время от прототипа до продакшена.

Link to this sectionИдеальные варианты использования#

Link to this sectionВ чем преуспевает RTDETRv2#

Благодаря механизму глобального внимания, RTDETRv2 является мощным инструментом для серверной обработки и сред, где глобальный контекст имеет первостепенное значение. Он превосходен в:

  • Медицинской визуализации: выявлении тонких аномалий, где окружающий контекст имеет решающее значение.
  • Воздушном наблюдении: обнаружении мелких объектов на кадрах дронов высокого разрешения без пространственных искажений, присущих традиционным сверткам CNN.
  • Анализе плотных толп: отслеживании отдельных людей, где сильное перекрытие обычно сбивает с толку модели на основе анкоров.

Link to this sectionВ чем преуспевает YOLOv9#

YOLOv9 — чемпион по развертыванию на периферийных устройствах с ограниченными ресурсами. Его вычислительная эффективность делает его идеальным для:

  • Робототехники: навигации в реальном времени и избегания препятствий, где требуется минимальная задержка.
  • Умных городов (IoT): развертывания на периферийных устройствах, таких как NVIDIA Jetson, для мониторинга дорожного движения.
  • Промышленного контроля: контроля качества на высокоскоростных сборочных линиях, требующего высокого количества кадров в секунду (FPS).

Link to this sectionБудущее: Представляем Ultralytics YOLO26#

Хотя YOLOv9 и RTDETRv2 представляют собой огромные шаги вперед, ландшафт быстро эволюционирует. Для современных развертываний недавно выпущенный Ultralytics YOLO26 представляет собой идеальную синергию обеих архитектурных философий.

Взяв лучшее от трансформеров и CNN, YOLO26 устанавливает новый стандарт:

  • Сквозной дизайн без NMS: как и RTDETRv2, YOLO26 является нативно сквозным, полностью устраняя постобработку NMS для более быстрых, простых и легко предсказуемых конвейеров развертывания.
  • Оптимизатор MuSGD: вдохновленный методами обучения больших языковых моделей (LLM) (такими как Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD и Muon. Это приносит беспрецедентную стабильность обучения и быструю сходимость в компьютерном зрении.
  • До 43% более быстрый вывод на CPU: в отличие от тяжелых трансформеров, YOLO26 серьезно оптимизирован для граничных вычислений (edge computing) и устройств без GPU.
  • Удаление DFL: удаление распределенной фокусной потери (Distribution Focal Loss) радикально упрощает граф модели, обеспечивая безупречный экспорт на маломощные периферийные устройства и встроенные нейронные процессоры (NPU).
  • ProgLoss + STAL: эти улучшенные функции потерь значительно повышают распознавание мелких объектов, что является критически важной функцией для IoT и аэрофотоснимков.

Командам, желающим начать новый проект в области компьютерного зрения, мы настоятельно рекомендуем оценить YOLO26. Он обеспечивает элегантность трансформера без NMS при невероятной скорости и эффективности обучения, характерной для высокооптимизированной архитектуры YOLO.

Узнай больше о YOLO26

Link to this sectionРезюме#

Выбор между RTDETRv2 и YOLOv9 во многом зависит от твоего оборудования для развертывания и конкретных потребностей в точности. RTDETRv2 обеспечивает передовую точность и понимание контекста для серверных приложений, в то время как YOLOv9 предлагает исключительную эффективность для периферийных устройств.

Однако, используя зрелую экосистему Ultralytics, разработчики могут без усилий экспериментировать с обеими моделями. Более того, с появлением новых моделей, таких как YOLO11, и нативно сквозной YOLO26, найти идеальный баланс между высокоскоростным выводом, поддержкой универсальных задач и низким потреблением памяти стало проще, чем когда-либо.

Контрибьюторы

Комментарии