Перейти к содержанию

YOLOv9 против DAMO-YOLO: Техническое сравнение моделей обнаружения объектов

Быстрое развитие компьютерного зрения привело к появлению множества мощных архитектур, адаптированных для различных ограничений развертывания и требований к точности. Двумя заметными представителями в этой области являются YOLOv9, известный своей надежной обработкой информационных узких мест, и DAMO-YOLO, который в значительной степени ориентирован на нейронный поиск архитектуры (NAS) и эффективные пирамиды признаков.

Это руководство предоставляет углубленное техническое сравнение YOLOv9 и DAMO-YOLO, подчеркивая их архитектурные различия, методологии обучения и идеальные сценарии развертывания. Мы также рассмотрим, как экосистема Ultralytics обеспечивает бесшовный путь от разработки до производства, и почему современные модели, такие как YOLO26, стали рекомендуемым стандартом для новых проектов.

Архитектурное Глубокое Погружение

Понимание основных механизмов, лежащих в основе каждой модели, объясняет, почему они демонстрируют различную производительность по разным метрикам.

YOLOv9: Программируемая градиентная информация

YOLOv9 был разработан для непосредственного решения проблемы потери информации, возникающей при прохождении данных через глубокие нейронные сети.

Авторы: Chien-Yao Wang, Hong-Yuan Mark Liao
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 21 февраля 2024 г.
Ссылки:Arxiv, GitHub, Документация

Узнайте больше о YOLOv9

YOLOv9 представляет Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI гарантирует сохранение жизненно важной пространственной и семантической информации в процессе прямого распространения, предотвращая деградацию градиентов, используемых для обновления весов. GELAN дополняет это, максимизируя эффективность параметров, что позволяет модели достигать современного уровня средней точности (mAP) с меньшим количеством FLOPs, чем многие традиционные CNN.

DAMO-YOLO: эффективность, основанная на NAS

Разработанный Alibaba Group, DAMO-YOLO использует другой подход, применяя автоматизированный архитектурный поиск для нахождения оптимального баланса между скоростью и точностью.

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Организация: Alibaba Group
Дата: 23 ноября 2022
Ссылки:Arxiv, GitHub

Узнайте больше о DAMO-YOLO

DAMO-YOLO опирается на магистральную сеть MAE-NAS (Masked Autoencoders for Neural Architecture Search) для автоматической генерации эффективных сетевых структур. Она использует RepGFPN (перепараметризованную обобщенную пирамидальную сеть признаков) для надежного слияния признаков и архитектуру "ZeroHead" для минимизации вычислительной нагрузки детекционной головы. Кроме того, она включает AlignedOTA для назначения меток и дистилляцию знаний для повышения производительности своих меньших вариантов.

Роль NAS в компьютерном зрении

Поиск нейронной архитектуры (NAS) автоматизирует проектирование искусственных нейронных сетей. Хотя он может создавать высокоэффективные модели, такие как DAMO-YOLO, он часто требует огромных вычислительных ресурсов для поиска в пространстве архитектур, что контрастирует с более детерминированной философией проектирования таких моделей, как YOLOv9.

Сравнение производительности и метрик

При выборе модели обнаружения объектов крайне важно сбалансировать точность, скорость и вычислительные затраты.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Анализ

  • Точность против параметров: YOLOv9 обычно демонстрирует превосходное соотношение параметров к точности. Например, YOLOv9c достигает 53,0% mAP с 25,3 млн параметров, в то время как DAMO-YOLOl достигает 50,8% mAP, но требует значительно больше параметров (42,1 млн).
  • Скорость инференса: Архитектура DAMO-YOLO обеспечивает конкурентоспособные скорости инференса TensorRT на GPU T4, немного превосходя YOLOv9 в средних уровнях. Однако эффективность YOLOv9 по FLOPs и количеству параметров обеспечивает исключительную эффективность использования памяти GPU.
  • Требования к памяти: Модели Ultralytics YOLO, включая YOLOv9, обычно демонстрируют более низкое потребление памяти как во время обучения, так и во время инференса по сравнению со сложными моделями, сгенерированными NAS, или тяжелыми архитектурами трансформеров, что делает их легкодоступными для развертывания на ограниченном периферийном оборудовании.

Преимущество экосистемы Ultralytics

Хотя теоретические метрики важны, практическая реализация в значительной степени определяет успех проекта. Именно здесь платформа Ultralytics и ее комплексная программная экосистема превосходят автономные репозитории, такие как DAMO-YOLO.

Простота использования и эффективность обучения

Обучение пользовательской модели YOLOv9 требует минимального шаблонного кода. Python API Ultralytics абстрагирует сложные процессы, такие как аугментация данных, распределенное обучение и оптимизация оборудования.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

Напротив, использование DAMO-YOLO часто требует навигации по жестким файлам конфигурации и сложным цепочкам зависимостей, специфичным для его уникального конвейера обучения, что приводит к более крутой кривой обучения.

Универсальность в различных задачах

Отличительной чертой моделей Ultralytics является их присущая универсальность. Помимо стандартного обнаружения ограничивающих рамок, фреймворк Ultralytics беспрепятственно поддерживает такие задачи, как сегментация экземпляров, оценка позы, классификация изображений и обнаружение ориентированных ограничивающих рамок (OBB). DAMO-YOLO строго оптимизирован для 2D-обнаружения объектов, требуя значительной переработки для адаптации к другим визуальным парадигмам.

Экспорт на периферийные устройства

Ultralytics упрощает конвейер развертывания, предлагая экспорт моделей в один клик в такие форматы, как TensorRT, OpenVINO и CoreML, обеспечивая максимальную производительность независимо от целевого оборудования.

Сценарии использования и рекомендации

Выбор между YOLOv9 и DAMO-YOLO зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбирать YOLOv9

YOLOv9 — отличный выбор для:

  • Исследования информационного узкого места: Академические проекты, изучающие архитектуры Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
  • Исследования по оптимизации потока градиентов: Исследования, направленные на понимание и снижение потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинг обнаружения с высокой точностью: Сценарии, где высокая производительность YOLOv9 в бенчмарке COCO необходима в качестве эталонной точки для архитектурных сравнений.

Когда следует выбирать DAMO-YOLO

DAMO-YOLO рекомендуется для:

  • Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
  • Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
  • Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Будущее: Переход к YOLO26

Хотя YOLOv9 и DAMO-YOLO представляют собой важные исторические вехи, современное компьютерное зрение сместилось в сторону нативных сквозных архитектур. Для любой новой разработки YOLO26 является рекомендуемым стандартом.

Выпущенный в 2026 году, YOLO26 опирается на успехи своих предшественников, предлагая прорыв как в точности, так и в простоте развертывания.

Ключевые инновации YOLO26

  • Сквозная архитектура без NMS: YOLO26 полностью исключает постобработку Non-Maximum Suppression (NMS). Это создает оптимизированный конвейер развертывания, который является изначально сквозным, что является прорывом, впервые примененным в YOLOv10.
  • Удаление DFL: Distribution Focal Loss удалена для упрощенного экспорта и лучшей совместимости с периферийными/маломощными устройствами.
  • До 43% более быстрый инференс на CPU: Удаляя сложную постобработку и оптимизируя основные свертки, YOLO26 уникально подходит для сценариев граничных вычислений, не имеющих выделенных GPU.
  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM, YOLO26 использует гибрид SGD и Muon (MuSGD) для обеспечения более стабильных циклов обучения и заметно более быстрого времени сходимости.
  • ProgLoss + STAL: Эти усовершенствованные функции потерь обеспечивают значительные улучшения в распознавании мелких объектов, делая YOLO26 идеальным для высотной аэрофотосъемки и устройств IoT.

Если вы в настоящее время исследуете YOLO11 или YOLOv8 для вашего следующего проекта, обновление до YOLO26 гарантирует, что вы используете самый оптимизированный, современный фреймворк ИИ-зрения, доступный сегодня.

Обзор

Выбор правильной модели зависит от ваших конкретных эксплуатационных ограничений:

  • DAMO-YOLO предлагает увлекательный взгляд на оптимизацию, управляемую NAS, обеспечивая конкурентоспособные скорости для очень специфических аппаратных профилей, где архитектура RepGFPN проявляет себя наилучшим образом.
  • YOLOv9 является отличным выбором для исследователей, сосредоточенных на сохранении мелкозернистых визуальных деталей, используя свою архитектуру PGI для предотвращения потери информации в глубоких сетях.
  • Ultralytics YOLO26 является окончательным выбором для современных корпоративных и исследовательских приложений. Его беспрецедентная простота использования, архитектура без NMS и передовые оптимизации обучения MuSGD делают его самой надежной, точной и легко развертываемой моделью в области компьютерного зрения.

Комментарии