YOLOv9 против DAMO-YOLO: техническое сравнение моделей обнаружения объектов

Быстрая эволюция компьютерного зрения привела к появлению множества мощных архитектур, адаптированных под различные ограничения при развертывании и требования к точности. Двумя примечательными участниками в этой области являются YOLOv9, известная своей надежной работой с информационными узкими местами, и DAMO-YOLO, которая уделяет значительное внимание поиску нейронных архитектур (NAS) и эффективным пирамидам признаков.

Это руководство содержит глубокое техническое сравнение YOLOv9 и DAMO-YOLO, подчеркивая их архитектурные различия, методологии обучения и идеальные сценарии развертывания. Мы также изучим, как экосистема Ultralytics обеспечивает бесшовный путь от разработки до продакшена, и почему современные модели, такие как YOLO26, стали рекомендуемым стандартом для новых проектов.

Архитектурный разбор

Понимание основных механизмов, лежащих в основе каждой модели, раскрывает причины различий в их производительности по разным метрикам.

YOLOv9: программируемая градиентная информация

YOLOv9 была разработана для прямого решения проблемы потери информации, которая происходит при прохождении данных через глубокие нейронные сети.

Авторы: Chien-Yao Wang, Hong-Yuan Mark Liao
Организация: Institute of Information Science, Academia Sinica, Тайвань
Дата: 21 февраля 2024 г.
Ссылки: Arxiv, GitHub, Документация

Узнай больше о YOLOv9

YOLOv9 представляет Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI гарантирует, что важная пространственная и семантическая информация сохраняется в процессе прямого прохода, предотвращая деградацию градиентов, используемых для обновления весов. GELAN дополняет это, максимизируя эффективность параметров, что позволяет модели достигать современного уровня mean Average Precision (mAP) при меньшем количестве FLOPs, чем у многих обычных CNN.

DAMO-YOLO: эффективность на базе NAS

Разработанная Alibaba Group, DAMO-YOLO использует другой подход, применяя автоматизированный поиск архитектуры для нахождения оптимального баланса между скоростью и точностью.

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 23 ноября 2022 г.
Ссылки: Arxiv, GitHub

Узнай больше о DAMO-YOLO

DAMO-YOLO опирается на бэкбон MAE-NAS (Masked Autoencoders for Neural Architecture Search) для автоматической генерации эффективных структур сети. Она использует RepGFPN (Reparameterized Generalized Feature Pyramid Network) для надежного объединения признаков и дизайн "ZeroHead" для минимизации вычислительной нагрузки на детектирующую голову. Кроме того, она включает AlignedOTA для назначения меток и дистилляцию знаний для повышения производительности своих меньших вариантов.

Роль NAS в компьютерном зрении

Поиск нейронных архитектур (NAS) автоматизирует проектирование искусственных нейронных сетей. Хотя он может создавать высокоэффективные модели, такие как DAMO-YOLO, для поиска в пространстве архитектур часто требуются огромные вычислительные ресурсы, что контрастирует с более детерминированной философией проектирования моделей, таких как YOLOv9.

Сравнение производительности и метрик

При выборе модели обнаружения объектов важно сбалансировать точность, скорость и вычислительную нагрузку.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Анализ

  • Точность против параметров: YOLOv9, как правило, демонстрирует превосходное соотношение параметров к точности. Например, YOLOv9c достигает 53.0% mAP при 25.3M параметров, в то время как DAMO-YOLOl достигает 50.8% mAP, но требует значительно больше параметров (42.1M).
  • Скорость инференса: Архитектура DAMO-YOLO обеспечивает конкурентоспособную скорость инференса TensorRT на GPU T4, немного опережая YOLOv9 в среднем сегменте. Однако эффективность YOLOv9 по количеству FLOPs и параметров транслируется в исключительную эффективность использования видеопамяти.
  • Требования к памяти: Модели Ultralytics YOLO, включая YOLOv9, обычно демонстрируют меньшее использование памяти как при обучении, так и при инференсе по сравнению со сложными моделями, созданными с помощью NAS, или тяжелыми архитектурами трансформеров, что делает их легко доступными для развертывания на ограниченном edge-оборудовании.

Преимущество экосистемы Ultralytics

Хотя теоретические метрики важны, практическая реализация во многом определяет успех проекта. Именно здесь платформа Ultralytics и ее комплексная программная экосистема превосходят автономные репозитории, такие как DAMO-YOLO.

Простота использования и эффективность обучения

Обучение кастомной модели YOLOv9 требует минимального объема шаблонного кода. Python API от Ultralytics абстрагирует сложные процессы, такие как аугментация данных, распределенное обучение и аппаратная оптимизация.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

Напротив, использование DAMO-YOLO часто требует навигации по жестким конфигурационным файлам и сложным цепочкам зависимостей, специфичным для ее уникального конвейера обучения, что приводит к более крутой кривой обучения.

Универсальность в задачах

Отличительной чертой моделей Ultralytics является их врожденная универсальность. Помимо стандартного обнаружения ограничивающих рамок, фреймворк Ultralytics плавно поддерживает такие задачи, как сегментация экземпляров, оценка позы, классификация изображений и обнаружение ориентированных ограничивающих рамок (OBB). DAMO-YOLO строго оптимизирована для 2D-обнаружения объектов, что требует значительной переработки для адаптации к другим визуальным задачам.

Экспорт на edge-устройства

Ultralytics упрощает процесс развертывания, предлагая экспорт модели в один клик в такие форматы, как TensorRT, OpenVINO и CoreML, обеспечивая максимальную производительность независимо от твоего целевого оборудования.

Варианты использования и рекомендации

Выбор между YOLOv9 и DAMO-YOLO зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать YOLOv9

YOLOv9 — сильный выбор для:

  • Исследований информационных узких мест: академических проектов, изучающих архитектуры PGI (Programmable Gradient Information) и GELAN (Generalized Efficient Layer Aggregation Network).
  • Изучения оптимизации градиентного потока: исследований, сфокусированных на понимании и смягчении потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинга высокоточного детектирования: сценариев, где высокая производительность YOLOv9 на бенчмарке COCO нужна как точка отсчета для архитектурных сравнений.

Когда выбирать DAMO-YOLO

DAMO-YOLO рекомендуется для:

  • Высокопроизводительной видеоаналитики: Обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
  • Линий промышленного производства: Сценариев со строгими ограничениями задержки GPU на специализированном оборудовании, таких как контроль качества в реальном времени на сборочных линиях.
  • Исследований в области поиска архитектуры нейронных сетей: Изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных основ на производительность обнаружения.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Будущее: переход на YOLO26

Хотя YOLOv9 и DAMO-YOLO представляют собой важные исторические вехи, современное компьютерное зрение сместилось в сторону нативных архитектур end-to-end. Для любой новой разработки YOLO26 является рекомендуемым стандартом.

Выпущенная в 2026 году, YOLO26 развивает успехи своих предшественников, предлагая качественный скачок как в точности, так и в простоте развертывания.

Ключевые инновации YOLO26

  • Дизайн End-to-End без NMS: YOLO26 полностью исключает постобработку Non-Maximum Suppression (NMS). Это создает оптимизированный конвейер развертывания, который является нативным end-to-end, что стало прорывом, впервые реализованным в YOLOv10.
  • Удаление DFL: Distribution Focal Loss была удалена для упрощения экспорта и улучшения совместимости с edge-устройствами и устройствами с низким энергопотреблением.
  • До 43% быстрее инференс на CPU: Благодаря удалению сложной постобработки и оптимизации основных сверток, YOLO26 уникально подходит для сценариев edge-вычислений, где отсутствуют выделенные GPU.
  • Оптимизатор MuSGD: Вдохновленная инновациями в обучении LLM, YOLO26 использует гибрид SGD и Muon (MuSGD), чтобы гарантировать более стабильные запуски обучения и заметно более быстрое время сходимости.
  • ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов, делая YOLO26 идеальной для аэрофотосъемки с большой высоты и IoT-устройств.

Если ты сейчас изучаешь YOLO11 или YOLOv8 для своего следующего проекта, обновление до YOLO26 гарантирует использование самого оптимизированного, передового фреймворка визуального ИИ, доступного на сегодняшний день.

Резюме

Выбор правильной модели зависит от твоих конкретных эксплуатационных ограничений:

  • DAMO-YOLO предлагает захватывающий взгляд на оптимизацию на базе NAS, обеспечивая конкурентоспособную скорость для очень специфических профилей оборудования, где ее архитектура RepGFPN проявляет себя лучше всего.
  • YOLOv9 — отличный выбор для исследователей, сосредоточенных на сохранении мелкозернистых визуальных деталей, использующих ее архитектуру PGI для предотвращения потери информации в глубоких сетях.
  • Ultralytics YOLO26 является окончательным выбором для современных корпоративных и исследовательских приложений. Ее непревзойденная простота использования, архитектура без NMS и передовые оптимизации обучения MuSGD делают ее самой надежной, точной и легко развертываемой моделью в ландшафте компьютерного зрения.

Комментарии