DAMO-YOLO против YOLOv9: всестороннее техническое сравнение современных архитектур детектирования объектов

Ландшафт детектирования объектов в реальном времени продолжает развиваться с бешеной скоростью. Поскольку инженерные команды и исследователи стремятся к идеальному балансу точности, скорости вывода и вычислительной эффективности, в исследовательском сообществе появились две примечательные архитектуры: DAMO-YOLO и YOLOv9. Обе модели внедряют значительные архитектурные инновации, направленные на расширение границ возможного в компьютерном зрении.

Это подробное техническое руководство содержит глубокий анализ двух моделей, сравнивая их уникальные архитектурные подходы, методологии обучения и возможности развертывания в реальных условиях. Мы также изучим, как более широкая экосистема программного обеспечения играет решающую роль в современной разработке ИИ, подчеркивая преимущества интегрированных платформ, таких как Ultralytics Platform, и моделей нового поколения, таких как YOLO26.

Краткий обзор: выбор подходящей архитектуры

Хотя обе модели представляют собой важные вехи в исследованиях глубокого обучения, они ориентированы на немного разные философии развертывания.

DAMO-YOLO преуспевает в средах, где можно использовать интенсивный поиск нейронной архитектуры (NAS) для получения специфических профилей производительности, что делает его интересным объектом для изучения при кастомном развертывании на периферийных устройствах. Напротив, YOLOv9 в значительной степени фокусируется на устранении «узких мест» информации в глубоком обучении, обеспечивая исключительно высокую эффективность параметров.

Однако для производственного развертывания инженерные команды постоянно рекомендуют использовать унифицированную экосистему Ultralytics. Для новых проектов новейшая модель YOLO26 предлагает лучшее из обоих миров: передовую точность в сочетании с нативным комплексным дизайном (end-to-end), который устраняет необходимость в сложной постобработке.

Обеспечь будущее своего конвейера компьютерного зрения

Хотя DAMO-YOLO и YOLOv9 являются мощными академическими моделями, их развертывание в производственной среде часто требует значительной кастомной инженерной проработки. Использование Ultralytics YOLO26 предоставляет доступ к передовой производительности с оптимизированным, поддерживаемым API.

Технические характеристики и авторство

Понимание истоков и фокуса разработки этих моделей дает необходимый контекст для оценки их сильных сторон.

DAMO-YOLO

Разработанный исследователями из Alibaba Group, DAMO-YOLO делает упор на автоматизированную генерацию архитектуры и эффективное слияние признаков.

Узнай больше о DAMO-YOLO

YOLOv9

Представленный как решение проблемы потери информации в глубоких сверточных сетях, YOLOv9 раздвигает теоретические пределы сохранения градиента во время обучения.

Узнай больше о YOLOv9

Архитектурные инновации

DAMO-YOLO: на базе поиска нейронной архитектуры

DAMO-YOLO выделяется за счет глубоко кастомизированных, сгенерированных машиной компонентов. Его магистральная архитектура (backbone) создается с помощью поиска нейронной архитектуры (NAS), специально ориентированного на низкую задержку вывода на различном оборудовании.

Архитектура оснащена эффективной сетью RepGFPN (перепараметризованная обобщенная пирамида признаков) для слияния признаков, которая улучшает детектирование объектов на разных масштабах без чрезмерного увеличения вычислительных затрат. Кроме того, она использует дизайн ZeroHead для упрощения детектора и применяет AlignedOTA для назначения меток в сочетании с усовершенствованным процессом дистилляции во время обучения. Хотя эти методы обеспечивают быстрый вывод, многоэтапный процесс дистилляции часто требует значительного объема видеопамяти (VRAM) и длительного времени обучения.

YOLOv9: решение проблемы информационного «бутылочного горлышка»

YOLOv9 решает фундаментальную проблему глубоких сетей: постепенную потерю информации о входных данных по мере прохождения через последовательные слои.

Для борьбы с этим авторы представили Programmable Gradient Information (PGI) — фреймворк вспомогательного контроля, предназначенный для сохранения критически важных деталей для глубоких слоев, что генерирует высоконадежные градиенты для обновления весов. PGI дополняется архитектурой GELAN (Generalized Efficient Layer Aggregation Network). GELAN оптимизирует эффективность параметров, объединяя сильные стороны CSPNet и ELAN, максимизируя поток информации при строгой минимизации операций с плавающей запятой (FLOPs).

Анализ производительности и метрики

При оценке производительности обе модели демонстрируют высокую среднюю точность (mAP) на стандартных бенчмарках, таких как COCO. YOLOv9 достигает более высокой абсолютной точности при эквивалентных размерах моделей, используя архитектуру PGI для сохранения высокой точности на сложных наборах данных.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Как показано выше, YOLOv9-E достигает наивысшей точности, в то время как меньшие варианты DAMO-YOLO и YOLOv9 поддерживают весьма конкурентоспособную скорость вывода благодаря оптимизациям TensorRT.

Методологии обучения и экосистема

Хотя сама архитектура важна, удобство использования и эффективность обучения, определяемые экосистемой модели, имеют первостепенное значение для реальных приложений.

Зависимость DAMO-YOLO от дистилляции знаний часто требует обучения громоздкой «учительской» модели перед передачей знаний целевой «студенческой» модели. Этот традиционный исследовательский подход значительно увеличивает требования к памяти и время цикла обучения. Аналогично, оригинальный репозиторий YOLOv9 требует работы со сложными файлами конфигурации, что может замедлить гибкую разработку.

Напротив, интеграция моделей в Ultralytics Platform полностью меняет опыт разработчика. Python-пакет Ultralytics абстрагирует шаблонный код, позволяя командам без усилий справляться с аугментацией данных, настройкой гиперпараметров и экспортом моделей.

Реальные приложения и варианты использования

Различные архитектуры естественным образом преуспевают в определенных отраслях, исходя из их требований к ресурсам и профилей точности.

  • DAMO-YOLO в Edge AI: благодаря своим NAS-оптимизированным магистральным архитектурам, DAMO-YOLO часто исследуется во встроенных системах, где аппаратная перепараметризация является строгой необходимостью, например, при развертывании кастомных ASIC в базовом контроле качества производства.
  • YOLOv9 в прецизионной аналитике: благодаря высокой эффективности параметров и сохранению градиентов с помощью PGI, YOLOv9 отлично подходит для сценариев с плотным детектированием объектов, таких как анализ аэрофотоснимков или отслеживание крошечных объектов в людных торговых точках.

Варианты использования и рекомендации

Выбор между DAMO-YOLO и YOLOv9 зависит от конкретных требований твоего проекта, ограничений развертывания и предпочтений в отношении экосистемы.

Когда выбирать DAMO-YOLO

DAMO-YOLO — отличный выбор для:

  • Высокопроизводительной видеоаналитики: Обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
  • Линий промышленного производства: Сценариев со строгими ограничениями задержки GPU на специализированном оборудовании, таких как контроль качества в реальном времени на сборочных линиях.
  • Исследований в области поиска архитектуры нейронных сетей: Изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных основ на производительность обнаружения.

Когда выбирать YOLOv9

YOLOv9 рекомендуется для:

  • Исследований информационных узких мест: академических проектов, изучающих архитектуры PGI (Programmable Gradient Information) и GELAN (Generalized Efficient Layer Aggregation Network).
  • Изучения оптимизации градиентного потока: исследований, сфокусированных на понимании и смягчении потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинга высокоточного детектирования: сценариев, где высокая производительность YOLOv9 на бенчмарке COCO нужна как точка отсчета для архитектурных сравнений.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Преимущество Ultralytics: переход на YOLO26

Для пользователей, сравнивающих устаревшие архитектуры, переход на современную экосистему Ultralytics — в частности, на новейшие модели YOLO26 — дает непревзойденное преимущество.

YOLO26 фундаментально меняет ландшафт развертывания благодаря своему дизайну End-to-End NMS-Free. Полностью исключая постобработку Non-Maximum Suppression (NMS), модель обеспечивает более быстрые и значительно более простые архитектуры развертывания. В сочетании с отказом от Distribution Focal Loss (DFL), YOLO26 предлагает превосходную совместимость для периферийных и маломощных устройств.

Более того, YOLO26 включает в себя революционный оптимизатор MuSGD, гибрид стохастического градиентного спуска и оптимизаций Muon, вдохновленный инновациями в обучении LLM. Это обеспечивает высокостабильную сходимость обучения при сохранении удивительно низкого использования памяти по сравнению с альтернативами, перегруженными трансформерами.

Упрощенное обучение с YOLO26

Благодаря интуитивно понятному API Ultralytics ты можешь обучить передовую модель YOLO26 со встроенным отслеживанием экспериментов всего за несколько строк на Python.

from ultralytics import YOLO

# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format
model.export(format="onnx")

Требуется ли тебе продвинутая сегментация экземпляров, высокоточное определение позы или стандартное детектирование ограничивающих рамок, универсальность фреймворка Ultralytics гарантирует, что твоя команда потратит меньше времени на настройку среды глубокого обучения и больше времени на развертывание надежных ИИ-решений. Благодаря специализированным улучшениям задач, таким как ProgLoss + STAL для улучшенного распознавания мелких объектов, YOLO26 является лучшим выбором для следующего поколения приложений компьютерного зрения.

Комментарии