DAMO-YOLO против YOLOv9: Всестороннее техническое сравнение современных архитектур обнаружения объектов
Ландшафт обнаружения объектов в реальном времени продолжает развиваться стремительными темпами. Поскольку инженерные команды и исследователи стремятся к идеальному балансу точности, скорости вывода и вычислительной эффективности, из исследовательского сообщества вышли две примечательные архитектуры: DAMO-YOLO и YOLOv9. Обе модели представляют значительные архитектурные инновации, направленные на расширение границ возможного в компьютерном зрении.
Это подробное техническое руководство предоставляет углубленный анализ этих двух моделей, сравнивая их уникальные архитектурные подходы, методологии обучения и возможности развертывания в реальных условиях. Мы также рассмотрим, как более широкая программная экосистема играет решающую роль в современной разработке ИИ, подчеркивая преимущества интегрированных платформ, таких как Ultralytics Platform, и моделей нового поколения, таких как YOLO26.
Краткое резюме: Выбор правильной архитектуры
Хотя обе модели представляют собой значимые вехи в исследованиях глубокого обучения, они ориентированы на несколько разные философии развертывания.
DAMO-YOLO превосходно работает в средах, где интенсивный нейронный поиск архитектуры (NAS) может быть использован для достижения специфических профилей производительности, что делает его интересным объектом изучения для кастомизированного развертывания на периферии. Напротив, YOLOv9 сосредоточен на решении информационных узких мест в глубоком обучении, обеспечивая исключительно высокую эффективность параметров.
Однако для готовых к производству развертываний инженерные команды неизменно рекомендуют использовать унифицированную экосистему Ultralytics. Для новых проектов новейшая модель YOLO26 предлагает лучшее из двух миров: передовую точность в сочетании с нативным сквозным дизайном, который устраняет необходимость в сложной постобработке.
Обеспечьте перспективность вашего конвейера компьютерного зрения
Хотя DAMO-YOLO и YOLOv9 являются мощными академическими моделями, их развертывание в производстве часто требует значительных индивидуальных инженерных решений. Использование Ultralytics YOLO26 обеспечивает доступ к передовой производительности с упрощенным и поддерживаемым API.
Технические характеристики и авторство
Понимание истоков и фокуса разработки этих моделей обеспечивает важный контекст для понимания их соответствующих сильных сторон.
DAMO-YOLO
Разработанный исследователями из Alibaba Group, DAMO-YOLO уделяет большое внимание автоматизированной генерации архитектуры и эффективному слиянию признаков.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация:Alibaba Group
- Дата выпуска: 23 ноября 2022
- Статья Arxiv:Исследовательская работа DAMO-YOLO
- Официальный GitHub:Репозиторий tinyvision/DAMO-YOLO
- Документация:DAMO-YOLO README
YOLOv9
Представленный как решение проблемы потери информации в глубоких сверточных сетях, YOLOv9 расширяет теоретические пределы сохранения градиентов во время обучения.
- Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
- Организация:Институт информатики, Academia Sinica, Тайвань
- Дата выпуска: 21 февраля 2024 г.
- Статья Arxiv:Исследовательская работа YOLOv9
- Официальный GitHub:Репозиторий WongKinYiu/yolov9
- Документация:Документация Ultralytics по YOLOv9
Архитектурные инновации
DAMO-YOLO: Обусловленный поиском нейроархитектуры
DAMO-YOLO отличается сильно кастомизированными, машинно-генерируемыми компонентами. Его магистральная сеть (backbone) генерируется с использованием нейронного поиска архитектуры (NAS), специально ориентированного на инференс с низкой задержкой на различном оборудовании.
Архитектура включает эффективную RepGFPN (перепараметризованную обобщенную сеть пирамиды признаков) для слияния признаков, что улучшает обнаружение объектов в нескольких масштабах без чрезмерного увеличения вычислительных затрат. Кроме того, она использует дизайн ZeroHead для упрощения головы обнаружения и применяет AlignedOTA для назначения меток, в сочетании со сложным процессом улучшения дистилляции во время обучения. Хотя эти методы обеспечивают быструю инференцию, многоэтапный процесс дистилляции часто требует значительного объема VRAM и длительного времени обучения.
YOLOv9: Решение проблемы узкого места информации
YOLOv9 решает фундаментальную проблему в глубоких сетях: постепенную потерю информации входных данных по мере их прохождения через последовательные слои.
Для борьбы с этим авторы представили Programmable Gradient Information (PGI) — вспомогательный фреймворк контроля, предназначенный для сохранения критически важных деталей для глубоких слоев, генерирующий высоконадежные градиенты для обновления весов. Вместе с PGI представлена архитектура GELAN (Generalized Efficient Layer Aggregation Network). GELAN оптимизирует эффективность параметров, объединяя преимущества CSPNet и ELAN, максимизируя поток информации при строгом минимизировании операций с плавающей запятой (FLOPs).
Анализ производительности и метрики
При оценке производительности обе модели демонстрируют высокую среднюю точность (mAP) на стандартных бенчмарках, таких как COCO. YOLOv9 достигает более высокой абсолютной точности для эквивалентных размеров моделей, используя свою архитектуру PGI для поддержания высокой точности на сложных наборах данных.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Как показано выше, YOLOv9-E достигает наивысшей точности, в то время как меньшие варианты DAMO-YOLO и YOLOv9 поддерживают высококонкурентные скорости вывода благодаря оптимизациям TensorRT.
Методологии обучения и экосистема
Хотя чистая архитектура важна, удобство использования и эффективность обучения, определяемые экосистемой модели, имеют первостепенное значение для реальных приложений.
Зависимость DAMO-YOLO от дистилляции знаний часто требует обучения громоздкой модели-«учителя» перед передачей знаний целевой модели-«ученику». Этот традиционный исследовательский подход значительно увеличивает требования к памяти и время циклов обучения. Аналогично, оригинальный репозиторий YOLOv9 требует навигации по сложным файлам конфигурации, что может замедлить гибкую разработку.
Напротив, интеграция моделей в платформу Ultralytics полностью преобразует опыт разработчика. Пакет Ultralytics Python абстрагирует шаблонный код, позволяя командам легко выполнять аугментацию данных, настройку гиперпараметров и экспорт моделей.
Реальные приложения и варианты использования
Различные архитектуры, естественно, превосходят в определенных отраслях, исходя из их требований к ресурсам и профилей точности.
- DAMO-YOLO в периферийном ИИ: Благодаря своим оптимизированным с помощью NAS базовым архитектурам, DAMO-YOLO часто исследуется во встраиваемых системах, где аппаратная репараметризация является строгой необходимостью, например, при развертывании специализированных ASIC в базовом контроле качества производства.
- YOLOv9 в прецизионной аналитике: Благодаря высокой параметрической эффективности и сохранению градиента, управляемому PGI, YOLOv9 отлично подходит для сценариев плотного обнаружения объектов, таких как анализ аэрофотоснимков или track крошечных объектов в переполненных розничных средах.
Сценарии использования и рекомендации
Выбор между DAMO-YOLO и YOLOv9 зависит от ваших конкретных требований проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать DAMO-YOLO
DAMO-YOLO — это отличный выбор для:
- Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
- Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.
Когда выбирать YOLOv9
YOLOv9 рекомендуется для:
- Исследования информационного узкого места: Академические проекты, изучающие архитектуры Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
- Исследования по оптимизации потока градиентов: Исследования, направленные на понимание и снижение потери информации в глубоких слоях сети во время обучения.
- Бенчмаркинг обнаружения с высокой точностью: Сценарии, где высокая производительность YOLOv9 в бенчмарке COCO необходима в качестве эталонной точки для архитектурных сравнений.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Преимущество Ultralytics: Переход к YOLO26
Для пользователей, сравнивающих устаревшие архитектуры, переход на современную экосистему Ultralytics — в частности, на новейшие модели YOLO26 — обеспечивает беспрецедентное преимущество.
YOLO26 фундаментально меняет ландшафт развертывания благодаря своей сквозной архитектуре без NMS. Полностью исключая постобработку с подавлением немаксимумов (NMS), он обеспечивает более быстрые и значительно более простые архитектуры развертывания. В сочетании с исключением Distribution Focal Loss (DFL), YOLO26 предлагает превосходную совместимость для периферийных и маломощных устройств.
Кроме того, YOLO26 включает революционный оптимизатор MuSGD — гибрид стохастического градиентного спуска и оптимизаций Muon, вдохновленный инновациями в обучении LLM. Это обеспечивает высокостабильную сходимость обучения при сохранении заметно низкого использования памяти по сравнению с альтернативами, активно использующими трансформеры.
Оптимизированное обучение с YOLO26
Благодаря интуитивно понятному API Ultralytics вы можете обучить современную модель YOLO26 со встроенным отслеживанием экспериментов всего за несколько строк на Python.
from ultralytics import YOLO
# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to ONNX format
model.export(format="onnx")
Независимо от того, требуются ли вам расширенная сегментация экземпляров, высокоточная оценка позы или стандартное обнаружение ограничивающих рамок, универсальность фреймворка Ultralytics гарантирует, что ваша команда тратит меньше времени на настройку сред глубокого обучения и больше времени на развертывание надежных ИИ-решений. Благодаря специализированным улучшениям задач, таким как ProgLoss + STAL для улучшенного распознавания мелких объектов, YOLO26 является лучшим выбором для следующего поколения приложений зрения.