Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 против DAMO-YOLO#

Быстрое развитие компьютерного зрения привело к появлению множества мощных архитектур, адаптированных для различных ограничений развертывания и требований к точности. Двумя примечательными участниками в этой области являются YOLOv9, известный своим эффективным устранением «узких мест» в передаче информации, и DAMO-YOLO, который делает основной упор на Neural Architecture Search (NAS) и эффективные пирамиды признаков.

Это руководство представляет собой углубленное техническое сравнение YOLOv9 и DAMO-YOLO, освещающее их архитектурные различия, методологии обучения и идеальные сценарии развертывания. Мы также рассмотрим, как экосистема Ultralytics обеспечивает плавный путь от разработки до продакшена, и почему современные модели, такие как YOLO26, стали рекомендуемым стандартом для новых проектов.

Link to this sectionГлубокое изучение архитектуры#

Понимание основных механизмов, лежащих в основе каждой модели, раскрывает причины их различной производительности в разных метриках.

Link to this sectionYOLOv9: программируемая градиентная информация#

Модель YOLOv9 была разработана для прямого решения проблемы потери информации, которая возникает при прохождении данных через глубокие нейронные сети.

Авторы: Chien-Yao Wang, Hong-Yuan Mark Liao
Организация: Institute of Information Science, Academia Sinica, Тайвань
Дата: 21 февраля 2024 г.
Ссылки: Arxiv, GitHub, Документация

Узнай больше о YOLOv9

YOLOv9 представляет Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI гарантирует, что жизненно важная пространственная и семантическая информация сохраняется в процессе прямого прохода, предотвращая деградацию градиентов, используемых для обновления весов. GELAN дополняет это, максимизируя эффективность параметров, что позволяет модели достигать передовых показателей mean Average Precision (mAP) при меньшем количестве FLOPs, чем у многих обычных CNN.

Link to this sectionDAMO-YOLO: эффективность на базе NAS#

Разработанная Alibaba Group, модель DAMO-YOLO использует другой подход, полагаясь на автоматизированный поиск архитектуры для нахождения оптимального баланса между скоростью и точностью.

Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 23 ноября 2022 г.
Ссылки: Arxiv, GitHub

Узнай больше о DAMO-YOLO

DAMO-YOLO полагается на бэкбон MAE-NAS (Masked Autoencoders for Neural Architecture Search) для автоматического создания эффективных структур сети. Она использует RepGFPN (Reparameterized Generalized Feature Pyramid Network) для надежного объединения признаков и дизайн "ZeroHead" для минимизации вычислительной нагрузки на детектирующую голову. Кроме того, она включает AlignedOTA для назначения меток и дистилляцию знаний, чтобы повысить производительность своих меньших вариантов.

Роль NAS в компьютерном зрении

Neural Architecture Search (NAS) автоматизирует проектирование искусственных нейронных сетей. Хотя он может создавать высокоэффективные модели, такие как DAMO-YOLO, для поиска в пространстве архитектур часто требуются огромные вычислительные ресурсы, что контрастирует с более детерминированной философией проектирования моделей типа YOLOv9.

Link to this sectionСравнение производительности и метрик#

При выборе модели обнаружения объектов критически важно сбалансировать точность, скорость и вычислительную нагрузку.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Link to this sectionАнализ#

  • Точность против параметров: YOLOv9, как правило, демонстрирует лучшее соотношение параметров к точности. Например, YOLOv9c достигает 53.0% mAP с 25.3M параметров, в то время как DAMO-YOLOl достигает 50.8% mAP, но требует значительно больше параметров (42.1M).
  • Скорость вывода: Архитектура DAMO-YOLO обеспечивает конкурентоспособную скорость вывода TensorRT на графических процессорах T4, немного опережая YOLOv9 в средних сегментах. Однако эффективность YOLOv9 в плане FLOPs и количества параметров приводит к исключительной эффективности использования памяти GPU.
  • Требования к памяти: Модели Ultralytics YOLO, включая YOLOv9, как правило, используют меньше памяти как во время обучения, так и при выводе по сравнению со сложными моделями, созданными с помощью NAS, или тяжелыми архитектурами Transformer, что делает их легко доступными для развертывания на ограниченном периферийном (edge) оборудовании.

Link to this sectionПреимущества экосистемы Ultralytics#

Хотя теоретические показатели важны, практическая реализация во многом определяет успех проекта. Именно здесь платформа Ultralytics и ее всеобъемлющая экосистема программного обеспечения превосходят отдельные репозитории, такие как DAMO-YOLO.

Link to this sectionПростота использования и эффективность обучения#

Для обучения пользовательской модели YOLOv9 требуется минимум шаблонного кода. Ultralytics Python API абстрагирует сложные процессы, такие как аугментация данных, распределенное обучение и аппаратная оптимизация.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

И наоборот, использование DAMO-YOLO часто требует работы с жесткими конфигурационными файлами и сложными цепочками зависимостей, характерными для ее уникального конвейера обучения, что приводит к более высокому порогу вхождения.

Link to this sectionУниверсальность в задачах#

Отличительной чертой моделей Ultralytics является их присущая им универсальность. Помимо стандартного обнаружения ограничивающих рамок, фреймворк Ultralytics легко поддерживает такие задачи, как сегментация экземпляров, оценка позы, классификация изображений и обнаружение ориентированных ограничивающих рамок (OBB). DAMO-YOLO строго оптимизирована для 2D-обнаружения объектов, что требует значительной переработки для адаптации к другим визуальным задачам.

Экспорт на периферийные устройства

Ultralytics упрощает процесс развертывания, предлагая экспорт моделей в один клик в такие форматы, как TensorRT, OpenVINO и CoreML, обеспечивая максимальную производительность независимо от целевого оборудования.

Link to this sectionСценарии использования и рекомендации#

Выбор между YOLOv9 и DAMO-YOLO зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.

Link to this sectionКогда стоит выбрать YOLOv9#

YOLOv9 — отличный выбор для:

  • Исследований информационных узких мест: Академические проекты по изучению архитектур Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
  • Изучения оптимизации потока градиентов: Исследования, направленные на понимание и смягчение потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинга обнаружения высокой точности: Сценарии, где высокие показатели производительности YOLOv9 в бенчмарке COCO необходимы в качестве точки отсчета для архитектурных сравнений.

Link to this sectionКогда выбирать DAMO-YOLO#

DAMO-YOLO рекомендуется для:

  • Высокопроизводительной видеоаналитики: обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при batch-1 является основной метрикой.
  • Промышленных производственных линий: сценариев с жесткими ограничениями по задержке GPU на специализированном оборудовании, таких как проверка качества в реальном времени на сборочных линиях.
  • Исследований Neural Architecture Search: изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкендов на производительность детекции.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

  • Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
  • Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
  • Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionБудущее: переход на YOLO26#

Хотя YOLOv9 и DAMO-YOLO представляют собой важные исторические вехи, современное компьютерное зрение перешло к нативно сквозным (end-to-end) архитектурам. Для любой новой разработки YOLO26 является рекомендуемым стандартом.

Выпущенная в 2026 году, YOLO26 развивает успехи своих предшественников, предлагая скачок как в точности, так и в простоте развертывания.

Link to this sectionКлючевые инновации YOLO26#

  • Сквозной дизайн без NMS: YOLO26 полностью исключает постобработку Non-Maximum Suppression (NMS). Это создает оптимизированный конвейер развертывания, который является нативно сквозным — прорыв, впервые реализованный в YOLOv10.
  • Удаление DFL: Distribution Focal Loss была удалена для упрощения экспорта и улучшения совместимости с периферийными/маломощными устройствами.
  • До 43% более быстрый вывод на CPU: Благодаря устранению сложной постобработки и оптимизации основных сверток, YOLO26 уникально подходит для сценариев периферийных вычислений, где отсутствуют выделенные GPU.
  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM, YOLO26 использует гибрид SGD и Muon (MuSGD), чтобы гарантировать более стабильный процесс обучения и заметно более быстрое время сходимости.
  • ProgLoss + STAL: Эти передовые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов, что делает YOLO26 идеальным для аэрофотосъемки с большой высоты и устройств IoT.

Если ты сейчас рассматриваешь YOLO11 или YOLOv8 для своего следующего проекта, обновление до YOLO26 гарантирует, что ты используешь самый оптимизированный и передовой фреймворк компьютерного зрения из доступных сегодня.

Link to this sectionРезюме#

Выбор правильной модели зависит от твоих конкретных эксплуатационных ограничений:

  • DAMO-YOLO предлагает захватывающий взгляд на оптимизацию с помощью NAS, обеспечивая конкурентоспособную скорость для очень специфических аппаратных профилей, где блистает ее архитектура RepGFPN.
  • YOLOv9 — отличный выбор для исследователей, сосредоточенных на сохранении тонких визуальных деталей, использующих архитектуру PGI для предотвращения потери информации в глубоких сетях.
  • Ultralytics YOLO26 является окончательным выбором для современных корпоративных и исследовательских приложений. Ее непревзойденная простота использования, архитектура без NMS и передовые оптимизации обучения MuSGD делают ее самой надежной, точной и легко развертываемой моделью в области компьютерного зрения.
Контрибьюторы

Комментарии