Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO против YOLOv9#

Сфера обнаружения объектов в реальном времени продолжает развиваться стремительными темпами. В то время как инженерные команды и исследователи стремятся достичь идеального баланса между точностью, скоростью вывода и вычислительной эффективностью, в исследовательском сообществе появились две заметные архитектуры: DAMO-YOLO и YOLOv9. Обе модели представляют важные архитектурные инновации, направленные на расширение границ возможного в компьютерном зрении.

Это подробное техническое руководство предоставляет глубокий анализ этих двух моделей, сравнивая их уникальные архитектурные подходы, методологии обучения и возможности развертывания в реальных условиях. Мы также исследуем, как более широкая программная экосистема играет ключевую роль в современной разработке ИИ, подчеркивая преимущества интегрированных платформ, таких как Ultralytics Platform, и моделей нового поколения, таких как YOLO26.

Link to this sectionРезюме: выбор правильной архитектуры#

Хотя обе модели представляют собой значительные вехи в исследованиях глубокого обучения, они ориентированы на несколько разные философии развертывания.

DAMO-YOLO превосходит конкурентов в средах, где можно использовать интенсивный поиск нейронной архитектуры (NAS) для получения специфических профилей производительности, что делает его интересным объектом для изучения при настройке развертывания на периферийных устройствах. Напротив, YOLOv9 делает упор на устранение информационных узких мест в глубоком обучении, обеспечивая исключительно высокую параметрическую эффективность.

Однако для развертывания, готового к производству, инженерные команды неизменно рекомендуют использовать унифицированную экосистему Ultralytics. Для новых проектов новейшая модель YOLO26 предлагает лучшее из обоих миров: современную точность в сочетании с нативным сквозным дизайном, который устраняет необходимость в сложной постобработке.

Обеспечь будущее своего конвейера компьютерного зрения

Хотя DAMO-YOLO и YOLOv9 являются мощными академическими моделями, их развертывание в производстве часто требует значительной инженерной настройки. Использование Ultralytics YOLO26 предоставляет доступ к передовой производительности с оптимизированным и удобным в обслуживании API.

Link to this sectionТехнические характеристики и авторство#

Понимание происхождения и направленности разработки этих моделей дает важный контекст для оценки их соответствующих сильных сторон.

Link to this sectionDAMO-YOLO#

Разработанная исследователями Alibaba Group, DAMO-YOLO делает значительный акцент на автоматизированной генерации архитектуры и эффективном слиянии признаков.

Узнай больше о DAMO-YOLO

Link to this sectionYOLOv9#

Представленная как решение проблемы потери информации в глубоких сверточных сетях, YOLOv9 раздвигает теоретические границы сохранения градиентов во время обучения.

Узнай больше о YOLOv9

Link to this sectionАрхитектурные инновации#

Link to this sectionDAMO-YOLO: на основе поиска нейронной архитектуры#

DAMO-YOLO выделяется благодаря глубоко настроенным, сгенерированным машиной компонентам. Его основа (backbone) создается с помощью поиска нейронной архитектуры (NAS), нацеленного на низкую задержку вывода на различном оборудовании.

Архитектура оснащена эффективной сетью RepGFPN (перепараметризованная обобщенная пирамида признаков) для слияния признаков, что улучшает обнаружение объектов в разных масштабах без чрезмерного увеличения вычислительной нагрузки. Кроме того, она использует дизайн ZeroHead для упрощения головы детектора и применяет AlignedOTA для присвоения меток в сочетании с усовершенствованным процессом дистилляции во время обучения. Хотя эти методы обеспечивают быстрый вывод, многоэтапный процесс дистилляции часто требует значительного объема видеопамяти и длительного времени обучения.

Link to this sectionYOLOv9: Решение проблемы информационного узкого места#

YOLOv9 решает фундаментальную проблему глубоких сетей: постепенную потерю информации о входных данных при прохождении через последовательные слои.

Для борьбы с этим авторы представили Programmable Gradient Information (PGI), вспомогательную систему контроля, разработанную для сохранения важных деталей для глубоких слоев, генерирующую высоконадежные градиенты для обновления весов. В дополнение к PGI используется архитектура GELAN (Generalized Efficient Layer Aggregation Network). GELAN оптимизирует параметрическую эффективность, объединяя сильные стороны CSPNet и ELAN, максимизируя поток информации при строгом минимизировании операций с плавающей запятой (FLOPs).

Link to this sectionАнализ производительности и метрики#

При оценке производительности обе модели демонстрируют высокую среднюю точность (mAP) на стандартных эталонах, таких как COCO. YOLOv9 достигает более высокой абсолютной точности для моделей эквивалентного размера, используя свою архитектуру PGI для поддержания высокой точности на сложных наборах данных.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Как показано выше, YOLOv9-E достигает наивысшей точности, в то время как меньшие варианты DAMO-YOLO и YOLOv9 поддерживают весьма конкурентоспособную скорость вывода благодаря оптимизациям TensorRT.

Link to this sectionМетодологии обучения и экосистема#

Хотя сама архитектура важна, удобство использования и эффективность обучения, диктуемые экосистемой модели, имеют первостепенное значение для реального применения.

Зависимость DAMO-YOLO от дистилляции знаний часто требует обучения громоздкой модели-«учителя» перед переносом знаний в целевую модель-«ученик». Этот традиционный исследовательский подход значительно увеличивает требования к памяти и время циклов обучения. Аналогично, оригинальный репозиторий YOLOv9 требует навигации по сложным конфигурационным файлам, что может замедлить гибкую разработку.

Напротив, интеграция моделей в Ultralytics Platform полностью меняет опыт разработчика. Пакет Ultralytics Python абстрагирует шаблонный код, позволяя командам без усилий справляться с аугментацией данных, настройкой гиперпараметров и экспортом моделей.

Link to this sectionРеальные применения и варианты использования#

Различные архитектуры естественным образом превосходят другие в определенных отраслях, исходя из требований к ресурсам и профилей точности.

  • DAMO-YOLO в Edge AI: Благодаря своим оптимизированным с помощью NAS основам (backbones), DAMO-YOLO часто исследуется во встроенных системах, где аппаратная перепараметризация является строгой необходимостью, например, при развертывании пользовательских ASIC в базовом контроле качества производства.
  • YOLOv9 в прецизионной аналитике: Благодаря высокой параметрической эффективности и сохранению градиентов на основе PGI, YOLOv9 отлично подходит для сценариев плотного обнаружения объектов, таких как анализ аэрофотоснимков или отслеживание крошечных объектов в многолюдных торговых средах.

Link to this sectionСценарии использования и рекомендации#

Выбор между DAMO-YOLO и YOLOv9 зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Link to this sectionКогда выбирать DAMO-YOLO#

DAMO-YOLO — сильный выбор для:

  • Высокопроизводительной видеоаналитики: обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при batch-1 является основной метрикой.
  • Промышленных производственных линий: сценариев с жесткими ограничениями по задержке GPU на специализированном оборудовании, таких как проверка качества в реальном времени на сборочных линиях.
  • Исследований Neural Architecture Search: изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкендов на производительность детекции.

Link to this sectionКогда стоит выбрать YOLOv9#

YOLOv9 рекомендуется для:

  • Исследований информационных узких мест: Академические проекты по изучению архитектур Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
  • Изучения оптимизации потока градиентов: Исследования, направленные на понимание и смягчение потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинга обнаружения высокой точности: Сценарии, где высокие показатели производительности YOLOv9 в бенчмарке COCO необходимы в качестве точки отсчета для архитектурных сравнений.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

  • Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
  • Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
  • Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionПреимущество Ultralytics: переход на YOLO26#

Для пользователей, сравнивающих устаревшие архитектуры, переход на современную экосистему Ultralytics — в частности, на последние модели YOLO26 — предоставляет непревзойденное преимущество.

YOLO26 фундаментально меняет ландшафт развертывания благодаря своему сквозному дизайну без NMS. Полностью исключая постобработку Non-Maximum Suppression (NMS), он обеспечивает более быстрые и значительно более простые архитектуры развертывания. В сочетании с удалением Distribution Focal Loss (DFL), YOLO26 предлагает превосходную совместимость для периферийных и маломощных устройств.

Более того, YOLO26 включает революционный оптимизатор MuSGD, гибрид стохастического градиентного спуска и оптимизаций Muon, вдохновленный инновациями в обучении LLM. Это обеспечивает высокую стабильность сходимости обучения при сохранении удивительно низкого использования памяти по сравнению с альтернативами, перегруженными трансформерами.

Оптимизированное обучение с YOLO26

Благодаря интуитивно понятному API Ultralytics, ты можешь обучить современную модель YOLO26 со встроенным отслеживанием экспериментов всего за несколько строк на Python.

from ultralytics import YOLO

# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format
model.export(format="onnx")

Независимо от того, требуется ли тебе расширенная сегментация экземпляров, высокоточное оценка позы или стандартное обнаружение ограничивающих рамок, универсальность фреймворка Ultralytics гарантирует, что твоя команда будет тратить меньше времени на настройку среды глубокого обучения и больше времени на развертывание надежных ИИ-решений. Благодаря специализированным улучшениям задач, таким как ProgLoss + STAL для расширенного распознавания мелких объектов, YOLO26 является главным выбором для следующего поколения приложений компьютерного зрения.

Участники

Комментарии