DAMO-YOLO против Ultralytics YOLOv8: всестороннее техническое сравнение

Ландшафт компьютерного зрения в реальном времени постоянно меняется, поскольку исследователи и инженеры раздвигают границы скорости и точности. Двумя важными вехами на этом пути являются DAMO-YOLO и Ultralytics YOLOv8. Хотя обе модели нацелены на оптимизацию баланса между задержкой и средним показателем точности (mAP), они используют принципиально разные архитектурные и философские подходы к решению задач детекции объектов.

Этот подробный технический разбор сравнит их внутренние архитектуры, методологии обучения и практическое развертывание, чтобы помочь тебе выбрать правильный инструмент для твоего следующего проекта в области искусственного интеллекта.

Происхождение моделей и спецификации

Понимание происхождения этих моделей глубокого обучения дает ценный контекст относительно их целей проектирования и экосистем развертывания.

Подробности DAMO-YOLO

Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: tinyvision/DAMO-YOLO

Узнай больше о DAMO-YOLO

Детали Ultralytics YOLOv8

Авторы: Гленн Джочер, Аюш Чаурасия и Цзин Цю
Организация: Ultralytics
Дата: 2023-01-10
GitHub: ultralytics/ultralytics
Документация: Документация YOLOv8

Узнай больше о YOLOv8

Архитектурные инновации

Характеристики производительности обеих архитектур вытекают из их уникальных структурных решений.

DAMO-YOLO: на основе поиска архитектуры

DAMO-YOLO в значительной степени опирается на нейронный архитектурный поиск (NAS) для автоматического обнаружения оптимальных структур сети. В ней представлена концепция под названием MAE-NAS, которая ищет бэкбоны, обеспечивающие высокую производительность при низкой задержке. Кроме того, она использует эффективную RepGFPN (репараметризованную обобщенную пирамиду признаков) для улучшения слияния признаков в разных пространственных масштабах.

Чтобы улучшить обучение, команда Alibaba внедрила дизайн ZeroHead и назначение меток AlignedOTA. Кроме того, они сильно опираются на сложный процесс дистилляции знаний, где тяжелая модель-учитель направляет легкую модель-ученика, добиваясь более высоких показателей точности на академических бенчмарках.

YOLOv8: оптимизированная и универсальная

Ultralytics применила к YOLOv8 подход, ориентированный на разработчика. Она перешла от дизайна на основе якорей YOLOv5 к архитектуре без якорей, что значительно сократило количество предсказаний ограничивающих рамок и ускорило инференс. Внедрение модуля C2f (Cross-Stage Partial Bottleneck с 2 свертками) улучшило поток градиентов и представление признаков без добавления избыточных вычислительных затрат.

В отличие от моделей, строго ориентированных на ограничивающие рамки, YOLOv8 была спроектирована с нуля как мультимодальная. Единая кодовая база PyTorch нативно поддерживает сегментацию экземпляров, оценку поз и классификацию изображений, избавляя инженеров от необходимости собирать воедино разрозненные репозитории.

Эффективное обучение

Модели Ultralytics по своей сути требуют меньше памяти во время обучения по сравнению с тяжелыми архитектурами на основе Transformer, что позволяет добиваться современных результатов на стандартных потребительских GPU.

Сравнение производительности

При сравнении «сырых» метрик важно проанализировать, как теоретические возможности соотносятся с производительностью оборудования. В таблице ниже показаны компромиссы между размерами моделей.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Хотя DAMO-YOLO демонстрирует хорошие соотношения параметров к точности благодаря методам дистилляции, YOLOv8 предлагает более широкий спектр размеров моделей (от Nano до Extra-large). Модель YOLOv8 Nano представляет собой мастер-класс по оптимизации для граничных устройств, потребляя меньше ресурсов и обеспечивая при этом высокую практическую точность.

Экосистема и опыт разработчика

Настоящим отличием академических работ от систем, готовых к промышленному использованию, является экосистема.

Зависимость DAMO-YOLO от обширных конвейеров дистилляции знаний может сделать кастомное обучение громоздким. Создание модели-учителя, передача знаний и настройка бэкбонов на основе NAS требуют большого объема памяти CUDA и сложной конфигурации, что часто замедляет работу гибких инженерных команд.

Напротив, экосистема Ultralytics делает упор на простоту использования. Через платформу Ultralytics разработчики получают доступ к простым API, исчерпывающей документации и надежным интеграциям для отслеживания экспериментов. Единый фреймворк на Python делает создание сложных конвейеров тривиальной задачей.

from ultralytics import YOLO

# Load a pretrained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on a custom dataset with built-in augmentations
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Этот оптимизированный рабочий процесс в сочетании с бесшовным экспортом в OpenVINO и TensorRT обеспечивает беспрепятственный переход от локального прототипирования к развертыванию в облаке или на граничных устройствах.

Реальные приложения и идеальные сценарии использования

Выбор между этими архитектурами часто сводится к эксплуатационным ограничениям твоей среды.

Где уместна DAMO-YOLO

DAMO-YOLO — отличный выбор для академических сред, изучающих нейронный архитектурный поиск, или для исследователей, пытающихся воспроизвести сложные стратегии репараметризации. Она также может превосходно работать в высококонтролируемых промышленных приложениях, таких как высокоскоростное обнаружение дефектов на производственных линиях, при условии, что у команды есть вычислительные ресурсы для выполнения многоэтапного обучения.

Почему Ultralytics лидирует в продакшене

Для подавляющего большинства коммерческих проектов модели Ultralytics обеспечивают превосходный баланс производительности.

  • Умная розница: Использование возможностей YOLOv8 для решения нескольких задач одновременно, например, детекции ограничивающих рамок для инвентаризации и оценки позы для анализа поведения покупателей.
  • Сельское хозяйство: Применение сегментации экземпляров для точного определения границ растений и сорняков в режиме реального времени на базе видеопотоков с тракторов.
  • Аэрофотосъемка: Использование ориентированных ограничивающих рамок (OBB) для точного отслеживания повернутых транспортных средств и судов с дронов или спутников.
Другие примечательные модели

Если ты исследуешь более широкий ландшафт, тебе также может быть интересно сравнить YOLOv10 или YOLO11, которые приносят дальнейшие улучшения в детекцию без якорей.

Готовность к будущему: YOLO26

Хотя YOLOv8 остается базовой моделью, область продолжает развиваться. Для всех новых разработок YOLO26 является рекомендуемым стандартом. Выпущенная в январе 2026 года, она представляет собой монументальный скачок в линейке Ultralytics.

YOLO26 является пионером нативного end-to-end дизайна без NMS, полностью устраняя традиционное узкое место в виде немаксимального подавления (Non-Maximum Suppression). Этот структурный прорыв обеспечивает до 43% более быстрый инференс на CPU, что делает ее абсолютной мощной платформой для периферийных вычислений и оборудования IoT.

Более того, YOLO26 представляет MuSGD Optimizer, гибрид, вдохновленный методами обучения больших языковых моделей (LLM), который гарантирует более быструю сходимость и высокостабильные циклы обучения. В сочетании с новыми алгоритмами ProgLoss + STAL, YOLO26 демонстрирует значительные улучшения в распознавании мелких объектов, гарантируя, что твое развертывание будет не только быстрым, но и бескомпромиссно точным.

Узнай больше о YOLO26

Комментарии