Перейти к содержанию

DAMO-YOLO против YOLOv6-3.0: техническое сравнение

Выбор идеальной архитектуры object detection является ключевым решением для инженеров в области компьютерного зрения, часто требующим тщательного баланса между точностью, задержкой при выводе и аппаратными ограничениями. В этом руководстве представлен всесторонний технический анализ, сравнивающий DAMO-YOLO, высокоточную модель от Alibaba Group, и YOLOv6-3.0, ориентированную на эффективность структуру от Meituan.

Мы рассматриваем их архитектурные инновации, эталонную производительность на стандартных наборах данных и пригодность для реального развертывания. Кроме того, мы изучаем, как Ultralytics YOLO11 предлагает современную, универсальную альтернативу для разработчиков, ищущих унифицированное решение.

Обзор DAMO-YOLO

DAMO-YOLO — это передовой метод обнаружения объектов, разработанный Alibaba Group. Он уделяет первоочередное внимание компромиссу между скоростью и точностью, включая Neural Architecture Search (NAS) и несколько новых модулей, предназначенных для устранения вычислительных узких мест.

Авторы: Сяньчжэ Сюй, Йици Цзян, Вэйхуа Чэнь, Йилунь Хуан, Юань Чжан и Сюю Сунь
Организация:Alibaba Group
Дата: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Документация:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

Архитектура и ключевые особенности

DAMO-YOLO представляет стратегию масштабирования "Tiny-to-Large", поддерживаемую уникальным архитектурным дизайном. Ключевые компоненты включают:

  • Бэкбоны MAE-NAS: Используя поиск нейронной архитектуры (NAS), модель использует бэкбоны MazeNet, которые структурно различаются, чтобы максимизировать эффективность извлечения признаков при различных вычислительных ресурсах.
  • Эффективный RepGFPN: Обобщенная пирамида признаков (GFPN), улучшенная с помощью повторной параметризации (Rep), обеспечивает превосходное многомасштабное слияние признаков. Эта конструкция гарантирует эффективное объединение пространственной информации низкого уровня и семантической информации высокого уровня без значительных затрат на задержку.
  • ZeroHead: минималистичная конструкция головки обнаружения ("ZeroHead"), которая значительно сокращает количество параметров. Благодаря эффективному разделению задач классификации и регрессии она сохраняет высокую производительность при одновременном упрощении конечных слоев предсказания.
  • AlignedOTA: Продвинутая стратегия назначения меток, которая устраняет рассогласования между оценками классификации и регрессии IoU (Intersection over Union), гарантируя, что модель фокусируется на высококачественных привязках во время обучения.

Сильные и слабые стороны

DAMO-YOLO превосходно проявляет себя в сценариях, где критически важно выжать каждый процентный пункт mAP.

  • Преимущества:

    • Высокая точность: Часто превосходит сопоставимые модели по mAP для малых и средних размеров благодаря своей NAS-оптимизированной магистральной сети.
    • Инновационный дизайн: Концепция ZeroHead снижает высокую вычислительную нагрузку, обычно встречающуюся в detection heads.
    • Эффективная дистилляция: Включает надежный механизм дистилляции (Knowledge Distillation), который улучшает производительность небольших моделей-учеников с использованием более крупных сетей-учителей.
  • Минусы:

    • Сложная архитектура: Использование NAS-сгенерированных backbones может затруднить настройку или отладку архитектуры по сравнению со стандартными конструкциями на основе CSP.
    • Ограниченная экосистема: Как исследовательский релиз, он не имеет широкой интеграции сторонних инструментов, как в более широких экосистемах.
    • Изменчивость задержки (Latency Variability): Хотя NAS-структуры оптимизированы, они не всегда идеально соответствуют конкретным аппаратным ускорителям, как это делают стандартные CNN.

Идеальные варианты использования

  • Наблюдение в умном городе: Где требуется высокая точность для обнаружения небольших объектов, таких как пешеходы или транспортные средства, на расстоянии.
  • Автоматизированный контроль качества: Выявление незначительных дефектов на производственных линиях, где точность имеет первостепенное значение.

Узнайте больше о DAMO-YOLO

YOLOv6-3.0 Обзор

YOLOv6-3.0 — это третья итерация фреймворка YOLOv6, разработанного компанией Meituan. Он разработан специально для промышленных приложений, с акцентом на высокую пропускную способность на GPU и простоту развертывания.

Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
Организация:Meituan
Дата: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHub:https://github.com/meituan/YOLOv6
Документация:https://docs.ultralytics.com/models/yolov6/

Архитектура и ключевые особенности

YOLOv6-3.0 ориентирован на аппаратные конструкции, которые максимизируют использование GPU:

  • EfficientRep Backbone: Backbone использует репараметризуемые блоки, которые конденсируют сложные структуры времени обучения в простые свертки 3x3 для вывода, повышая скорость на оборудовании, таком как NVIDIA TensorRT.
  • Rep-PAN Neck: Архитектура neck обеспечивает баланс между возможностями объединения признаков и эффективностью оборудования, гарантируя плавный поток данных через сеть без узких мест.
  • Двунаправленное объединение (BiC): Повышает точность локализации, улучшая способ агрегирования признаков в разных масштабах.
  • Обучение с использованием якорей (AAT): Гибридная стратегия, которая сочетает в себе преимущества anchor-based и anchor-free парадигм на этапе обучения для стабилизации сходимости и повышения конечной точности.

Сильные и слабые стороны

YOLOv6-3.0 — это мощный инструмент для промышленных сред, требующих стандартного развертывания GPU.

  • Преимущества:

    • Скорость инференса: Параметр nano вариант исключительно быстр, что делает его идеальным для задач, требующих высокой частоты кадров (FPS).
    • Аппаратная оптимизация: Разработан специально для пропускной способности GPU, хорошо работает с quantization TensorRT.
    • Упрощенное развертывание: Повторная параметризация упрощает итоговый граф, уменьшая проблемы совместимости во время экспорта.
  • Минусы:

    • Сосредоточенность на одной задаче: В основном способна detectировать объекты, не имея встроенной поддержки segmentации или оценки позы в основном репозитории по сравнению с многозадачными фреймворками.
    • Эффективность параметров: Более крупные варианты могут быть более тяжелыми с точки зрения параметров по сравнению с некоторыми конкурентами для аналогичного повышения точности.

Идеальные варианты использования

  • Промышленная автоматизация: Высокоскоростная сортировка и проверка сборки на производственных линиях.
  • Аналитика розничной торговли:Вывод в реальном времени для мониторинга полок и анализа поведения клиентов.
  • Периферийные вычисления: Развертывание облегченных моделей, таких как YOLOv6-Lite, на мобильных или встроенных устройствах.

Узнайте больше о YOLOv6

Анализ производительности

В приведенном ниже сравнении показана производительность обеих моделей на наборе данных COCO. Метрики фокусируются на валидации mAP (Mean Average Precision) при IoU 0.5-0.95, скорости инференса на GPU T4 с использованием TensorRT и сложности модели (параметры и FLOPs).

Анализ производительности

YOLOv6-3.0n выделяется как чемпион скорости, предлагая инференс менее 2 мс, что делает ее идеальной для приложений, чувствительных к задержкам. Однако модели DAMO-YOLO (в частности, Small и Medium варианты) часто достигают более высоких показателей mAP, чем их аналоги YOLOv6, демонстрируя высокую архитектурную эффективность, полученную от их NAS backbones.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Преимущество Ultralytics

Несмотря на то, что DAMO-YOLO и YOLOv6-3.0 предлагают убедительные функции для конкретных ниш, Ultralytics YOLO11 представляет собой целостную эволюцию в области ИИ для компьютерного зрения. Разработанная для разработчиков, которым нужно больше, чем просто модель обнаружения, YOLO11 объединяет современную производительность с непревзойденным пользовательским опытом.

Почему стоит выбрать Ultralytics YOLO?

  • Унифицированная экосистема: В отличие от отдельных исследовательских репозиториев, Ultralytics предоставляет комплексную платформу. От аннотации данных до обучения и развертывания моделей, рабочий процесс выполняется без проблем. Активное сообщество на GitHub и Discord гарантирует, что вы никогда не будете разрабатывать в изоляции.
  • Непревзойденная универсальность: Единая архитектура модели YOLO11 поддерживает широкий спектр задач компьютерного зрения, включая Object Detection, Instance Segmentation, Pose Estimation, Oriented Bounding Box (OBB) и Classification. Эта гибкость позволяет решать сложные проекты без переключения фреймворков.
  • Эффективность обучения: Модели Ultralytics оптимизированы для эффективности обучения, часто требуя значительно меньше памяти GPU, чем альтернативы на основе трансформеров. Такие функции, как автоматическое определение размера пакета и обучение со смешанной точностью (AMP), включены по умолчанию, что упрощает путь от данных к развертыванию.
  • Простота использования: Python API разработан для простоты. Вы можете загрузить предварительно обученную модель, запустить вывод на изображении и экспортировать ее в такие форматы, как ONNX или TensorRT, всего в несколько строк кода.
from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export the model to ONNX format for deployment
model.export(format="onnx")

Заключение

Для проектов, строго требующих максимальной пропускной способности на промышленных GPU, YOLOv6-3.0 является сильным претендентом. Если вы сосредоточены на максимизации точности в рамках определенного бюджета параметров с использованием NAS, DAMO-YOLO - отличный вариант исследовательского уровня.

Однако, для подавляющего большинства коммерческих и исследовательских приложений Ultralytics YOLO11 предлагает наилучший баланс производительности, удобства использования и долгосрочной поддержки. Его способность обрабатывать несколько задач в сочетании с надежной и хорошо поддерживаемой экосистемой делает его рекомендуемым выбором для создания масштабируемых решений в области компьютерного зрения.

Изучите другие модели

Расширьте свое понимание ландшафта detect объектов, изучив эти другие подробные сравнения:


Комментарии