DAMO-YOLO против YOLOv6-3.0: техническое сравнение
Выбор идеальной архитектуры object detection является ключевым решением для инженеров в области компьютерного зрения, часто требующим тщательного баланса между точностью, задержкой при выводе и аппаратными ограничениями. В этом руководстве представлен всесторонний технический анализ, сравнивающий DAMO-YOLO, высокоточную модель от Alibaba Group, и YOLOv6-3.0, ориентированную на эффективность структуру от Meituan.
Мы рассматриваем их архитектурные инновации, эталонную производительность на стандартных наборах данных и пригодность для реального развертывания. Кроме того, мы изучаем, как Ultralytics YOLO11 предлагает современную, универсальную альтернативу для разработчиков, ищущих унифицированное решение.
Обзор DAMO-YOLO
DAMO-YOLO — это передовой метод обнаружения объектов, разработанный Alibaba Group. Он уделяет первоочередное внимание компромиссу между скоростью и точностью, включая Neural Architecture Search (NAS) и несколько новых модулей, предназначенных для устранения вычислительных узких мест.
Авторы: Сяньчжэ Сюй, Йици Цзян, Вэйхуа Чэнь, Йилунь Хуан, Юань Чжан и Сюю Сунь
Организация:Alibaba Group
Дата: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Документация:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Архитектура и ключевые особенности
DAMO-YOLO представляет стратегию масштабирования "Tiny-to-Large", поддерживаемую уникальным архитектурным дизайном. Ключевые компоненты включают:
- Бэкбоны MAE-NAS: Используя поиск нейронной архитектуры (NAS), модель использует бэкбоны MazeNet, которые структурно различаются, чтобы максимизировать эффективность извлечения признаков при различных вычислительных ресурсах.
- Эффективный RepGFPN: Обобщенная пирамида признаков (GFPN), улучшенная с помощью повторной параметризации (Rep), обеспечивает превосходное многомасштабное слияние признаков. Эта конструкция гарантирует эффективное объединение пространственной информации низкого уровня и семантической информации высокого уровня без значительных затрат на задержку.
- ZeroHead: минималистичная конструкция головки обнаружения ("ZeroHead"), которая значительно сокращает количество параметров. Благодаря эффективному разделению задач классификации и регрессии она сохраняет высокую производительность при одновременном упрощении конечных слоев предсказания.
- AlignedOTA: Продвинутая стратегия назначения меток, которая устраняет рассогласования между оценками классификации и регрессии IoU (Intersection over Union), гарантируя, что модель фокусируется на высококачественных привязках во время обучения.
Сильные и слабые стороны
DAMO-YOLO превосходно проявляет себя в сценариях, где критически важно выжать каждый процентный пункт mAP.
Преимущества:
- Высокая точность: Часто превосходит сопоставимые модели по mAP для малых и средних размеров благодаря своей NAS-оптимизированной магистральной сети.
- Инновационный дизайн: Концепция ZeroHead снижает высокую вычислительную нагрузку, обычно встречающуюся в detection heads.
- Эффективная дистилляция: Включает надежный механизм дистилляции (Knowledge Distillation), который улучшает производительность небольших моделей-учеников с использованием более крупных сетей-учителей.
Минусы:
- Сложная архитектура: Использование NAS-сгенерированных backbones может затруднить настройку или отладку архитектуры по сравнению со стандартными конструкциями на основе CSP.
- Ограниченная экосистема: Как исследовательский релиз, он не имеет широкой интеграции сторонних инструментов, как в более широких экосистемах.
- Изменчивость задержки (Latency Variability): Хотя NAS-структуры оптимизированы, они не всегда идеально соответствуют конкретным аппаратным ускорителям, как это делают стандартные CNN.
Идеальные варианты использования
- Наблюдение в умном городе: Где требуется высокая точность для обнаружения небольших объектов, таких как пешеходы или транспортные средства, на расстоянии.
- Автоматизированный контроль качества: Выявление незначительных дефектов на производственных линиях, где точность имеет первостепенное значение.
YOLOv6-3.0 Обзор
YOLOv6-3.0 — это третья итерация фреймворка YOLOv6, разработанного компанией Meituan. Он разработан специально для промышленных приложений, с акцентом на высокую пропускную способность на GPU и простоту развертывания.
Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
Организация:Meituan
Дата: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHub:https://github.com/meituan/YOLOv6
Документация:https://docs.ultralytics.com/models/yolov6/
Архитектура и ключевые особенности
YOLOv6-3.0 ориентирован на аппаратные конструкции, которые максимизируют использование GPU:
- EfficientRep Backbone: Backbone использует репараметризуемые блоки, которые конденсируют сложные структуры времени обучения в простые свертки 3x3 для вывода, повышая скорость на оборудовании, таком как NVIDIA TensorRT.
- Rep-PAN Neck: Архитектура neck обеспечивает баланс между возможностями объединения признаков и эффективностью оборудования, гарантируя плавный поток данных через сеть без узких мест.
- Двунаправленное объединение (BiC): Повышает точность локализации, улучшая способ агрегирования признаков в разных масштабах.
- Обучение с использованием якорей (AAT): Гибридная стратегия, которая сочетает в себе преимущества anchor-based и anchor-free парадигм на этапе обучения для стабилизации сходимости и повышения конечной точности.
Сильные и слабые стороны
YOLOv6-3.0 — это мощный инструмент для промышленных сред, требующих стандартного развертывания GPU.
Преимущества:
- Скорость инференса: Параметр
nanoвариант исключительно быстр, что делает его идеальным для задач, требующих высокой частоты кадров (FPS). - Аппаратная оптимизация: Разработан специально для пропускной способности GPU, хорошо работает с quantization TensorRT.
- Упрощенное развертывание: Повторная параметризация упрощает итоговый граф, уменьшая проблемы совместимости во время экспорта.
- Скорость инференса: Параметр
Минусы:
- Сосредоточенность на одной задаче: В основном способна detectировать объекты, не имея встроенной поддержки segmentации или оценки позы в основном репозитории по сравнению с многозадачными фреймворками.
- Эффективность параметров: Более крупные варианты могут быть более тяжелыми с точки зрения параметров по сравнению с некоторыми конкурентами для аналогичного повышения точности.
Идеальные варианты использования
- Промышленная автоматизация: Высокоскоростная сортировка и проверка сборки на производственных линиях.
- Аналитика розничной торговли:Вывод в реальном времени для мониторинга полок и анализа поведения клиентов.
- Периферийные вычисления: Развертывание облегченных моделей, таких как YOLOv6-Lite, на мобильных или встроенных устройствах.
Анализ производительности
В приведенном ниже сравнении показана производительность обеих моделей на наборе данных COCO. Метрики фокусируются на валидации mAP (Mean Average Precision) при IoU 0.5-0.95, скорости инференса на GPU T4 с использованием TensorRT и сложности модели (параметры и FLOPs).
Анализ производительности
YOLOv6-3.0n выделяется как чемпион скорости, предлагая инференс менее 2 мс, что делает ее идеальной для приложений, чувствительных к задержкам. Однако модели DAMO-YOLO (в частности, Small и Medium варианты) часто достигают более высоких показателей mAP, чем их аналоги YOLOv6, демонстрируя высокую архитектурную эффективность, полученную от их NAS backbones.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Преимущество Ultralytics
Несмотря на то, что DAMO-YOLO и YOLOv6-3.0 предлагают убедительные функции для конкретных ниш, Ultralytics YOLO11 представляет собой целостную эволюцию в области ИИ для компьютерного зрения. Разработанная для разработчиков, которым нужно больше, чем просто модель обнаружения, YOLO11 объединяет современную производительность с непревзойденным пользовательским опытом.
Почему стоит выбрать Ultralytics YOLO?
- Унифицированная экосистема: В отличие от отдельных исследовательских репозиториев, Ultralytics предоставляет комплексную платформу. От аннотации данных до обучения и развертывания моделей, рабочий процесс выполняется без проблем. Активное сообщество на GitHub и Discord гарантирует, что вы никогда не будете разрабатывать в изоляции.
- Непревзойденная универсальность: Единая архитектура модели YOLO11 поддерживает широкий спектр задач компьютерного зрения, включая Object Detection, Instance Segmentation, Pose Estimation, Oriented Bounding Box (OBB) и Classification. Эта гибкость позволяет решать сложные проекты без переключения фреймворков.
- Эффективность обучения: Модели Ultralytics оптимизированы для эффективности обучения, часто требуя значительно меньше памяти GPU, чем альтернативы на основе трансформеров. Такие функции, как автоматическое определение размера пакета и обучение со смешанной точностью (AMP), включены по умолчанию, что упрощает путь от данных к развертыванию.
- Простота использования: Python API разработан для простоты. Вы можете загрузить предварительно обученную модель, запустить вывод на изображении и экспортировать ее в такие форматы, как ONNX или TensorRT, всего в несколько строк кода.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export the model to ONNX format for deployment
model.export(format="onnx")
Заключение
Для проектов, строго требующих максимальной пропускной способности на промышленных GPU, YOLOv6-3.0 является сильным претендентом. Если вы сосредоточены на максимизации точности в рамках определенного бюджета параметров с использованием NAS, DAMO-YOLO - отличный вариант исследовательского уровня.
Однако, для подавляющего большинства коммерческих и исследовательских приложений Ultralytics YOLO11 предлагает наилучший баланс производительности, удобства использования и долгосрочной поддержки. Его способность обрабатывать несколько задач в сочетании с надежной и хорошо поддерживаемой экосистемой делает его рекомендуемым выбором для создания масштабируемых решений в области компьютерного зрения.
Изучите другие модели
Расширьте свое понимание ландшафта detect объектов, изучив эти другие подробные сравнения:
- YOLOv8 vs. DAMO-YOLO
- YOLOv10 vs DAMO-YOLO
- RT-DETR против DAMO-YOLO
- YOLOv8 и YOLOv6
- YOLOv5 против YOLOv6
- PP-YOLOE против DAMO-YOLO
- EfficientDet vs. YOLOv6
- YOLO11 vs. RT-DETR