YOLOv6-3.0 против DAMO-YOLO: техническое сравнение для detect объектов
Выбор правильной архитектуры компьютерного зрения является ключевым решением для инженеров и исследователей. Ландшафт detectирования объектов является конкурентным, и промышленные гиганты постоянно расширяют границы скорости и точности. На этой странице представлено всестороннее техническое сравнение между YOLOv6-3.0, аппаратной эффективной моделью от Meituan, и DAMO-YOLO, архитектурой, насыщенной технологиями, от Alibaba Group.
YOLOv6-3.0 Обзор
YOLOv6-3.0 служит надежным фреймворком, разработанным специально для промышленных приложений. Выпущенный отделом Vision AI компании Meituan, он уделяет приоритетное внимание эффективности в реальных условиях, стремясь обеспечить высокую производительность при стандартных аппаратных ограничениях, встречающихся в производстве и автоматизации.
- Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
- Организация:Meituan
- Дата: 13.01.2023
- Arxiv:YOLOv6 v3.0: A Full-Scale Reloading
- GitHub:meituan/YOLOv6
- Документация:Документация Ultralytics YOLOv6
Архитектура и Ключевые Инновации
YOLOv6-3.0 совершенствует парадигму одноэтапного детектора с акцентом на reparameterization. Этот метод позволяет модели иметь сложную структуру во время обучения для лучшего обучения, но сворачивается в более простую и быструю структуру во время inference.
- EfficientRep Backbone: Backbone использует отдельные блоки для разных размеров моделей (EfficientRep для небольших моделей и CSPStackRep для больших), оптимизируя использование возможностей оборудования GPU.
- Rep-PAN Neck: Neck использует топологию Rep-PAN, улучшая объединение признаков при сохранении высокой скорости инференса.
- Самодистилляция: Ключевая методология обучения, при которой модель учится на своих собственных предсказаниях (в частности, на ветви учителя в той же сети), чтобы повысить точность без вычислительных затрат отдельной модели-учителя во время развертывания.
Промышленная оптимизация
YOLOv6 явно разработан с учетом квантования. Его архитектура подходит для Post-Training Quantization (PTQ) и Quantization-Aware Training (QAT), что делает его сильным кандидатом для развертывания на периферийных устройствах, где для скорости предпочтительна точность INT8.
Обзор DAMO-YOLO
DAMO-YOLO, разработанный Alibaba Group, представляет собой набор новых технологий для оптимизации компромисса между производительностью и задержкой. Он отличается тем, что включает в себя поиск нейронной архитектуры (NAS) и передовые методы слияния признаков.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация:Alibaba Group
- Дата: 23.11.2022
- Arxiv:DAMO-YOLO: Отчет о проектировании системы обнаружения объектов в реальном времени
- GitHub:tinyvision/DAMO-YOLO
- Документация:DAMO-YOLO GitHub README
Архитектура и Ключевые Инновации
DAMO-YOLO отходит от чисто разработанных вручную архитектур, частично полагаясь на автоматизированные стратегии поиска для нахождения эффективных структур.
- Backbone на основе NAS (MazeNet): Backbone генерируется с использованием MAE-NAS (Neural Architecture Search), в результате чего получается структура под названием MazeNet, которая высоко оптимизирована для различных вычислительных бюджетов.
- Эффективный RepGFPN: Он использует обобщенную пирамиду признаков (GFPN) в сочетании с репараметризацией. Это обеспечивает широкое многомасштабное слияние признаков, которое имеет решающее значение для detect объектов различных размеров.
- ZeroHead: упрощенная конструкция головки обнаружения, которая уменьшает количество параметров и вычислительную сложность на конечном этапе работы сети.
- AlignedOTA: Стратегия динамического назначения меток, которая решает проблему рассогласования между задачами классификации и регрессии в процессе обучения.
Продвинутое слияние признаков
Шея RepGFPN в DAMO-YOLO особенно эффективна при работе со сложными сценами с перекрывающимися объектами. Благодаря тому, что она допускает пропуск соединений между различными уровнями масштаба, она сохраняет семантическую информацию лучше, чем стандартные структуры FPN.
Анализ производительности: скорость в сравнении с точностью
В следующем сравнении используются данные из COCO val2017 dataset. Метрики подчеркивают компромиссы между двумя моделями в разных масштабах.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Основные выводы
- Лидер по задержке (Latency Leader):YOLOv6-3.0n — самая быстрая модель в этом сравнении, показывающая результат в 1.17 мс на GPU T4. Это делает ее исключительно подходящей для сценариев инференса в реальном времени с высокими требованиями к FPS.
- Пик точности:YOLOv6-3.0l достигает наивысшей точности с mAP 52.8, демонстрируя эффективность своей мощной базовой сети и стратегии самодистилляции, хотя и за счет большего количества параметров и FLOPs по сравнению с DAMO-YOLO.
- Оптимальное сочетание эффективности:DAMO-YOLOs превосходит YOLOv6-3.0s по точности (46.0 против 45.0 mAP), имея при этом меньше параметров (16.3M против 18.5M). Это подчеркивает эффективность NAS-поискового бэкбона в режиме малой модели.
- Эффективность параметров: Как правило, модели DAMO-YOLO демонстрируют более низкие показатели FLOPs и количества параметров для сопоставимой точности в среднем и большом диапазоне, что подтверждает эффективность дизайна ZeroHead.
Преимущество Ultralytics
Хотя YOLOv6-3.0 и DAMO-YOLO предлагают убедительные функции для конкретных ниш, Ultralytics YOLO11 предоставляет более целостное решение для современной разработки ИИ. Выбор модели Ultralytics открывает комплексную экосистему, предназначенную для оптимизации всего жизненного цикла машинного обучения.
Почему стоит выбрать Ultralytics YOLO?
- Непревзойденная простота использования: В отличие от исследовательских репозиториев, которые часто требуют сложной настройки среды и компиляции пользовательских операторов C++, модели Ultralytics можно установить с помощью простого
pip install ultralytics. Интуитивно понятный Python API позволяет обучать и развертывать модели всего в несколько строк кода. - Баланс производительности: YOLO11 разработан для обеспечения оптимального баланса между скоростью инференса и точностью, часто превосходя конкурентов в реальных тестах, сохраняя при этом более низкие требования к памяти во время обучения.
- Универсальность задач: В то время как YOLOv6 и DAMO-YOLO являются в основном детекторами объектов, Ultralytics YOLO изначально поддерживает широкий спектр задач, включая сегментацию экземпляров, оценку позы, классификацию и обнаружение ориентированных ограничивающих рамок (OBB).
- Хорошо поддерживаемая экосистема: Ultralytics предоставляет живую экосистему с частыми обновлениями, обширной документацией и поддержкой сообщества через Discord и GitHub. Это гарантирует, что ваш проект останется перспективным и совместимым с новейшим аппаратным и программным обеспечением.
- Гибкость развертывания: Легко экспортируйте обученные модели в различные форматы, такие как ONNX, TensorRT, CoreML и OpenVINO, используя встроенный режим экспорта, что облегчает развертывание на всем, от облачных серверов до устройств Raspberry Pi.
Пример: Запуск detect объектов с помощью YOLO11
Начать работу с современной системой detect'ирования на базе Ultralytics на удивление просто:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
Заключение
YOLOv6-3.0 и DAMO-YOLO представляют собой важные вехи в эволюции object detection. YOLOv6-3.0 превосходно подходит для промышленных сред, где первостепенное значение имеют высокая скорость и поддержка квантования, особенно с его вариантом Nano. DAMO-YOLO демонстрирует мощь Neural Architecture Search и инновационного слияния признаков, предлагая высокую эффективность и точность в диапазоне моделей малого и среднего размера.
Однако, для разработчиков, ищущих готовое к производству решение, сочетающее в себе современную производительность с универсальностью и простотой использования, Ultralytics YOLO11 остается рекомендуемым выбором. Его надежная экосистема, многозадачность и бесшовная интеграция в современные рабочие процессы MLOps обеспечивают явное преимущество для обеспечения успеха проекта.
Изучите другие модели
Чтобы расширить свое понимание ландшафта detect объектов, рассмотрите возможность изучения этих связанных сравнений моделей:
- YOLO11 vs. YOLOv6
- DAMO-YOLO против YOLOv8
- DAMO-YOLO vs. RT-DETR
- YOLOv6 против EfficientDet
- DAMO-YOLO против YOLOX