DAMO-YOLO против YOLOv6-3.0: Всестороннее сравнение промышленных детекторов объектов
Быстрое развитие компьютерного зрения привело к появлению узкоспециализированных архитектур, адаптированных для промышленных применений. Среди них выделяются два тяжеловеса, ориентированные на производительность в реальном времени и эффективность развертывания: DAMO-YOLO и YOLOv6-3.0. Эта страница содержит подробное техническое сравнение их архитектур, метрик производительности и методологий обучения, чтобы помочь вам сделать выбор при развертывании.
DAMO-YOLO: Поиск нейроархитектуры и обнаружение объектов
Разработанный исследователями из Alibaba Group, DAMO-YOLO представляет новый подход к семейству YOLO, активно интегрируя поиск нейронной архитектуры (NAS) в дизайн своей базовой сети.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация:Alibaba Group
- Дата: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
Архитектурные инновации
DAMO-YOLO использует оптимизированный с помощью NAS магистральный модуль под названием MAE-NAS, который автоматически ищет оптимальные сетевые структуры при заданных ограничениях задержки. Это обеспечивает эффективное масштабирование модели на различных аппаратных платформах. Для улучшения слияния признаков архитектура использует эффективную RepGFPN (репараметризованную обобщенную пирамидальную сеть признаков), значительно улучшая многомасштабное представление.
Кроме того, модель представляет дизайн «ZeroHead». Устраняя сложные многоветвевые структуры в детектирующей головке, она более эффективно сохраняет пространственную информацию, снижая при этом вычислительные затраты. Методология обучения также использует AlignedOTA (Aligned Optimal Transport Assignment) и надежную дистилляцию знаний, позволяя меньшим моделям-ученикам обучаться у более крупных моделей-учителей.
Сложность дистилляции
Хотя дистилляция знаний помогает DAMO-YOLO достигать высокой точности, она требует многостадийного конвейера обучения. Это значительно увеличивает требуемые вычислительные ресурсы GPU по сравнению с обучением стандартных одностадийных моделей.
YOLOv6-3.0: Максимизация промышленной пропускной способности
Разработанный отделом Meituan Vision AI, YOLOv6-3.0 явно позиционируется как промышленный детектор объектов, созданный специально для максимизации пропускной способности на оборудовании NVIDIA.
- Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
- Организация:Meituan
- Дата: 2023-01-13
- Arxiv:2301.05586
- GitHub:meituan/YOLOv6
Ключевые особенности и улучшения
YOLOv6-3.0 построен на аппаратно-ориентированном бэкбоне EfficientRep, что делает его исключительно быстрым при использовании таких оптимизаций, как TensorRT, на современных GPU. В своей итерации v3.0 сеть интегрирует модуль двунаправленной конкатенации (BiC) для улучшения локализации объектов различных размеров.
Еще одной выдающейся особенностью является стратегия обучения с поддержкой якорей (AAT). AAT сочетает стабильность якорных детекторов во время обучения со скоростью инференса безанкерной архитектуры. Этот гибридный подход обеспечивает превосходную сходимость без ущерба для задержки развертывания, что делает его мощным выбором для обработки массивных видеопотоков в аналитике умных городов и автоматизированных системах оплаты.
Сравнение производительности
При оценке этих моделей для инференса в реальном времени крайне важно сбалансировать параметры, FLOPs и точность. Ниже приведена подробная оценка, сравнивающая их производительность.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Хотя DAMO-YOLO немного превосходит в категории small (46.0 mAP против 45.0 mAP), YOLOv6-3.0 демонстрирует превосходную масштабируемость, выигрывая в категориях medium и large, при этом сохраняя абсолютно наименьшее количество параметров в своей конфигурации nano.
Выбор между двумя
Если ваша аппаратная среда позволяет проводить интенсивные автоматизированные поиски для настройки вашего бэкбона, подход NAS DAMO-YOLO очень эффективен. Однако, если вы полностью полагаетесь на стандартизированное ускорение GPU (например, T4 или A100), структуры EfficientRep YOLOv6 часто обеспечивают более высокий чистый FPS.
Сценарии использования и рекомендации
Выбор между DAMO-YOLO и YOLOv6 зависит от ваших конкретных требований проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать DAMO-YOLO
DAMO-YOLO — это отличный выбор для:
- Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
- Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.
Когда выбирать YOLOv6
YOLOv6 рекомендуется для:
- Промышленное развертывание с учетом аппаратного обеспечения: Сценарии, где аппаратно-ориентированный дизайн модели и эффективная репараметризация обеспечивают оптимизированную производительность на конкретном целевом оборудовании.
- Быстрое одностадийное detect: Приложения, отдающие приоритет чистой скорости инференции на GPU для обработки видео в реальном времени в контролируемых средах.
- Интеграция в экосистему Meituan: Команды, уже работающие в технологическом стеке и инфраструктуре развертывания Meituan.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Преимущество Ultralytics: Представляем YOLO26
Хотя DAMO-YOLO и YOLOv6-3.0 обладают высокими возможностями, они страдают от фрагментированных экосистем, ограничений одной задачи и сложных конвейеров развертывания. Для современных инженерных команд модели Ultralytics обеспечивают значительно лучший опыт для разработчиков, кульминацией которого стала новаторская YOLO26.
Выпущенный в январе 2026 года, YOLO26 представляет новый стандарт для развертывания на периферии и в облаке, значительно оптимизируя требования к памяти и вычислительную эффективность.
Почему стоит выбрать YOLO26?
- Сквозная архитектура без NMS: Основываясь на концепциях YOLOv10, YOLO26 изначально исключает постобработку Non-Maximum Suppression. Это значительно упрощает код развертывания и снижает вариативность задержки инференса на всех граничных устройствах.
- Превосходная оптимизация: YOLO26 использует оптимизатор MuSGD, гибрид SGD и Muon (вдохновленный большими языковыми моделями), который обеспечивает высокостабильные циклы обучения и более быструю сходимость.
- Универсальность аппаратного обеспечения: Благодаря реализации DFL Removal (Distribution Focal Loss) выходные слои упрощаются, повышая совместимость с периферийными устройствами. Фактически, YOLO26 обеспечивает до 43% более быструю инференцию на CPU, что делает его значительно превосходящим YOLOv6 для мобильных или IoT периферийных сред.
- Повышенная точность: Используя ProgLoss + STAL, YOLO26 демонстрирует значительные улучшения в обнаружении мелких объектов, что делает его оптимальным выбором для аэросъемки и инспекции дефектов.
- Непревзойденная универсальность: В отличие от промышленных моделей, которые работают только с ограничивающими рамками, семейство YOLO26 поддерживает мультимодальные задачи, включая классификацию изображений, сегментацию экземпляров, оценку позы и ориентированные ограничивающие рамки (OBB).
Бесшовный опыт работы с экосистемой
The Платформа Ultralytics трансформирует весь жизненный цикл машинного обучения. Обучение модели больше не является многоступенчатой головной болью дистилляции. Благодаря автоматическому увеличению данных, унифицированной настройке гиперпараметров и экспорту в один клик в форматы, такие как ONNX, OpenVINO и CoreML, вы переходите от набора данных к производству за часы, а не за недели.
Кроме того, модели Ultralytics известны своей эффективностью использования памяти, обходя массивные узкие места VRAM, которые характерны для архитектур трансформеров, таких как RT-DETR.
Пример кода для быстрого старта
Обучение и инференс с моделью Ultralytics, такой как YOLO26, элегантно просты. Следующий скрипт Python демонстрирует, как вы можете немедленно начать track объекты всего несколькими строками кода:
from ultralytics import YOLO
# Load the highly efficient, NMS-free YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a sample image
prediction = model("https://ultralytics.com/images/bus.jpg")
# Export to TensorRT for maximum GPU throughput
model.export(format="engine", dynamic=True)
Заключение
Как DAMO-YOLO, так и YOLOv6-3.0 являются впечатляющими инженерными достижениями, которые расширяют границы промышленного обнаружения объектов. Однако это узкоспециализированные инструменты, которые часто требуют сложных настроек и жёстких аппаратных ограничений.
Для разработчиков и исследователей, которым требуется идеальный баланс производительности, многозадачные возможности и активно поддерживаемая экосистема, Ultralytics YOLO26 не имеет себе равных. Сочетая оптимизаторы, вдохновленные LLM, с чистой архитектурой без NMS, YOLO26 упрощает развертывание ИИ, обеспечивая при этом современную точность в периферийных и облачных средах.
Если вы оцениваете модели для нового проекта компьютерного зрения, мы настоятельно рекомендуем изучить возможности экосистемы Ultralytics YOLO. Вам также может быть полезно сравнить их с другими архитектурами, такими как EfficientDet, или с предыдущими вехами, такими как YOLO11, чтобы полностью понять эволюцию ИИ для зрения в реальном времени.