YOLOv6-3.0 против DAMO-YOLO: Техническое противостояние в обнаружении объектов в реальном времени
Ландшафт компьютерного зрения постоянно развивается, новые архитектуры расширяют границы возможного в обнаружении объектов в реальном времени. Двумя заметными претендентами в этой области являются YOLOv6-3.0 и DAMO-YOLO. Обе модели представляют уникальные архитектурные инновации, разработанные для максимизации производительности на промышленном оборудовании. В этом руководстве представлено всестороннее техническое сравнение этих двух моделей, исследуются их архитектуры, методологии обучения и идеальные сценарии использования, а также представлены преимущества моделей Ultralytics следующего поколения, таких как YOLO26.
Профили моделей
YOLOv6-3.0: Пропускная способность промышленного уровня
Разработанный отделом Vision AI в Meituan, YOLOv6-3.0 разработан специально для высокопроизводительных промышленных приложений. Он в значительной степени ориентирован на максимизацию производительности на аппаратных ускорителях, таких как NVIDIA GPU.
- Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг и др.
- Организация: Meituan
- Дата: 2023-01-13
- Arxiv:2301.05586
- GitHub:meituan/YOLOv6
- Документация:Документация Ultralytics YOLOv6
YOLOv6-3.0 представляет модуль двунаправленной конкатенации (BiC) для улучшения слияния признаков и использует стратегию обучения с поддержкой якорей (AAT). Эта стратегия сочетает преимущества детекторов на основе якорей и безанкерных детекторов во время обучения, при этом инференс остается строго безанкерным. Его бэкбон EfficientRep делает его очень аппаратно-ориентированным для пакетной обработки на GPU, что идеально подходит для обработки огромных объемов данных для анализа видео.
DAMO-YOLO: Быстрый и точный посредством NAS
Разработанный Alibaba Group, DAMO-YOLO использует поиск нейронной архитектуры (NAS) для автоматического обнаружения наиболее эффективных структур магистральных сетей для инференса в реальном времени.
- Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen и др.
- Организация: Alibaba Group
- Дата: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
DAMO-YOLO выделяется своей RepGFPN (перепараметризованной обобщенной пирамидальной сетью признаков) для эффективного многомасштабного слияния признаков и архитектурой ZeroHead, которая значительно снижает вычислительные издержки в детекционной голове. Она также включает назначение меток AlignedOTA и надежные методы дистилляции знаний для повышения точности без увеличения количества параметров модели.
Накладные расходы на дистилляцию
Хотя DAMO-YOLO достигает отличной точности, его сильная зависимость от дистилляции знаний во время обучения требует значительно большей «модели-учителя». Это значительно увеличивает объем памяти CUDA, необходимой на этапе обучения, по сравнению с более простыми архитектурами.
Сравнение производительности
При оценке моделей обнаружения объектов критически важен баланс между средней точностью (mAP) и скоростью инференса. Ниже представлено подробное сравнение YOLOv6-3.0 и DAMO-YOLO для различных масштабов моделей.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv6-3.0 демонстрирует исключительную скорость на GPU NVIDIA, используя оптимизации TensorRT, особенно в своих нано- и малых вариантах. Однако NAS-оптимизированные бэкбоны DAMO-YOLO, как правило, требуют меньше FLOPs на средних и больших масштабах, что приводит к небольшим преимуществам в задержке для более крупных развертываний.
Преимущество Ultralytics: Представляем YOLO26
Хотя YOLOv6-3.0 и DAMO-YOLO являются мощными инструментами, разработчики часто сталкиваются с проблемами, связанными со сложными конвейерами развертывания, высокими требованиями к памяти во время обучения и жесткими, однозадачными архитектурами. Экосистема Ultralytics обеспечивает значительно более оптимизированный опыт для разработчиков.
С выпуском YOLO26 Ultralytics переосмыслила передовой ИИ в области зрения. Выпущенный в январе 2026 года, Ultralytics YOLO26 расширяет границы эффективности и универсальности.
Ключевые нововведения в YOLO26
- Сквозная архитектура без NMS: Основываясь на концепциях, впервые примененных в YOLOv10, YOLO26 изначально исключает постобработку с подавлением немаксимумов (NMS). Это значительно снижает вариативность задержки и упрощает развертывание на периферийных устройствах через CoreML или TFLite.
- Удаление DFL: Удаление Distribution Focal Loss в YOLO26 упрощает процесс экспорта и значительно повышает совместимость с маломощными микроконтроллерами и периферийным оборудованием.
- До 43% более быстрая инференция на CPU: Для приложений, не имеющих выделенного GPU, оптимизации YOLO26 для CPU обеспечивают беспрецедентную скорость, превосходя модели, сильно зависящие от GPU, такие как YOLOv6.
- Оптимизатор MuSGD: Вдохновленный методами обучения LLM, такими как Kimi K2 от Moonshot AI, YOLO26 использует оптимизатор MuSGD (гибрид SGD и Muon) для обеспечения стабильного обучения и быстрой сходимости.
- ProgLoss + STAL: Продвинутые функции потерь значительно улучшают распознавание мелких объектов, делая YOLO26 идеальным для операций с дронами и track'инга удаленных целей.
- Многозадачная универсальность: В отличие от DAMO-YOLO, который является строго детектором, YOLO26 обеспечивает готовую поддержку для сегментации экземпляров, оценки позы (через оценку остаточного логарифмического правдоподобия) и ориентированных ограничивающих рамок (obb) в рамках единого унифицированного API.
Обучение с эффективным использованием памяти
В отличие от сложных архитектур трансформеров, таких как RT-DETR, или конвейеров DAMO-YOLO, активно использующих дистилляцию, модели Ultralytics известны своим низким потреблением VRAM. Вы можете легко обучить модель YOLO26 на потребительском оборудовании.
Оптимизированный рабочий процесс Python
Обучение и развертывание передовых моделей не должно требовать сотен строк шаблонного кода. Пакет Ultralytics Python упрощает жизненный цикл машинного обучения.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model effortlessly with built-in data handling
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run ultra-fast inference and display results
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export seamlessly to ONNX or TensorRT
model.export(format="onnx")
Идеальные варианты использования
Выбор правильной архитектуры полностью зависит от ваших ограничений развертывания:
Когда использовать YOLOv6-3.0
- Видеоаналитика с высокой пакетной обработкой: Отлично подходит для обработки плотных видеопотоков на корпоративных GPU-серверах, где TensorRT может быть полностью использован.
- Промышленная автоматизация: Высокоскоростные производственные линии, выполняющие контроль качества и обнаружение дефектов.
Когда использовать DAMO-YOLO
- Специализированный кремний: Исследование отображения Neural Architecture Search для конкретного, проприетарного оборудования NPU.
- Академические исследования: Бенчмаркинг новых методов дистилляции знаний для сетей реального времени.
Когда использовать Ultralytics YOLO26
- Развертывания на периферийных и мобильных устройствах: Архитектура без NMS, удаление DFL и увеличение скорости CPU на 43% делают его бесспорным лидером для интеграций с iOS, Android и Raspberry Pi.
- Быстрое прототипирование до производства: Бесшовная интеграция с Ultralytics Platform позволяет командам переходить от аннотации наборов данных к глобальному облачному развертыванию за дни, а не месяцы.
- Сложные конвейеры компьютерного зрения: Когда проект требует одновременного detect ограничивающих рамок, ключевых точек позы человека и точных масок segment.
Заключение
Как YOLOv6-3.0, так и DAMO-YOLO внесли значительный вклад в науку обнаружения объектов в реальном времени. YOLOv6 усовершенствовала максимизацию использования GPU, в то время как DAMO-YOLO продемонстрировала мощь автоматизированного поиска архитектуры.
Однако для разработчиков, которым требуется идеальное сочетание точности, скорости инференса и удобства поддержки экосистемы, семейство Ultralytics YOLO остается лучшим выбором. Благодаря революционным оптимизациям, представленным в YOLO26, порог входа для создания корпоративных приложений компьютерного зрения никогда не был ниже.
Для дальнейшего изучения вам также может быть интересно сравнить эти модели с другими архитектурами в нашей документации, такими как YOLO11 или трансформерные подходы, такие как RT-DETR.