Перейти к содержанию

YOLOv6-3.0 против DAMO-YOLO: Техническое противостояние в обнаружении объектов в реальном времени

Ландшафт компьютерного зрения постоянно развивается, новые архитектуры расширяют границы возможного в обнаружении объектов в реальном времени. Двумя заметными претендентами в этой области являются YOLOv6-3.0 и DAMO-YOLO. Обе модели представляют уникальные архитектурные инновации, разработанные для максимизации производительности на промышленном оборудовании. В этом руководстве представлено всестороннее техническое сравнение этих двух моделей, исследуются их архитектуры, методологии обучения и идеальные сценарии использования, а также представлены преимущества моделей Ultralytics следующего поколения, таких как YOLO26.

Профили моделей

YOLOv6-3.0: Пропускная способность промышленного уровня

Разработанный отделом Vision AI в Meituan, YOLOv6-3.0 разработан специально для высокопроизводительных промышленных приложений. Он в значительной степени ориентирован на максимизацию производительности на аппаратных ускорителях, таких как NVIDIA GPU.

YOLOv6-3.0 представляет модуль двунаправленной конкатенации (BiC) для улучшения слияния признаков и использует стратегию обучения с поддержкой якорей (AAT). Эта стратегия сочетает преимущества детекторов на основе якорей и безанкерных детекторов во время обучения, при этом инференс остается строго безанкерным. Его бэкбон EfficientRep делает его очень аппаратно-ориентированным для пакетной обработки на GPU, что идеально подходит для обработки огромных объемов данных для анализа видео.

Узнайте больше о YOLOv6

DAMO-YOLO: Быстрый и точный посредством NAS

Разработанный Alibaba Group, DAMO-YOLO использует поиск нейронной архитектуры (NAS) для автоматического обнаружения наиболее эффективных структур магистральных сетей для инференса в реальном времени.

  • Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen и др.
  • Организация: Alibaba Group
  • Дата: 2022-11-23
  • Arxiv:2211.15444v2
  • GitHub:tinyvision/DAMO-YOLO

DAMO-YOLO выделяется своей RepGFPN (перепараметризованной обобщенной пирамидальной сетью признаков) для эффективного многомасштабного слияния признаков и архитектурой ZeroHead, которая значительно снижает вычислительные издержки в детекционной голове. Она также включает назначение меток AlignedOTA и надежные методы дистилляции знаний для повышения точности без увеличения количества параметров модели.

Узнайте больше о DAMO-YOLO

Накладные расходы на дистилляцию

Хотя DAMO-YOLO достигает отличной точности, его сильная зависимость от дистилляции знаний во время обучения требует значительно большей «модели-учителя». Это значительно увеличивает объем памяти CUDA, необходимой на этапе обучения, по сравнению с более простыми архитектурами.

Сравнение производительности

При оценке моделей обнаружения объектов критически важен баланс между средней точностью (mAP) и скоростью инференса. Ниже представлено подробное сравнение YOLOv6-3.0 и DAMO-YOLO для различных масштабов моделей.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOv6-3.0 демонстрирует исключительную скорость на GPU NVIDIA, используя оптимизации TensorRT, особенно в своих нано- и малых вариантах. Однако NAS-оптимизированные бэкбоны DAMO-YOLO, как правило, требуют меньше FLOPs на средних и больших масштабах, что приводит к небольшим преимуществам в задержке для более крупных развертываний.

Преимущество Ultralytics: Представляем YOLO26

Хотя YOLOv6-3.0 и DAMO-YOLO являются мощными инструментами, разработчики часто сталкиваются с проблемами, связанными со сложными конвейерами развертывания, высокими требованиями к памяти во время обучения и жесткими, однозадачными архитектурами. Экосистема Ultralytics обеспечивает значительно более оптимизированный опыт для разработчиков.

С выпуском YOLO26 Ultralytics переосмыслила передовой ИИ в области зрения. Выпущенный в январе 2026 года, Ultralytics YOLO26 расширяет границы эффективности и универсальности.

Ключевые нововведения в YOLO26

  • Сквозная архитектура без NMS: Основываясь на концепциях, впервые примененных в YOLOv10, YOLO26 изначально исключает постобработку с подавлением немаксимумов (NMS). Это значительно снижает вариативность задержки и упрощает развертывание на периферийных устройствах через CoreML или TFLite.
  • Удаление DFL: Удаление Distribution Focal Loss в YOLO26 упрощает процесс экспорта и значительно повышает совместимость с маломощными микроконтроллерами и периферийным оборудованием.
  • До 43% более быстрая инференция на CPU: Для приложений, не имеющих выделенного GPU, оптимизации YOLO26 для CPU обеспечивают беспрецедентную скорость, превосходя модели, сильно зависящие от GPU, такие как YOLOv6.
  • Оптимизатор MuSGD: Вдохновленный методами обучения LLM, такими как Kimi K2 от Moonshot AI, YOLO26 использует оптимизатор MuSGD (гибрид SGD и Muon) для обеспечения стабильного обучения и быстрой сходимости.
  • ProgLoss + STAL: Продвинутые функции потерь значительно улучшают распознавание мелких объектов, делая YOLO26 идеальным для операций с дронами и track'инга удаленных целей.
  • Многозадачная универсальность: В отличие от DAMO-YOLO, который является строго детектором, YOLO26 обеспечивает готовую поддержку для сегментации экземпляров, оценки позы (через оценку остаточного логарифмического правдоподобия) и ориентированных ограничивающих рамок (obb) в рамках единого унифицированного API.

Узнайте больше о YOLO26

Обучение с эффективным использованием памяти

В отличие от сложных архитектур трансформеров, таких как RT-DETR, или конвейеров DAMO-YOLO, активно использующих дистилляцию, модели Ultralytics известны своим низким потреблением VRAM. Вы можете легко обучить модель YOLO26 на потребительском оборудовании.

Оптимизированный рабочий процесс Python

Обучение и развертывание передовых моделей не должно требовать сотен строк шаблонного кода. Пакет Ultralytics Python упрощает жизненный цикл машинного обучения.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with built-in data handling
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast inference and display results
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export seamlessly to ONNX or TensorRT
model.export(format="onnx")

Идеальные варианты использования

Выбор правильной архитектуры полностью зависит от ваших ограничений развертывания:

Когда использовать YOLOv6-3.0

  • Видеоаналитика с высокой пакетной обработкой: Отлично подходит для обработки плотных видеопотоков на корпоративных GPU-серверах, где TensorRT может быть полностью использован.
  • Промышленная автоматизация: Высокоскоростные производственные линии, выполняющие контроль качества и обнаружение дефектов.

Когда использовать DAMO-YOLO

  • Специализированный кремний: Исследование отображения Neural Architecture Search для конкретного, проприетарного оборудования NPU.
  • Академические исследования: Бенчмаркинг новых методов дистилляции знаний для сетей реального времени.

Когда использовать Ultralytics YOLO26

  • Развертывания на периферийных и мобильных устройствах: Архитектура без NMS, удаление DFL и увеличение скорости CPU на 43% делают его бесспорным лидером для интеграций с iOS, Android и Raspberry Pi.
  • Быстрое прототипирование до производства: Бесшовная интеграция с Ultralytics Platform позволяет командам переходить от аннотации наборов данных к глобальному облачному развертыванию за дни, а не месяцы.
  • Сложные конвейеры компьютерного зрения: Когда проект требует одновременного detect ограничивающих рамок, ключевых точек позы человека и точных масок segment.

Заключение

Как YOLOv6-3.0, так и DAMO-YOLO внесли значительный вклад в науку обнаружения объектов в реальном времени. YOLOv6 усовершенствовала максимизацию использования GPU, в то время как DAMO-YOLO продемонстрировала мощь автоматизированного поиска архитектуры.

Однако для разработчиков, которым требуется идеальное сочетание точности, скорости инференса и удобства поддержки экосистемы, семейство Ultralytics YOLO остается лучшим выбором. Благодаря революционным оптимизациям, представленным в YOLO26, порог входа для создания корпоративных приложений компьютерного зрения никогда не был ниже.

Для дальнейшего изучения вам также может быть интересно сравнить эти модели с другими архитектурами в нашей документации, такими как YOLO11 или трансформерные подходы, такие как RT-DETR.


Комментарии