DAMO-YOLO против YOLOv6-3.0: всестороннее сравнение промышленных детекторов объектов

Быстрая эволюция компьютерного зрения привела к созданию узкоспециализированных архитектур, адаптированных для промышленных задач. Среди них выделяются два тяжеловеса, ориентированных на производительность в реальном времени и эффективность развертывания: DAMO-YOLO и YOLOv6-3.0. На этой странице представлено глубокое техническое сравнение их архитектур, показателей производительности и методологий обучения, которое поможет тебе определиться с выбором для развертывания.

DAMO-YOLO: нейронный поиск архитектуры встречается с обнаружением объектов

Разработанный исследователями Alibaba Group, DAMO-YOLO представляет новый подход к семейству YOLO, активно интегрируя нейронный поиск архитектуры (NAS) в конструкцию своего бэкбона.

  • Авторы: Сяньчжэ Сюй (Xianzhe Xu), Ици Цзян (Yiqi Jiang), Вэйхуа Чэнь (Weihua Chen), Илунь Хуан (Yilun Huang), Юань Чжан (Yuan Zhang) и Сююй Сунь (Xiuyu Sun)
  • Организация: Alibaba Group
  • Дата: 23.11.2022
  • Arxiv: 2211.15444v2
  • GitHub: tinyvision/DAMO-YOLO

Архитектурные инновации

DAMO-YOLO использует оптимизированный с помощью NAS бэкбон под названием MAE-NAS, который автоматически ищет оптимальные структуры сети в рамках заданных ограничений по задержке. Это обеспечивает эффективное масштабирование модели в зависимости от профиля оборудования. Для улучшения слияния признаков архитектура использует эффективную сеть RepGFPN (перепараметризованная обобщенная пирамида признаков), что значительно улучшает представление на разных масштабах.

Кроме того, модель представляет дизайн "ZeroHead". Устранение сложных многоветвевых структур в детектирующей головке позволяет эффективнее сохранять пространственную информацию и снижать вычислительные затраты. Методология обучения также использует AlignedOTA (Aligned Optimal Transport Assignment) и надежную дистилляцию знаний, позволяя более компактным моделям-ученикам учиться на более мощных сетях-учителях.

Узнай больше о DAMO-YOLO

Сложность дистилляции

Хотя дистилляция знаний помогает DAMO-YOLO достигать высокой точности, она требует многоэтапного конвейера обучения. Это значительно увеличивает GPU compute, требуемый по сравнению с обучением стандартных одноэтапных моделей.

YOLOv6-3.0: максимизация промышленной пропускной способности

YOLOv6-3.0, разработанный отделом компьютерного зрения Meituan, позиционируется как промышленный детектор объектов, созданный специально для максимизации пропускной способности на оборудовании NVIDIA.

  • Авторы: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu и Xiangxiang Chu
  • Организация: Meituan
  • Дата: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

Ключевые функции и улучшения

YOLOv6-3.0 построен на базе EfficientRep, удобного для работы с оборудованием бэкбона, что делает его исключительно быстрым при использовании оптимизаций, таких как TensorRT, на современных GPU. В версии 3.0 сеть интегрирует модуль двунаправленной конкатенации (BiC) для улучшения локализации объектов различных размеров.

Еще одной важной особенностью является стратегия обучения с поддержкой якорей (AAT). AAT сочетает стабильность anchor-based detectors во время обучения со скоростью вывода моделей без использования якорей. Этот гибридный подход обеспечивает отличную сходимость без ущерба для задержки развертывания, что делает его мощным выбором для обработки огромных потоков видео в системах аналитики «умного города» и автоматизированных кассах.

Узнай больше о YOLOv6

Сравнение производительности

При оценке этих моделей для real-time inference важно найти баланс между параметрами, FLOPs и точностью. Ниже приведена подробная оценка, сравнивающая их производительность.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

В то время как DAMO-YOLO имеет небольшое преимущество в сегменте малых моделей (46.0 mAP против 45.0 mAP), YOLOv6-3.0 демонстрирует превосходную масштабируемость, выигрывая в среднем и большом сегментах, при этом сохраняя самые низкие показатели параметров в своей конфигурации nano.

Выбор между ними

Если твоя аппаратная среда позволяет выполнять тяжелые автоматизированные поиски для настройки бэкбона, NAS-подход в DAMO-YOLO будет очень эффективен. Однако, если ты полностью полагаешься на стандартизированное ускорение GPU (например, T4 или A100), структуры EfficientRep в YOLOv6 часто обеспечивают более высокий показатель FPS.

Варианты использования и рекомендации

Выбор между DAMO-YOLO и YOLOv6 зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать DAMO-YOLO

DAMO-YOLO — отличный выбор для:

  • Высокопроизводительной видеоаналитики: Обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
  • Линий промышленного производства: Сценариев со строгими ограничениями задержки GPU на специализированном оборудовании, таких как контроль качества в реальном времени на сборочных линиях.
  • Исследований в области поиска архитектуры нейронных сетей: Изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных основ на производительность обнаружения.

Когда выбирать YOLOv6

YOLOv6 рекомендуется для:

  • Развертывания с учетом промышленного оборудования: Сценарии, где аппаратная оптимизация модели и эффективная репараметризация обеспечивают наилучшую производительность на конкретном целевом оборудовании.
  • Быстрой одностадийной детекции: Приложения, ставящие во главу угла скорость логического вывода на GPU для обработки видео в реальном времени в контролируемых средах.
  • Интеграции в экосистему Meituan: Команды, уже работающие внутри технологического стека и инфраструктуры развертывания Meituan.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Преимущество Ultralytics: представляем YOLO26

Хотя и DAMO-YOLO, и YOLOv6-3.0 очень функциональны, они страдают от разрозненных экосистем, ограничений одной задачей и сложных конвейеров развертывания. Для современных команд разработчиков Ultralytics models предоставляют значительно лучший опыт работы, кульминацией которого является революционная YOLO26.

Выпущенная в январе 2026 года, YOLO26 представляет собой новый стандарт для развертывания на границе сети и в облаке, существенно оптимизируя memory requirements и вычислительную эффективность.

Почему стоит выбрать YOLO26?

  1. Комплексный дизайн без NMS: опираясь на концепции YOLOv10, YOLO26 изначально исключает пост-обработку с помощью немаксимального подавления (NMS). Это значительно упрощает код развертывания и снижает вариативность задержки вывода на всех граничных устройствах.
  2. Превосходная оптимизация: YOLO26 использует оптимизатор MuSGD Optimizer, гибрид SGD и Muon (вдохновленный большими языковыми моделями), который обеспечивает высокую стабильность обучения и более быструю сходимость.
  3. Аппаратная универсальность: благодаря внедрению удаления DFL (Distribution Focal Loss) выходные головки упрощаются, повышая совместимость с граничными устройствами. Фактически, YOLO26 достигает до 43% более быстрого вывода на CPU, что делает ее значительно превосходящей YOLOv6 для мобильных или IoT-сред.
  4. Повышенная точность: используя ProgLoss + STAL, YOLO26 демонстрирует значительные улучшения в small object detection, что делает ее оптимальным выбором для aerial imagery и инспекции дефектов.
  5. Непревзойденная универсальность: в отличие от промышленных моделей, которые работают только с ограничивающими рамками, семейство YOLO26 поддерживает мультимодальные задачи, включая Image Classification, Instance Segmentation, Pose Estimation и Oriented Bounding Boxes (OBB).

Узнай больше о YOLO26

Бесшовный опыт работы с экосистемой

Ultralytics Platform трансформирует весь жизненный цикл машинного обучения. Обучение модели больше не является многоэтапной головной болью с дистилляцией. Благодаря автоматической аугментации данных, унифицированной настройке гиперпараметров и экспорту в один клик в такие форматы, как ONNX, OpenVINO и CoreML, ты переходишь от датасета к продакшену за часы, а не недели.

Кроме того, модели Ultralytics известны своей memory efficiency, избегая массивных узких мест VRAM, которые преследуют архитектуры трансформеров, такие как RT-DETR.

Пример кода для быстрого старта

Обучение и вывод с использованием модели Ultralytics, такой как YOLO26, элегантно просты. Следующий скрипт на Python демонстрирует, как ты можешь начать отслеживание объектов буквально за несколько строк кода:

from ultralytics import YOLO

# Load the highly efficient, NMS-free YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a sample image
prediction = model("https://ultralytics.com/images/bus.jpg")

# Export to TensorRT for maximum GPU throughput
model.export(format="engine", dynamic=True)

Заключение

И DAMO-YOLO, и YOLOv6-3.0 являются впечатляющими инженерными достижениями, раздвигающими границы промышленного обнаружения объектов. Однако это узкоспециализированные инструменты, которые часто требуют сложной настройки и жестких аппаратных ограничений.

Для разработчиков и исследователей, которым нужен идеальный баланс производительности, возможность многозадачности и активно well-maintained ecosystem, Ultralytics YOLO26 не имеет равных. Сочетая вдохновленные LLM оптимизаторы с чистой архитектурой без NMS, YOLO26 упрощает AI deployment, обеспечивая при этом передовую точность как в граничных, так и в облачных средах.

Если ты оцениваешь модели для нового проекта по компьютерному зрению, мы настоятельно рекомендуем изучить возможности экосистемы Ultralytics YOLO. Тебе также может быть полезно сравнить их с другими архитектурами, такими как EfficientDet, или с предыдущими важными вехами, такими как YOLO11, чтобы полностью понять эволюцию визуального ИИ в реальном времени.

Комментарии