DAMO-YOLO против YOLOv6-3.0: Техническое противостояние для detect объектов в реальном времени

Область обнаружения объектов в реальном времени характеризуется быстрыми инновациями, где архитектурная эффективность и скорость вывода имеют первостепенное значение. Двумя значительными конкурентами в этой области являются YOLO, разработанный Alibaba Group, и YOLOv6.YOLOv6, надежная платформа от Meituan. Обе модели стремятся достичь идеального баланса между задержкой и точностью, но достигают этого с помощью разных методологий.

Это всеобъемлющее руководство подробно анализирует технические нюансы обеих архитектур, предлагая разработчикам и исследователям информацию, необходимую для выбора подходящего инструмента для их приложений компьютерного зрения. Независимо от того, создаете ли вы приложения для периферийных устройств или высокопроизводительных облачных серверов, понимание этих различий имеет решающее значение.

Бенчмарк производительности

В следующей таблице представлены показатели производительности на COCO . YOLOv6.YOLOv6, как правило, обеспечивает более высокую пропускную способность на GPU благодаря своей TensorRT, в то время как YOLO демонстрирует высокую эффективность параметров.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

DAMO-YOLO: Нейронный поиск архитектуры и эффективность

YOLO представляет новый подход, интегрирующий поиск нейронной архитектуры (NAS) непосредственно в базовую конструкцию. Разработанный Alibaba Group, он направлен на максимальное повышение производительности при строгих ограничениях по задержке.

Ключевые архитектурные особенности

MAE-NAS Backbone: использует многоветвистый поиск нейронной архитектуры с автокодировщиком (MAE-NAS) для обнаружения оптимальных сетевых структур. В результате получается магистраль, которая извлекает особенности более эффективно, чем ручные аналоги, такие как CSPDarknet.
Эффективная RepGFPN: в модели стандартная Feature Pyramid Network (FPN) заменена на Reparameterized Generalized FPN (RepGFPN). Это улучшает слияние характеристик в разных масштабах, сохраняя при этом скорость вывода, поскольку сложные ветви объединяются в один путь во время развертывания.
ZeroHead: Для дальнейшего снижения вычислительных затрат вYOLO облегченная «ZeroHead», которая упрощает конструкцию головки детектора без значительной потери точности.
AlignedOTA: В процессе обучения используется присвоение меток Aligned One-to-Many (AlignedOTA), которое динамически присваивает метки для повышения скорости сходимости и устранения неоднозначности в сценах с большим количеством объектов.

YOLO :
Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сюю Сунь
Организация: Alibaba Group
Дата: 23.11.2022
Arxiv | GitHub | Docs

YOLOv6.0: промышленный стандарт для графических процессоров

YOLOv6.0, часто называемый «полномасштабной перезагрузкой» фреймворка, разработан специально для промышленных приложений, в которых используется GPU через TensorRT является нормой.

Ключевые архитектурные особенности

Двунаправленное слияние (BiFusion): YOLOv6.0 усиливает «шею» с помощью BiFusion, улучшая обмен семантической информацией между различными уровнями характеристик.
Обучение с помощью якорей (AAT): в отличие от детекторов, полностью не использующих якоря, YOLOv6. YOLOv6 вводит вспомогательную ветвь на основе якорей во время обучения. Это стабилизирует процесс обучения и повышает точность, в то время как вывод остается без использования якорей для обеспечения скорости.
RepOptimizer: модель использует методы перепараметризации не только в архитектуре (блоки RepVGG), но и в самом процессе оптимизации, обеспечивая более эффективные шаги градиентного спуска для конкретных перепараметризованных структур.
Обучение с учетом квантования (QAT): одним из основных преимуществ является встроенная поддержка QAT, позволяющая модели сохранять высокую точность даже при сжатии до INT8 для развертывания на пограничных графических процессорах.

YOLOv6 Подробности:
Авторы: Чуй Ли, Лулу Ли, Ифэй Гэн, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
Организация: Meituan
Дата: 13.01.2023
Arxiv | GitHub | Документы

Узнайте больше о YOLOv6

Ultralytics : почему стоит выбрать современные YOLO ?

ХотяYOLO YOLOv6.0 обладают явными преимуществами, Ultralytics предлагает унифицированное решение, которое удовлетворяет более широкие потребности современной разработки ИИ. Выбирая Ultralytics , вы получаете не только архитектуру, но и полный, поддерживаемый рабочий процесс.

1. Непревзойденная простота использования

Ultralytics опыту разработчиков («от нуля до героя»). Сложные процессы, такие как увеличение объема данных, настройка гиперпараметров и экспорт моделей, абстрагированы за простым Python .

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100)

2. Универсальность в различных задачах

В отличие отYOLO YOLOv6, которые в основном ориентированы на обнаружение ограничивающих рамок, Ultralytics по своей сути являются мультимодальными. Единая кодовая база поддерживает:

Обнаружение объектов: идентификация объектов и их местоположения.
Сегментация экземпляров: определение точных границ объектов в пикселях.
Оценка позы: обнаружение ключевых точек для отслеживания людей или животных.
Классификация: присвоение глобальных меток изображениям.
Ориентированная ограничивающая рамка (OBB): обнаружение повернутых объектов, что имеет решающее значение для аэрофотосъемки и обнаружения текста.

3. Эффективность обучения и использование памяти

Ultralytics оптимизированы для минимизации использования VRAM во время обучения. Такая эффективность позволяет исследователям и энтузиастам обучать современные модели на потребительских графических процессорах, что является значительным преимуществом по сравнению с гибридными трансформаторами, требующими большого объема памяти, такими как RT-DETR.

4. Хорошо сохранившаяся экосистема

Ultralytics является одним из самых активных в сообществе компьютерного зрения. Частые обновления обеспечивают совместимость с последними версиями PyTorch, CUDA и Python, предотвращая «разложение кода», часто встречающееся в статических исследовательских репозиториях.

Будущее искусственного интеллекта в области зрения: YOLO26

Для разработчиков, стремящихся к абсолютному максимуму производительности и простоте внедрения, Ultralytics представляет собой новое поколение искусственного интеллекта в области обработки изображений.

Почему стоит перейти на YOLO26?

YOLO26 объединяет в себе передовые функции, которые упрощают развертывание и одновременно повышают скорость и точность:

Полная NMS: устраняет необходимость в постобработке с помощью алгоритма подавления неактивных пиков (NMS), упрощая экспорт в CoreML и TFLite.
CPU : до 43 % более быстрое CPU по сравнению с предыдущими поколениями, что обеспечивает производительность в реальном времени на периферийных устройствах, не имеющих мощных графических процессоров.
MuSGD Optimizer: гибридный оптимизатор, использующий инновации из обучения LLM (вдохновленный Kimi K2 от Moonshot AI) для более быстрой конвергенции и стабильности.
Улучшенное обнаружение мелких объектов: Новый ProgLoss и STAL функции потерь значительно улучшают обнаружение небольших, сложных целей, что имеет решающее значение для применение дронов.

Узнайте больше о YOLO26

Заключение

И YOLO, и YOLOv6.YOLOv6 являются впечатляющими достижениями в области компьютерного зрения.YOLO границы автоматизированного поиска архитектур, а YOLOv6 искусство GPU вывода GPU.

Однако для подавляющего большинства реальных приложений YOLO Ultralytics YOLO предлагают более сбалансированное, универсальное и удобное в обслуживании решение. С выпуском YOLO26 разрыв еще больше увеличился, предлагая сквозную эффективность и CPU , с которой конкурирующие модели пока не могут сравниться. Независимо от того, являетесь ли вы стартапом, создающим свой первый продукт на базе искусственного интеллекта, или предприятием, обслуживающим миллионы пользователей, стабильность и производительность Ultralytics обеспечивают прочную основу для успеха.

Дополнительная литература

Ознакомьтесь с другими современными моделями и инструментами в Ultralytics :

YOLOv8 — классическая модель SOTA, известная своей стабильностью.
RT-DETR — трансформатор обнаружения в реальном времени для задач, требующих высокой точности.
YOLOv9 - С функцией программируемой градиентной информации (PGI).
YOLOv10 — пионер обучения NMS.
YOLO11 — мощный предшественник нынешнего поколения.

DAMO-YOLO против YOLOv6-3.0: Техническое противостояние для detect объектов в реальном времени

Бенчмарк производительности

DAMO-YOLO: Нейронный поиск архитектуры и эффективность

Ключевые архитектурные особенности

YOLOv6.0: промышленный стандарт для графических процессоров

Ключевые архитектурные особенности

Ultralytics : почему стоит выбрать современные YOLO ?

1. Непревзойденная простота использования

2. Универсальность в различных задачах

3. Эффективность обучения и использование памяти

4. Хорошо сохранившаяся экосистема

Будущее искусственного интеллекта в области зрения: YOLO26

Рекомендации по вариантам использования

Идеально подходит дляYOLO

Идеально подходит для YOLOv6-3.0

Идеально подходит для Ultralytics YOLO11 YOLO26)

Заключение

Дополнительная литература

Комментарии