DAMO-YOLO против YOLO11: техническое сравнение

В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для успеха приложения. В этом всестороннем сравнении анализируются две важные архитектуры: DAMO-YOLO, разработанная Alibaba Group, и Ultralytics YOLO11, новейшая современная модель от Ultralytics. Хотя обе модели направлены на оптимизацию компромисса между скоростью и точностью, они служат разным основным целям и предлагают различные преимущества в зависимости от сценария развертывания.

В этом руководстве представлен углубленный обзор их архитектур, показателей производительности и идеальных вариантов использования, чтобы помочь разработчикам и исследователям принимать обоснованные решения.

DAMO-YOLO

Авторы: Сяньчжэ Сюй, Йици Цзян, Вэйхуа Чэнь, Йилунь Хуан, Юань Чжан и Сюю Сунь
Организация:Alibaba Group
Дата: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Документация:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO — это фреймворк для обнаружения объектов, который объединяет несколько передовых технологий для достижения высокой производительности. Он фокусируется на снижении задержки при сохранении конкурентоспособной точности благодаря ряду архитектурных инноваций, основанных на исследованиях Alibaba.

Узнайте больше о DAMO-YOLO

Архитектура и инновации

DAMO-YOLO представляет подход "Distill-and-Select" и включает в себя следующие ключевые компоненты:

Бэкбон MAE-NAS: Используя поиск нейронной архитектуры (NAS), бэкбон оптимизируется с учетом конкретных ограничений для обеспечения эффективного извлечения признаков.
Эффективный RepGFPN: Обобщенная пирамида признаков (GFPN) в значительной степени использует механизмы повторной параметризации для улучшения слияния признаков в разных масштабах без значительных вычислительных затрат во время inference.
ZeroHead: эта легкая головка обнаружения разделяет задачи классификации и регрессии, стремясь максимизировать скорость вывода.
AlignedOTA: Стратегия назначения меток, которая решает проблему рассогласования между целями классификации и регрессии, улучшая сходимость во время обучения.

Несмотря на то, что DAMO-YOLO представляет впечатляющие теоретические достижения, это в первую очередь исследовательский фреймворк, ориентированный на обнаружение объектов. Ему обычно не хватает встроенной поддержки нескольких задач, которая есть в более комплексных экосистемах.

Ultralytics YOLO11

Авторы: Гленн Джокер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Документация:https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 представляет собой вершину компьютерного зрения в реальном времени, совершенствуя наследие серии YOLO со значительными улучшениями в архитектуре, эффективности и простоте использования. Он разработан не просто как модель, а как универсальный инструмент для практического развертывания в реальном мире в различных аппаратных средах.

Узнайте больше о YOLO11

Архитектура и экосистема

YOLO11 опирается на предыдущие успехи благодаря усовершенствованной архитектуре без привязки к якорям. Она имеет улучшенный backbone для превосходного извлечения признаков и модифицированную конструкцию neck, которая улучшает поток информации в различных масштабах.

Ключевые преимущества фреймворка Ultralytics YOLO11 включают:

Универсальность: В отличие от многих конкурентов, YOLO11 изначально поддерживает широкий спектр задач, включая object detection, instance segmentation, pose estimation, image classification и oriented bounding boxes (OBB).
Простота использования: Модель обернута в удобный Python API и CLI, что делает ее доступной как для начинающих, так и для экспертов.
Эффективность обучения: Оптимизированная для более быстрой сходимости, YOLO11 использует эффективные функции аугментации данных и потерь, что позволяет пользователям обучать пользовательские модели на наборах данных, таких как COCO, с меньшими накладными расходами на ресурсы.
Хорошо поддерживаемая экосистема: Поддерживаемые командой Ultralytics, пользователи получают выгоду от частых обновлений, обширной документации и бесшовной интеграции с инструментами MLOps, такими как Ultralytics HUB.

Вы знали?

YOLO11 разработан для высокой эффективности на устройствах Edge AI. Его оптимизированная архитектура обеспечивает низкое использование памяти и высокую скорость inference на таком оборудовании, как NVIDIA Jetson и Raspberry Pi, что делает его превосходным выбором для встроенных приложений по сравнению с более тяжелыми моделями на основе transformer.

Сравнение производительности

Следующая диаграмма и таблица иллюстрируют различия в производительности между DAMO-YOLO и YOLO11. Ultralytics YOLO11 постоянно демонстрирует превосходную точность (mAP) и благоприятную скорость вывода, особенно на оборудовании CPU, где DAMO-YOLO не имеет официальных эталонных тестов.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Анализ результатов

Точность: YOLO11 значительно превосходит сопоставимые модели DAMO-YOLO. Например, YOLO11m достигает 51,5 mAP, что заметно выше, чем DAMO-YOLOm с 49,2 mAP, несмотря на меньшее количество параметров (20,1M против 28,2M).
Скорость инференса: На GPU (T4 TensorRT) YOLO11 предлагает высокую конкурентоспособную задержку. YOLO11n невероятно быстр - 1,5 мс, что делает его подходящим для приложений с ультранизкой задержкой.
Производительность CPU: Основным преимуществом моделей Ultralytics является их прозрачность в отношении производительности CPU. YOLO11 оптимизирован для инференса на CPU через ONNX и OpenVINO, тогда как DAMO-YOLO в основном ориентирован на GPU, часто оставляя производительность развертывания на CPU неопределенной.
Эффективность модели: YOLO11 демонстрирует лучший баланс параметров и производительности. Эффективность архитектуры позволяет уменьшить размер файлов модели, что приводит к более быстрой загрузке и снижению требований к хранилищу на периферийных устройствах.

Ключевые отличия и варианты использования

Преимущества Ultralytics YOLO11

Разработчики, использующие Ultralytics YOLO11, получают доступ к надежной производственной среде.

Баланс производительности: Архитектура модели тщательно настроена для обеспечения наилучшего компромисса между скоростью инференса и точностью, что имеет решающее значение для анализа видео в реальном времени.
Возможности Multi-Task: Если область вашего проекта расширяется от detect до отслеживания или segment, YOLO11 легко справляется с этим в рамках одной и той же кодовой базы.
Простота использования: Параметр ultralytics пакет упрощает весь конвейер. Загрузка модели, запуск прогнозов и экспорт в такие форматы, как CoreML, TFLite или TensorRT, можно выполнить всего несколькими строками кода.
Меньшие требования к памяти: По сравнению с детекторами на основе трансформеров или неоптимизированными архитектурами, YOLO11 обычно требует меньше памяти CUDA во время обучения, что позволяет исследователям проводить обучение на GPU потребительского класса.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Преимущества DAMO-YOLO

DAMO-YOLO — сильный конкурент в академических исследовательских кругах.

Инновации в исследованиях: Такие функции, как MAE-NAS и ZeroHead, предлагают интересные сведения о поиске нейронной архитектуры и разделении голов.
Пропускная способность GPU: Для конкретных промышленных приложений, работающих исключительно на поддерживаемых GPU, DAMO-YOLO обеспечивает высокую пропускную способность, хотя часто уступает YOLO11 в чистой эффективности точности на параметр.

Заключение

Несмотря на то, что DAMO-YOLO представляет новые концепции от исследовательской группы Alibaba, Ultralytics YOLO11 выделяется как превосходный выбор для подавляющего большинства разработчиков и предприятий. Его доминирование определяется не только более высокими показателями mAP и более быстрым выводом, но и всеобъемлющей экосистемой, которая его поддерживает.

От простоты использования и универсальности до хорошо поддерживаемой кодовой базы и активной поддержки сообщества, YOLO11 снижает порог вхождения для создания передовых AI-решений. Независимо от того, развертывается ли он на облачных серверах или на периферийных устройствах с ограниченными ресурсами, YOLO11 обеспечивает надежность и производительность, необходимые для современных приложений компьютерного зрения.

Изучите другие сравнения моделей

Чтобы лучше понять, как модели Ultralytics соотносятся с другими архитектурами, изучите наши подробные страницы сравнения: