DAMO-YOLO vs. EfficientDet: техническое сравнение

В быстро развивающейся области компьютерного зрения выбор правильной архитектуры обнаружения объектов имеет решающее значение для успеха приложения. В этом всестороннем анализе сравниваются DAMO-YOLO, высокопроизводительная модель от Alibaba, с EfficientDet, масштабируемой и эффективной архитектурой от Google. Обе модели представили значительные инновации в этой области, решая вечный компромисс между скоростью, точностью и вычислительными затратами.

Обзоры моделей

Прежде чем углубляться в показатели производительности, важно понять происхождение и архитектурную философию каждой модели.

DAMO-YOLO

DAMO-YOLO (YOLO на основе поиска нейронной архитектуры с улучшенной дистилляцией), разработанная Alibaba Group, фокусируется на максимальном увеличении скорости вывода без ущерба для точности. Она представляет такие технологии, как поиск нейронной архитектуры (NAS) для магистральных сетей, эффективную RepGFPN (репараметризованную обобщенную сеть пирамиды признаков) и облегченную головку обнаружения, известную как ZeroHead.

Подробности DAMO-YOLO:

Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
Организация:Alibaba Group
Дата: 23.11.2022
Arxiv:DAMO-YOLO: Отчет о проектировании системы обнаружения объектов в реальном времени
GitHub:tinyvision/DAMO-YOLO

Узнайте больше о DAMO-YOLO

EfficientDet

EfficientDet, созданный командой Google Brain, произвел революцию в detect object, предложив метод compound scaling. Этот подход равномерно масштабирует разрешение, глубину и ширину бэкбона, сети признаков и сетей предсказаний. Он включает BiFPN (Bi-directional Feature Pyramid Network), который обеспечивает легкое и быстрое слияние признаков.

Подробности EfficientDet:

Авторы: Мингксинг Тан, Руоминг Панг и Куок В. Ле
Организация:Google
Дата: 20.11.2019
Arxiv:EfficientDet: Масштабируемое и эффективное обнаружение объектов
GitHub:google/automl/efficientdet

Узнайте больше об EfficientDet

Анализ производительности: скорость, точность и эффективность

Следующая диаграмма и таблица содержат количественное сравнение моделей EfficientDet и DAMO-YOLO на наборе данных COCO. Эти эталонные тесты подчеркивают различные цели оптимизации каждой архитектуры.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Основные выводы

Из данных мы можем наблюдать отчетливые сильные стороны для каждого семейства моделей:

Задержка GPU: DAMO-YOLO доминирует по скорости инференса на GPU. Например, DAMO-YOLOm достигает средняя точность (mAP) 49.2 с задержкой всего 5.09 мс на GPU T4. В отличие от этого, EfficientDet-d4, с аналогичным mAP 49.7, значительно медленнее — 33.55 мс.
Эффективность параметров: EfficientDet чрезвычайно легок с точки зрения параметров и операции с плавающей запятой (FLOPs). EfficientDet-d0 использует всего 3,9 млн параметров, что делает его очень эффективным с точки зрения хранения, хотя это не всегда приводит к более быстрому выводу на современных GPU по сравнению с моделями, оптимизированными по архитектуре, такими как DAMO-YOLO.
Производительность CPU: EfficientDet предоставляет надежные бенчмарки CPU, что позволяет предположить, что он остается жизнеспособным вариантом для устаревшего оборудования, где ускорение GPU недоступно.

Замечание об архитектуре

Преимущество DAMO-YOLO в скорости обусловлено ее специфической оптимизацией задержки оборудования с использованием Neural Architecture Search (NAS), в то время как EfficientDet оптимизирует теоретические FLOPs, которые не всегда линейно коррелируют с реальной задержкой.

Архитектурное Глубокое Погружение

EfficientDet: Сила комбинированного масштабирования

EfficientDet построен на основе EfficientNet, который использует mobile inverted bottleneck convolutions (MBConv). Его определяющей особенностью является BiFPN, взвешенная двунаправленная сеть пирамиды признаков. В отличие от традиционных FPN, которые только суммируют признаки сверху вниз, BiFPN позволяет информации течь как сверху вниз, так и снизу вверх, обрабатывая каждый слой признаков с помощью обучаемых весов. Это позволяет сети понимать важность различных входных признаков.

Модель масштабируется с использованием составного коэффициента phi, который равномерно увеличивает ширину, глубину и разрешение сети, поэтому более крупные модели (например, d7) остаются сбалансированными с точки зрения точности и эффективности.

DAMO-YOLO: Инновации, ориентированные на скорость

DAMO-YOLO использует другой подход, фокусируясь на задержке в реальном времени. Он использует MAE-NAS (метод автоматизации поиска архитектуры) для поиска оптимальной структуры базовой сети при определенных ограничениях задержки.

Ключевые инновации включают:

RepGFPN: Улучшение стандартного GFPN, усиленное репараметризацией для оптимизации путей слияния признаков для скорости.
ZeroHead: упрощенная головка обнаружения, которая снижает вычислительную нагрузку, обычно связанную с последними слоями предсказания.
AlignedOTA: Стратегия назначения меток, которая решает проблему рассогласования между задачами классификации и регрессии во время обучения.

Случаи использования и приложения

Архитектурные различия определяют, в каких реальных сценариях каждая модель превосходит другие.

EfficientDet идеально подходит для сред с ограниченным объемом хранилища или приложений, использующих вывод на CPU, где минимизация FLOPs имеет решающее значение. Он часто используется в мобильных приложениях и встроенных системах, где срок службы батареи (связанный с FLOPs) является основной проблемой.
DAMO-YOLO превосходен в промышленной автоматизации, автономном вождении и охранном наблюдении, где требуется вывод в реальном времени на GPU. Его низкая задержка позволяет обрабатывать видеопотоки с высокой частотой кадров без пропусков кадров.

Преимущество Ultralytics

Несмотря на то, что DAMO-YOLO и EfficientDet являются способными моделями, экосистема Ultralytics предлагает более комплексное решение для современной разработки ИИ. Такие модели, как современная YOLO11 и универсальная YOLOv8, предоставляют значительные преимущества в удобстве использования, производительности и наборе функций.

Узнайте больше о YOLO11

Почему стоит выбрать Ultralytics?

Баланс производительности: Модели Ultralytics разработаны для обеспечения наилучшего компромисса между скоростью и точностью. YOLO11, например, предлагает превосходный mAP по сравнению с предыдущими поколениями, сохраняя при этом исключительную скорость инференса как на CPU, так и на GPU.
Простота использования: Придерживаясь философии «все включено», Ultralytics предоставляет простой Python API и мощный интерфейс командной строки (CLI). Разработчики могут перейти от установки к обучению за считанные минуты.
```
from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")
```
Хорошо поддерживаемая экосистема: В отличие от многих исследовательских моделей, которые забрасываются после публикации, Ultralytics поддерживает активный репозиторий с частыми обновлениями, исправлениями ошибок и поддержкой сообщества через проблемы GitHub и обсуждения.
Универсальность: Модели Ultralytics не ограничиваются ограничивающими прямоугольниками. Они изначально поддерживают instance segmentation, pose estimation, image classification и oriented bounding boxes (OBB), и все это в рамках единой унифицированной структуры.
Эффективность использования памяти: Модели Ultralytics YOLO разработаны для эффективного использования памяти во время обучения. Это контрастирует с моделями на основе transformer или старыми архитектурами, которые часто требуют значительного объема памяти CUDA, что делает модели Ultralytics доступными на оборудовании потребительского класса.
Эффективность обучения: Фреймворк поддерживает такие функции, как автоматическое смешанное обучение (AMP), обучение на нескольких GPU и кэширование, обеспечивая быструю и экономичную тренировку пользовательских наборов данных.

Заключение

DAMO-YOLO и EfficientDet представляют собой важные вехи в истории компьютерного зрения. EfficientDet продемонстрировал мощь принципиального масштабирования и эффективного слияния признаков, в то время как DAMO-YOLO расширил границы поиска архитектуры с учетом задержки.

Однако, для разработчиков, ищущих готовое к производству решение, сочетающее в себе высокую производительность с исключительным опытом разработки, Ultralytics YOLO11 является рекомендуемым выбором. Его интеграция в надежную экосистему, поддержка нескольких задач компьютерного зрения и постоянные улучшения делают его наиболее практичным инструментом для преобразования визуальных данных в полезную информацию.

Изучите другие сравнения моделей

Чтобы еще больше помочь в процессе выбора модели, изучите эти связанные сравнения в документации Ultralytics: