DAMO-YOLO vs. EfficientDet: техническое сравнение
В быстро развивающейся области компьютерного зрения выбор правильной архитектуры обнаружения объектов имеет решающее значение для успеха приложения. В этом всестороннем анализе сравниваются DAMO-YOLO, высокопроизводительная модель от Alibaba, с EfficientDet, масштабируемой и эффективной архитектурой от Google. Обе модели представили значительные инновации в этой области, решая вечный компромисс между скоростью, точностью и вычислительными затратами.
Обзоры моделей
Прежде чем углубляться в показатели производительности, важно понять происхождение и архитектурную философию каждой модели.
DAMO-YOLO
DAMO-YOLO (YOLO на основе поиска нейронной архитектуры с улучшенной дистилляцией), разработанная Alibaba Group, фокусируется на максимальном увеличении скорости вывода без ущерба для точности. Она представляет такие технологии, как поиск нейронной архитектуры (NAS) для магистральных сетей, эффективную RepGFPN (репараметризованную обобщенную сеть пирамиды признаков) и облегченную головку обнаружения, известную как ZeroHead.
Подробности DAMO-YOLO:
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация:Alibaba Group
- Дата: 23.11.2022
- Arxiv:DAMO-YOLO: Отчет о проектировании системы обнаружения объектов в реальном времени
- GitHub:tinyvision/DAMO-YOLO
EfficientDet
EfficientDet, созданный командой Google Brain, произвел революцию в detect object, предложив метод compound scaling. Этот подход равномерно масштабирует разрешение, глубину и ширину бэкбона, сети признаков и сетей предсказаний. Он включает BiFPN (Bi-directional Feature Pyramid Network), который обеспечивает легкое и быстрое слияние признаков.
Подробности EfficientDet:
- Авторы: Мингксинг Тан, Руоминг Панг и Куок В. Ле
- Организация:Google
- Дата: 20.11.2019
- Arxiv:EfficientDet: Масштабируемое и эффективное обнаружение объектов
- GitHub:google/automl/efficientdet
Узнайте больше об EfficientDet
Анализ производительности: скорость, точность и эффективность
Следующая диаграмма и таблица содержат количественное сравнение моделей EfficientDet и DAMO-YOLO на наборе данных COCO. Эти эталонные тесты подчеркивают различные цели оптимизации каждой архитектуры.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Основные выводы
Из данных мы можем наблюдать отчетливые сильные стороны для каждого семейства моделей:
- Задержка GPU: DAMO-YOLO доминирует по скорости инференса на GPU. Например,
DAMO-YOLOmдостигает средняя точность (mAP) 49.2 с задержкой всего 5.09 мс на GPU T4. В отличие от этого,EfficientDet-d4, с аналогичным mAP 49.7, значительно медленнее — 33.55 мс. - Эффективность параметров: EfficientDet чрезвычайно легок с точки зрения параметров и операции с плавающей запятой (FLOPs).
EfficientDet-d0использует всего 3,9 млн параметров, что делает его очень эффективным с точки зрения хранения, хотя это не всегда приводит к более быстрому выводу на современных GPU по сравнению с моделями, оптимизированными по архитектуре, такими как DAMO-YOLO. - Производительность CPU: EfficientDet предоставляет надежные бенчмарки CPU, что позволяет предположить, что он остается жизнеспособным вариантом для устаревшего оборудования, где ускорение GPU недоступно.
Замечание об архитектуре
Преимущество DAMO-YOLO в скорости обусловлено ее специфической оптимизацией задержки оборудования с использованием Neural Architecture Search (NAS), в то время как EfficientDet оптимизирует теоретические FLOPs, которые не всегда линейно коррелируют с реальной задержкой.
Архитектурное Глубокое Погружение
EfficientDet: Сила комбинированного масштабирования
EfficientDet построен на основе EfficientNet, который использует mobile inverted bottleneck convolutions (MBConv). Его определяющей особенностью является BiFPN, взвешенная двунаправленная сеть пирамиды признаков. В отличие от традиционных FPN, которые только суммируют признаки сверху вниз, BiFPN позволяет информации течь как сверху вниз, так и снизу вверх, обрабатывая каждый слой признаков с помощью обучаемых весов. Это позволяет сети понимать важность различных входных признаков.
Модель масштабируется с использованием составного коэффициента phi, который равномерно увеличивает ширину, глубину и разрешение сети, поэтому более крупные модели (например, d7) остаются сбалансированными с точки зрения точности и эффективности.
DAMO-YOLO: Инновации, ориентированные на скорость
DAMO-YOLO использует другой подход, фокусируясь на задержке в реальном времени. Он использует MAE-NAS (метод автоматизации поиска архитектуры) для поиска оптимальной структуры базовой сети при определенных ограничениях задержки.
Ключевые инновации включают:
- RepGFPN: Улучшение стандартного GFPN, усиленное репараметризацией для оптимизации путей слияния признаков для скорости.
- ZeroHead: упрощенная головка обнаружения, которая снижает вычислительную нагрузку, обычно связанную с последними слоями предсказания.
- AlignedOTA: Стратегия назначения меток, которая решает проблему рассогласования между задачами классификации и регрессии во время обучения.
Случаи использования и приложения
Архитектурные различия определяют, в каких реальных сценариях каждая модель превосходит другие.
- EfficientDet идеально подходит для сред с ограниченным объемом хранилища или приложений, использующих вывод на CPU, где минимизация FLOPs имеет решающее значение. Он часто используется в мобильных приложениях и встроенных системах, где срок службы батареи (связанный с FLOPs) является основной проблемой.
- DAMO-YOLO превосходен в промышленной автоматизации, автономном вождении и охранном наблюдении, где требуется вывод в реальном времени на GPU. Его низкая задержка позволяет обрабатывать видеопотоки с высокой частотой кадров без пропусков кадров.
Преимущество Ultralytics
Несмотря на то, что DAMO-YOLO и EfficientDet являются способными моделями, экосистема Ultralytics предлагает более комплексное решение для современной разработки ИИ. Такие модели, как современная YOLO11 и универсальная YOLOv8, предоставляют значительные преимущества в удобстве использования, производительности и наборе функций.
Почему стоит выбрать Ultralytics?
- Баланс производительности: Модели Ultralytics разработаны для обеспечения наилучшего компромисса между скоростью и точностью. YOLO11, например, предлагает превосходный mAP по сравнению с предыдущими поколениями, сохраняя при этом исключительную скорость инференса как на CPU, так и на GPU.
Простота использования: Придерживаясь философии «все включено», Ultralytics предоставляет простой Python API и мощный интерфейс командной строки (CLI). Разработчики могут перейти от установки к обучению за считанные минуты.
from ultralytics import YOLO # Load a pre-trained YOLO11 model model = YOLO("yolo11n.pt") # Run inference on an image results = model("path/to/image.jpg")Хорошо поддерживаемая экосистема: В отличие от многих исследовательских моделей, которые забрасываются после публикации, Ultralytics поддерживает активный репозиторий с частыми обновлениями, исправлениями ошибок и поддержкой сообщества через проблемы GitHub и обсуждения.
- Универсальность: Модели Ultralytics не ограничиваются ограничивающими прямоугольниками. Они изначально поддерживают instance segmentation, pose estimation, image classification и oriented bounding boxes (OBB), и все это в рамках единой унифицированной структуры.
- Эффективность использования памяти: Модели Ultralytics YOLO разработаны для эффективного использования памяти во время обучения. Это контрастирует с моделями на основе transformer или старыми архитектурами, которые часто требуют значительного объема памяти CUDA, что делает модели Ultralytics доступными на оборудовании потребительского класса.
- Эффективность обучения: Фреймворк поддерживает такие функции, как автоматическое смешанное обучение (AMP), обучение на нескольких GPU и кэширование, обеспечивая быструю и экономичную тренировку пользовательских наборов данных.
Заключение
DAMO-YOLO и EfficientDet представляют собой важные вехи в истории компьютерного зрения. EfficientDet продемонстрировал мощь принципиального масштабирования и эффективного слияния признаков, в то время как DAMO-YOLO расширил границы поиска архитектуры с учетом задержки.
Однако, для разработчиков, ищущих готовое к производству решение, сочетающее в себе высокую производительность с исключительным опытом разработки, Ultralytics YOLO11 является рекомендуемым выбором. Его интеграция в надежную экосистему, поддержка нескольких задач компьютерного зрения и постоянные улучшения делают его наиболее практичным инструментом для преобразования визуальных данных в полезную информацию.
Изучите другие сравнения моделей
Чтобы еще больше помочь в процессе выбора модели, изучите эти связанные сравнения в документации Ultralytics:
- YOLOv8 vs. DAMO-YOLO
- YOLO11 vs. DAMO-YOLO
- RT-DETR против EfficientDet
- YOLOv10 vs DAMO-YOLO
- YOLOv9 vs. EfficientDet