Link to this sectionEfficientDet против DAMO-YOLO: техническое сравнение архитектур обнаружения объектов#
При создании масштабируемых конвейеров computer vision выбор правильной архитектуры модели — это критически важное решение, которое влияет как на возможность развертывания, так и на точность обнаружения. Это руководство содержит подробное техническое сравнение двух известных архитектур в области визуального распознавания: EfficientDet и DAMO-YOLO.
Хотя обе модели привнесли значительные инновации в область object detection, стремительное развитие ИИ в компьютерном зрении проложило путь к более интегрированным экосистемам. В этом анализе мы рассмотрим ключевые механизмы этих устаревших сетей и покажем, почему современные решения, такие как Ultralytics Platform и Ultralytics YOLO26, стали отраслевым стандартом для производственных сред.
Link to this sectionEfficientDet: масштабируемое и эффективное обнаружение объектов#
Представленная исследователями Google, модель EfficientDet была разработана для систематического масштабирования архитектуры при сохранении высокой эффективности. Это было достигнуто за счет использования композитного масштабирования по глубине, ширине сети и разрешению входных данных.
Детали EfficientDet:
Авторы: Mingxing Tan, Ruoming Pang и Quoc V. Le
Организация: Google Brain
Дата: 2019-11-20
Arxiv: 1911.09070
GitHub: google/automl
Link to this sectionАрхитектурные инновации#
Основной вклад EfficientDet — это двунаправленная пирамидальная сеть признаков (BiFPN). В отличие от традиционных FPN, BiFPN обеспечивает легкое и быстрое слияние признаков разных масштабов за счет использования обучаемых весов для понимания значимости различных входных признаков. Это сочетается с backbone EfficientNet, что дает семейство моделей (от D0 до D7), масштабируемых предсказуемым образом.
Link to this sectionСильные и слабые стороны#
Ключевое преимущество EfficientDet заключается в эффективности параметров. Для задач, где необходимо максимизировать mean Average Precision (mAP) в сильно ограниченных облачных средах, метод композитного масштабирования очень предсказуем. Однако EfficientDet, как известно, сложно обучать с нуля, и она часто требует значительной hyperparameter tuning. Кроме того, сильная зависимость от специфических операций TensorFlow делает переход к развертыванию на периферийных устройствах через ONNX или TensorRT более трудоемким по сравнению с оптимизированными export capabilities, доступными в современных моделях YOLO.
Link to this sectionDAMO-YOLO: автоматизированный поиск архитектуры в действии#
DAMO-YOLO представляет собой иной подход, использующий нейросетевой поиск архитектуры (NAS) для автоматического проектирования оптимальных структур сети для вывода в реальном времени.
Детали DAMO-YOLO:
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO
Link to this sectionАрхитектурные инновации#
DAMO-YOLO внедряет ряд новых технологий. В ней используется сгенерированный с помощью NAS backbone под названием MAE-NAS, эффективная архитектура RepGFPN для шеи (neck) и дизайн ZeroHead, который существенно снижает вычислительные затраты на detection head. Кроме того, модель использует AlignedOTA для назначения меток и сильно полагается на улучшение за счет дистилляции знаний для повышения производительности своих меньших вариантов.
Link to this sectionСильные и слабые стороны#
DAMO-YOLO выделяется скоростью вывода на GPU, специально спроектированной для развертывания на архитектурах NVIDIA с использованием TensorRT. Убрав тяжелые структуры головы (head), модель обеспечивает предсказания с низкой задержкой. С другой стороны, автоматизированный поиск архитектуры может сделать структуру модели непрозрачной и сложной для ручной отладки или тонкой настройки для специализированных периферийных устройств. В отличие от высокоуниверсальной Ultralytics YOLO11, DAMO-YOLO в основном сфокусирована на стандартном обнаружении ограничивающих рамок (bounding box) и не имеет встроенной поддержки таких продвинутых задач, как pose estimation или oriented bounding box (OBB), «из коробки».
Link to this sectionСравнение производительности#
Понимание эмпирических компромиссов необходимо для выбора модели. В таблице ниже сравнивается семейство EfficientDet и серия DAMO-YOLO по ключевым performance metrics.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
EfficientDet-d7 достигает высочайшей теоретической точности, но требует огромных вычислительных мощностей, что делает её непригодной для edge AI. DAMO-YOLO предлагает исключительную скорость работы с TensorRT, хотя обычно требует больше параметров, чем младшие модели EfficientDet, для достижения сопоставимой точности.
Link to this sectionВарианты использования и рекомендации#
Выбор между EfficientDet и DAMO-YOLO зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.
Link to this sectionКогда выбирать EfficientDet#
EfficientDet — это хороший выбор для:
- Конвейеров Google Cloud и TPU: Систем, глубоко интегрированных с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
- Исследований в области составного масштабирования: Академических бенчмарков, сфокусированных на изучении эффектов сбалансированного масштабирования глубины, ширины и разрешения сети.
- Развертывания на мобильных устройствах через TFLite: Проектов, которые специально требуют экспорта в TensorFlow Lite для Android или встроенных Linux-устройств.
Link to this sectionКогда выбирать DAMO-YOLO#
DAMO-YOLO рекомендуется для:
- Высокопроизводительной видеоаналитики: Обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Линий промышленного производства: Сценариев со строгими ограничениями задержки GPU на специализированном оборудовании, таких как контроль качества в реальном времени на сборочных линиях.
- Исследований в области поиска архитектуры нейронных сетей: Изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных основ на производительность обнаружения.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Link to this sectionПреимущество Ultralytics: продвижение вперед за рамки устаревших моделей#
Хотя EfficientDet и DAMO-YOLO предоставляют ценные академические знания, современным разработчикам требуются фреймворки, сочетающие передовую производительность с удобством для разработчика. Именно здесь экосистема Ultralytics ecosystem превосходит остальные.
Link to this sectionНепревзойденная простота использования и экосистема#
Развертывание моделей из отдельных, сильно кастомизированных исследовательских репозиториев часто приводит к кошмарам при интеграции. Ultralytics предоставляет унифицированную, глубоко well-maintained ecosystem с обширной документацией и Python-ориентированным API. Используешь ли ты Google Colab для обучения или экспортируешь модель в CoreML для мобильного вывода, конвейер требует всего несколько строк кода.
from ultralytics import YOLO
# Load the highly recommended YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX for production
model.export(format="onnx")Link to this sectionРеволюция YOLO26#
Для разработчиков, оценивающих EfficientDet или DAMO-YOLO, Ultralytics YOLO26 представляет собой окончательный эволюционный шаг. Выпущенная в начале 2026 года, она привносит революционные возможности:
- Сквозной дизайн без NMS: впервые представленный YOLOv10, YOLO26 нативно устраняет необходимость в пост-обработке через подавление немаксимумов (NMS). Это означает значительно более простую архитектуру развертывания и стабильную задержку на различном оборудовании.
- До 43% более быстрый вывод на CPU: для периферийных развертываний без мощных GPU — сценариев, где DAMO-YOLO испытывает трудности — YOLO26 глубоко оптимизирована, обеспечивая колоссальное ускорение на стандартных CPU.
- Оптимизатор MuSGD: преодолевая разрыв между инновациями в LLM и компьютерным зрением, YOLO26 включает оптимизатор MuSGD (вдохновленный Moonshot AI), обеспечивающий невероятно стабильное обучение и быструю сходимость по сравнению с хрупкими циклами обучения EfficientDet.
- Удаление DFL: отказ от Distribution Focal Loss упрощает процесс экспорта, гарантируя превосходную совместимость с маломощными микроконтроллерами и устройствами Raspberry Pi.
- ProgLoss + STAL: эти передовые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов, что является областью, где старые архитектуры традиционно проигрывают.
Link to this sectionЭффективность памяти и универсальность задач#
Unlike transformer models or heavily fused NAS networks, Ultralytics models are characterized by their stringent memory efficiency. They consume remarkably lower CUDA memory during training, enabling rapid iteration on consumer-grade hardware.
Более того, в то время как EfficientDet и DAMO-YOLO жестко ограничены ограничивающими рамками, Ultralytics нативно поддерживает instance segmentation и image classification в рамках того же интуитивно понятного фреймворка. Для пользователей, поддерживающих старые проекты, Ultralytics YOLOv8 остается надежной и широко используемой альтернативой, которую стоит рассмотреть.
Link to this sectionЗаключение#
Выбор правильной архитектуры компьютерного зрения включает в себя взвешивание теоретической производительности и реальности развертывания. EfficientDet предлагает математически элегантный подход к масштабированию, а DAMO-YOLO обеспечивает впечатляющую скорость работы на GPU. Однако для команд, которые отдают приоритет быстрой разработке, надежному развертыванию и передовым функциям, Ultralytics models явно стоят впереди. Объединяя инновации, такие как вывод без NMS и оптимизация MuSGD, YOLO26 гарантирует, что твои проекты в области компьютерного зрения строятся на самой функциональной, поддерживаемой и эффективной базе из существующих сегодня.