DAMO-YOLO против YOLO11: всестороннее техническое сравнение
При выборе архитектуры для обнаружения объектов в реальном времени для твоего следующего проекта в области компьютерного зрения критически важно понимать нюансы между ведущими моделями. Это подробное руководство содержит глубокий технический анализ, сравнивающий DAMO-YOLO и Ultralytics YOLO11, изучая их архитектуры, показатели производительности, методологии обучения и идеальные сценарии развертывания в реальных условиях.
Подробности DAMO-YOLO: Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun Организация: Alibaba Group Дата: 2022-11-23 Arxiv: 2211.15444v2 GitHub: tinyvision/DAMO-YOLO Документация: Документация DAMO-YOLO
Подробности YOLO11: Авторы: Glenn Jocher и Jing Qiu Организация: Ultralytics Дата: 2024-09-27 GitHub: ultralytics/ultralytics Документация: Документация YOLO11
Философия архитектурного проектирования
Базовая архитектура модели обнаружения объектов определяет скорость её вывода, точность и адаптируемость в различных аппаратных средах.
DAMO-YOLO внедряет несколько академических инноваций, активно полагаясь на Neural Architecture Search (NAS) для автоматического проектирования своего бэкенда. Она использует эффективную RepGFPN (Reparameterized Generalized Feature Pyramid Network) для улучшения объединения признаков и конструкцию ZeroHead, которая значительно уменьшает тяжелую голову предсказания, часто встречающуюся в предыдущих архитектурах. Хотя такой подход на основе NAS позволяет DAMO-YOLO достичь определенной эффективности на выбранных GPU, полученные архитектуры иногда могут не обладать гибкостью, необходимой для универсального применения на различных граничных устройствах.
Напротив, YOLO11 опирается на многолетние фундаментальные исследования, предоставляя высокооптимизированную, созданную вручную архитектуру. Она фокусируется на оптимизированном бэкенде и высокоэффективной горловине, что сокращает избыточные вычисления. Одним из главных преимуществ YOLO11 является её улучшенная эффективность параметров; она достигает высокого представления признаков без больших требований к VRAM, типичных для моделей на основе Transformer, таких как RT-DETR. Это делает YOLO11 исключительно универсальной, способной плавно работать на потребительских GPU, мобильных устройствах и специализированных граничных ускорителях.
Производительность и метрики
Оценка производительности требует выхода за рамки простого сравнения точности и учета баланса между скоростью, размером модели и вычислительной нагрузкой (FLOPs).
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Как показывает таблица, YOLO11 достигает очень выгодного баланса производительности. Например, вариант YOLO11s превосходит DAMO-YOLOs по точности, сохраняя при этом значительно меньший объем параметров. Такое снижение требований к памяти напрямую приводит к сокращению затрат на развертывание и более высокой производительности на граничных устройствах.
Методологии обучения и удобство использования
Конвейер обучения — это то, на что разработчики тратят большую часть своего времени, поэтому эффективность обучения является первостепенной задачей.
DAMO-YOLO использует многоэтапный процесс обучения, сильно зависящий от дистилляции знаний. Она использует AlignedOTA (Optimal Transport Assignment) для назначения меток и часто требует обучения большей модели-«учителя» для передачи знаний в меньшие модели-«ученики». Эта методология резко увеличивает потребление CUDA памяти и общее время вычислений, необходимое для достижения оптимальной сходимости.
Напротив, экосистема Ultralytics абстрагирует сложность обучения моделей. YOLO11 разработана для исключительной простоты использования, отличаясь оптимизированным Python API и всеобъемлющими CLI интерфейсами, которые позволяют инженерам начинать обучение на собственных наборах данных одной командой. Конвейер обучения по своей сути является ресурсоэффективным, минимизируя скачки потребления памяти, благодаря чему даже более крупные модели можно обучать на стандартном оборудовании.
Обучение модели Ultralytics не требует написания шаблонного кода. Встроенные конвейеры загрузки данных, аугментации и вычисления потерь полностью оптимизированы «из коробки».
Вот быстрый пример того, насколько просто обучить и развернуть модель Ultralytics:
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the trained model to ONNX for seamless deployment
model.export(format="onnx")Применение в реальном мире и универсальность
Выбор между этими архитектурами часто зависит от широты задач, требуемых твоей средой развертывания.
Где уместна DAMO-YOLO
DAMO-YOLO — это исключительно фреймворк для обнаружения объектов. Она превосходна в академических исследовательских средах, где команды изучают репараметризацию или воспроизводят конкретные эксперименты Neural Architecture Search. Она также может быть развернута в жестко ограниченных промышленных средах, где специфический GPU-ускоритель идеально сочетается с бэкендом, сгенерированным NAS.
Преимущество Ultralytics
Модели Ultralytics, включая YOLO11, показывают себя лучше всего в реальных коммерческих приложениях благодаря своей непревзойденной универсальности и хорошо поддерживаемой экосистеме. В отличие от DAMO-YOLO, фреймворк Ultralytics поддерживает мультимодальные задачи «из коробки». От сегментации экземпляров в медицинской визуализации до оценки позы для биомеханического анализа в спорте — единая база кода справляется со всем.
Отрасли, использующие YOLO11, включают:
- Умное сельское хозяйство: использование обнаружения объектов для мониторинга состояния сельскохозяйственных культур и автоматизации уборочной техники.
- Розничная аналитика: внедрение умного видеонаблюдения для анализа клиентского трафика и автоматизации управления запасами.
- Логистика и цепочки поставок: высокоскоростное обнаружение штрих-кодов и посылок с использованием ориентированных ограничивающих рамок (OBB) на быстродвижущихся конвейерных лентах.
Варианты использования и рекомендации
Выбор между DAMO-YOLO и YOLO11 зависит от конкретных требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.
Когда выбирать DAMO-YOLO
DAMO-YOLO — это сильный выбор для:
- Высокопроизводительной видеоаналитики: Обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Линий промышленного производства: Сценариев со строгими ограничениями задержки GPU на специализированном оборудовании, таких как контроль качества в реальном времени на сборочных линиях.
- Исследований в области поиска архитектуры нейронных сетей: Изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных основ на производительность обнаружения.
Когда выбирать YOLO11
YOLO11 рекомендуется, если:
- Развертывания на периферии (Edge): коммерческих приложений на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где надежность и активная поддержка имеют первостепенное значение.
- Многозадачных приложений компьютерного зрения: проектов, требующих обнаружения, сегментации, оценки позы и OBB в рамках единого унифицированного фреймворка.
- Быстрого прототипирования и развертывания: команд, которым необходимо быстро перейти от сбора данных к продакшену, используя оптимизированный Python API Ultralytics.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Следующее поколение: представляем YOLO26
Хотя YOLO11 остается мощным и надежным выбором, область компьютерного зрения быстро развивается. Для разработчиков, начинающих новые проекты, новейшая модель YOLO26 представляет собой новый стандарт современной техники.
Выпущенная в январе 2026 года, YOLO26 представляет несколько прорывных достижений:
- Дизайн без NMS (End-to-End): устраняя постобработку Non-Maximum Suppression, YOLO26 обеспечивает более быстрое и детерминированное время вывода и значительно упрощает конвейеры развертывания.
- До 43% более быстрый вывод на CPU: благодаря удалению Distribution Focal Loss (DFL), модель исключительно хорошо подходит для граничных и маломощных устройств, не имеющих выделенных GPU.
- Оптимизатор MuSGD: интегрируя инновации обучения LLM (вдохновленные Moonshot AI), этот гибридный оптимизатор обеспечивает стабильную и быструю сходимость во время обучения.
- Продвинутые функции потерь: используя ProgLoss + STAL, YOLO26 демонстрирует замечательные улучшения в распознавании мелких объектов, что критически важно для аэрофотосъемки и робототехники.
Заключение
Как DAMO-YOLO, так и YOLO11 внесли значительный вклад в развитие быстрого и точного компьютерного зрения. В то время как DAMO-YOLO предлагает интересные академические идеи по поиску архитектур и дистилляции, Ultralytics YOLO11 (и прорывная YOLO26) обеспечивает превосходный опыт для разработчика.
Благодаря меньшим требованиям к памяти, обширной документации, поддержке множества задач и интеграции с мощной платформой Ultralytics, модели Ultralytics остаются главной рекомендацией для исследователей и инженеров предприятий, стремящихся создавать надежные и масштабируемые AI-решения. Для тех, кто изучает другие передовые архитектуры, сравнение YOLO26 против RT-DETR дает дополнительные идеи относительно альтернатив на основе Transformer.