DAMO-YOLO против YOLO11: Всестороннее техническое сравнение
При выборе архитектуры обнаружения объектов в реальном времени для вашего следующего проекта по компьютерному зрению крайне важно понимать нюансы между ведущими моделями. Это всестороннее руководство представляет углубленный технический анализ, сравнивающий DAMO-YOLO и Ultralytics YOLO11, исследуя их архитектуры, метрики производительности, методологии обучения и идеальные сценарии развертывания в реальных условиях.
Подробности о DAMO-YOLO:
Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
Организация: Alibaba Group
Дата: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO
Документация: Документация DAMO-YOLO
Подробности о YOLO11:
Авторы: Гленн Джочер и Цзин Цю
Организация: Ultralytics
Дата: 2024-09-27
GitHub: ultralytics/ultralytics
Документация: Документация YOLO11
Философия архитектурного проектирования
Базовая архитектура модели обнаружения объектов определяет скорость её инференса, точность и адаптируемость в различных аппаратных средах.
DAMO-YOLO представляет несколько академических инноваций, в значительной степени полагаясь на поиск нейронной архитектуры (NAS) для автоматического проектирования своей основной сети. Она использует эффективную RepGFPN (перепараметризованную обобщенную сеть пирамиды признаков) для улучшения слияния признаков и архитектуру ZeroHead, которая значительно уменьшает размер тяжелой головы предсказания, часто встречающейся в предыдущих архитектурах. Хотя такой подход, основанный на NAS, позволяет DAMO-YOLO достигать определенной эффективности на выбранных GPU, полученные архитектуры иногда могут не обладать гибкостью, необходимой для бесшовной адаптации к различным периферийным устройствам.
В отличие от этого, YOLO11 основывается на многолетних фундаментальных исследованиях для создания высокооптимизированной, тщательно разработанной архитектуры. Он сосредоточен на оптимизированном бэкбоне и высокоэффективной шейке, что сокращает избыточные вычисления. Одним из основных преимуществ YOLO11 является его улучшенная параметрическая эффективность; он обеспечивает высокое представление признаков без высоких требований к VRAM, типичных для моделей на основе трансформеров, таких как RT-DETR. Это делает YOLO11 исключительно универсальным, способным бесперебойно работать на потребительских GPU, мобильных устройствах и специализированных граничных ускорителях.
Производительность и метрики
Оценка производительности требует рассмотрения не только общей точности, но и баланса скорости, размера модели и вычислительной нагрузки (FLOPs).
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Как демонстрирует таблица, YOLO11 достигает весьма благоприятного баланса производительности. The YOLO11s вариант, например, превосходит DAMO-YOLOs повышает точность при значительно меньшем объеме параметров. Это снижение требований к памяти напрямую приводит к снижению затрат на развертывание и более гибкой производительности на периферийных устройствах.
Методологии обучения и удобство использования
Конвейер обучения — это то, где разработчики проводят большую часть своего времени, что делает эффективность обучения первостепенной задачей.
DAMO-YOLO использует многоэтапный процесс обучения, сильно зависящий от дистилляции знаний. Он использует AlignedOTA (Optimal Transport Assignment) для назначения меток и часто требует обучения более крупной модели-"учителя" для дистилляции знаний в меньшие модели-"ученики". Эта методология значительно увеличивает объем памяти CUDA и общее время вычислений, необходимое для достижения оптимальной сходимости.
Напротив, экосистема Ultralytics абстрагирует сложность обучения моделей. YOLO11 разработан для исключительной простоты использования, предлагая оптимизированный Python API и комплексные интерфейсы CLI, которые позволяют инженерам запускать обучение на пользовательских наборах данных одной командой. Конвейер обучения по своей природе ресурсоэффективен, минимизируя пики памяти, так что даже более крупные модели могут быть обучены на стандартном оборудовании.
Оптимизированное обучение с Ultralytics
Обучение модели Ultralytics не требует шаблонного кода. Встроенные конвейеры загрузки данных, аугментации и вычисления потерь полностью оптимизированы «из коробки».
Вот краткий пример того, как просто обучать и развертывать модель Ultralytics:
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the trained model to ONNX for seamless deployment
model.export(format="onnx")
Практические применения и универсальность
Выбор между этими архитектурами часто зависит от широты задач, требуемых вашей средой развертывания.
Место DAMO-YOLO
DAMO-YOLO — это строго фреймворк для обнаружения объектов. Он превосходно подходит для академических исследовательских сред, где команды изучают репараметризацию или воспроизводят конкретные эксперименты Neural Architecture Search. Он также может быть развернут в строго ограниченных промышленных средах, где очень специфический ускоритель GPU идеально соответствует магистральной сети, сгенерированной NAS.
Преимущество Ultralytics
Модели Ultralytics, включая YOLO11, превосходно проявляют себя в реальных коммерческих приложениях благодаря своей беспрецедентной универсальности и хорошо поддерживаемой экосистеме. В отличие от DAMO-YOLO, фреймворк Ultralytics нативно поддерживает мультимодальные задачи. От сегментации экземпляров в медицинской визуализации до оценки позы для биомеханического анализа в спорте — единая унифицированная кодовая база справляется со всем.
Отрасли, использующие YOLO11, включают:
- Умное сельское хозяйство: Использование object detection для мониторинга здоровья урожая и автоматизации уборочной техники.
- Розничная аналитика: Внедрение интеллектуального видеонаблюдения для анализа покупательского трафика и автоматизации управления запасами.
- Логистика и цепи поставок: Высокоскоростное обнаружение штрихкодов и посылок с использованием Oriented Bounding Boxes (OBB) на быстродвижущихся конвейерных лентах.
Сценарии использования и рекомендации
Выбор между DAMO-YOLO и YOLO11 зависит от ваших конкретных требований проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать DAMO-YOLO
DAMO-YOLO — это отличный выбор для:
- Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
- Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.
Когда следует выбирать YOLO11
YOLO11 рекомендуется для:
- Промышленное периферийное развертывание: Коммерческие приложения на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где надежность и активное обслуживание имеют первостепенное значение.
- Многозадачные приложения компьютерного зрения: Проекты, требующие detect, сегментации, оценки позы и obb в рамках единой унифицированной среды.
- Быстрое прототипирование и развертывание: Команды, которым необходимо быстро перейти от сбора данных к производству, используя оптимизированный Ultralytics Python API.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Следующее поколение: Представляем YOLO26
Хотя YOLO11 остается мощным и надежным выбором, ландшафт компьютерного зрения быстро меняется. Для разработчиков, начинающих новые проекты, новейшая модель YOLO26 представляет собой новое состояние искусства.
Выпущенный в январе 2026 года, YOLO26 представляет несколько новаторских достижений:
- Сквозная архитектура без NMS: За счет исключения постобработки подавления немаксимумов YOLO26 обеспечивает более быстрое, детерминированное время инференса и значительно упрощает конвейеры развертывания.
- До 43% более быстрый инференс на CPU: Благодаря удалению Distribution Focal Loss (DFL) модель исключительно хорошо подходит для периферийных и маломощных устройств, не имеющих выделенных GPU.
- Оптимизатор MuSGD: Интегрируя инновации в обучении LLM (вдохновленные Moonshot AI), этот гибридный оптимизатор обеспечивает стабильную, быструю сходимость во время обучения.
- Расширенные функции потерь: Используя ProgLoss + STAL, YOLO26 демонстрирует заметные улучшения в распознавании мелких объектов, что крайне важно для аэрофотосъемки и робототехники.
Заключение
Как DAMO-YOLO, так и YOLO11 внесли значительный вклад в развитие быстрого и точного компьютерного зрения. В то время как DAMO-YOLO предлагает интересные академические идеи в области поиска архитектур и дистилляции, Ultralytics YOLO11 (и новаторская YOLO26) обеспечивает превосходный опыт для разработчиков.
Благодаря более низким требованиям к памяти, обширной документации, многозадачным возможностям и интеграции с мощной Ultralytics Platform, модели Ultralytics остаются главной рекомендацией для исследователей и инженеров предприятий, стремящихся создавать надежные, масштабируемые решения ИИ. Для тех, кто изучает другие передовые архитектуры, сравнение YOLO26 vs RT-DETR предлагает дополнительные сведения о трансформерных альтернативах.