Перейти к содержанию

DAMO-YOLO против Ultralytics YOLOv8: Всестороннее техническое сравнение

Ландшафт компьютерного зрения в реальном времени постоянно меняется, поскольку исследователи и инженеры расширяют границы скорости и точности. Двумя важными вехами на этом пути являются DAMO-YOLO и Ultralytics YOLOv8. Хотя обе модели направлены на оптимизацию компромисса между задержкой и средней точностью (mAP), они используют принципиально разные архитектурные и философские подходы к решению задач обнаружения объектов.

Этот всеобъемлющий технический анализ сравнит их базовые архитектуры, методологии обучения и практические развертывания, чтобы помочь вам выбрать правильный инструмент для вашего следующего проекта в области искусственного интеллекта.

Происхождение модели и спецификации

Понимание истоков этих моделей глубокого обучения дает ценный контекст относительно их проектных целей и экосистем развертывания.

Подробности о DAMO-YOLO

Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сюсюй Сунь
Организация:Alibaba Group
Дата: 23.11.2022
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:tinyvision/DAMO-YOLO

Узнайте больше о DAMO-YOLO

Ultralytics YOLOv8 Детали

Авторы: Гленн Джочер, Аюш Чаурасия и Цзин Цю
Организация:Ultralytics
Дата: 2023-01-10
GitHub:ultralytics/ultralytics
Документация:Документация YOLOv8

Узнайте больше о YOLOv8

Архитектурные инновации

Характеристики производительности обеих архитектур обусловлены их уникальными структурными решениями.

DAMO-YOLO активно опирается на Neural Architecture Search (NAS) для автоматического поиска оптимальных сетевых структур. Она представляет концепцию под названием MAE-NAS, которая ищет магистральные сети, обеспечивающие высокую производительность с низкой задержкой. Кроме того, она использует эффективную RepGFPN (перепараметризованную обобщенную пирамидальную сеть признаков) для улучшения слияния признаков на разных пространственных масштабах.

Для улучшения обучения команда Alibaba внедрила дизайн ZeroHead и механизм назначения меток AlignedOTA. Кроме того, они активно используют сложный процесс дистилляции знаний, где «тяжелая» модель-учитель направляет «легкую» модель-ученика, достигая более высоких показателей точности на академических бенчмарках.

YOLOv8: Оптимизированный и универсальный

Ultralytics применила более ориентированный на разработчика подход с YOLOv8. Она перешла от якорного дизайна YOLOv5 к безякорной архитектуре, значительно сократив количество предсказаний ограничивающих рамок и ускорив инференс. Введение модуля C2f (Cross-Stage Partial Bottleneck с 2 свертками) улучшило поток градиентов и представление признаков без добавления чрезмерных вычислительных затрат.

В отличие от моделей, которые строго нацелены на ограничивающие рамки, YOLOv8 был разработан с нуля как мультимодальный. Унифицированная кодовая база PyTorch изначально поддерживает сегментацию экземпляров, оценку позы и классификацию изображений, избавляя инженеров от необходимости собирать разрозненные репозитории.

Эффективное обучение

Модели Ultralytics по своей природе требуют меньше памяти во время обучения по сравнению с тяжелыми архитектурами на основе трансформеров, что позволяет достигать передовых результатов на стандартных потребительских GPU.

Сравнение производительности

При сравнении необработанных метрик крайне важно проанализировать, как теоретические возможности преобразуются в производительность оборудования. В таблице ниже показаны компромиссы для различных размеров моделей.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Хотя DAMO-YOLO демонстрирует высокие соотношения параметров к точности благодаря своим методам дистилляции, YOLOv8 предлагает более широкий градиент размеров моделей (от Nano до Extra-large). Модель YOLOv8 Nano представляет собой мастер-класс по оптимизации для периферийных устройств, потребляя меньше ресурсов при обеспечении высокой применимой точности.

Экосистема и опыт разработчиков

Истинное отличие между академическими статьями и готовыми к производству системами — это экосистема.

Зависимость DAMO-YOLO от обширных конвейеров дистилляции знаний может сделать пользовательское обучение громоздким. Генерация модели-учителя, передача знаний и настройка магистральных модулей на основе NAS требуют большого объема памяти CUDA и расширенной конфигурации, что часто замедляет работу гибких инженерных команд.

Напротив, экосистема Ultralytics выступает за простоту использования. Через платформу Ultralytics разработчики получают доступ к простым API, исчерпывающей документации и надежным интеграциям для отслеживания экспериментов. Единый фреймворк Python делает создание сложных конвейеров тривиальной задачей.

from ultralytics import YOLO

# Load a pretrained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on a custom dataset with built-in augmentations
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Этот оптимизированный рабочий процесс, в сочетании с бесшовным экспортом в OpenVINO и TensorRT, обеспечивает беспрепятственный путь от локального прототипирования к развертываниям в облаке или на периферии.

Реальные приложения и идеальные сценарии использования

Выбор между этими архитектурами часто сводится к эксплуатационным ограничениям вашей среды.

Место DAMO-YOLO

DAMO-YOLO — отличный выбор для академических сред, изучающих Neural Architecture Search, или для исследователей, пытающихся воспроизвести сложные стратегии репараметризации. Она также может превосходно проявить себя в строго контролируемых промышленных приложениях, таких как высокоскоростное обнаружение дефектов на производственных линиях, при условии, что команда располагает вычислительными ресурсами для выполнения ее многостадийного обучения.

Почему Ultralytics лидирует в производстве

Для подавляющего большинства коммерческих проектов модели Ultralytics обеспечивают превосходный баланс производительности.

  • Умная розница: Использование многозадачных возможностей YOLOv8 для обработки как обнаружения ограничивающих рамок для инвентаризации, так и оценки позы для анализа поведения клиентов.
  • Сельское хозяйство: Применение сегментации экземпляров для detect точных границ растений и сорняков в реальном времени с тракторных фидов.
  • Аэрофотосъемка: Использование ориентированных ограничивающих рамок (OBB) для точного отслеживания повернутых транспортных средств и судов с дронов или спутников.

Другие примечательные модели

Если вы изучаете более широкий спектр, вас также может заинтересовать сравнение YOLOv10 или YOLO11, которые привносят дальнейшие усовершенствования в безанкерное детектирование.

Подготовка к будущему: Встречайте YOLO26

Хотя YOLOv8 остается фундаментальной моделью, область продолжает развиваться. Для всех новых разработок YOLO26 является рекомендуемым стандартом. Выпущенная в январе 2026 года, она представляет собой монументальный скачок в линейке Ultralytics.

YOLO26 внедряет нативный сквозной NMS-free дизайн, полностью устраняя традиционное узкое место подавления немаксимумов. Этот структурный прорыв обеспечивает до 43% более быстрый инференс на CPU, делая его абсолютным лидером для граничных вычислений и оборудования IoT.

Кроме того, YOLO26 представляет оптимизатор MuSGD — гибрид, вдохновленный методами обучения больших языковых моделей (LLM), который гарантирует более быструю сходимость и высокостабильные циклы обучения. В сочетании с новыми алгоритмами ProgLoss + STAL, YOLO26 демонстрирует значительные улучшения в распознавании мелких объектов, гарантируя, что ваши развертывания будут не только быстрыми, но и бескомпромиссно точными.

Узнайте больше о YOLO26


Комментарии