YOLOv5 против DAMO-YOLO: Всестороннее техническое сравнение
Ландшафт компьютерного зрения в реальном времени постоянно развивается, исследователи и инженеры стремятся к идеальному балансу точности, скорости и удобства использования. Две выдающиеся модели, сформировавшие этот путь, — это Ultralytics YOLOv5 и DAMO-YOLO от Alibaba.
Это руководство предоставляет углубленный технический анализ их архитектур, метрик производительности и методологий обучения, чтобы помочь вам выбрать подходящую модель для вашего следующего развертывания.
Предыстория моделей
Прежде чем углубляться в технические нюансы, важно понять истоки и основные проектные философии, лежащие в основе каждой из этих влиятельных моделей компьютерного зрения.
Ultralytics YOLOv5
Разработанный Гленном Йохером и командой Ultralytics, YOLOv5 стал отраслевым стандартом с момента своего выпуска. Созданный изначально на фреймворке PyTorch, он приоритезировал упрощенный опыт разработчика и надежные возможности развертывания "из коробки".
- Автор: Гленн Джокер
- Организация:Ultralytics
- Дата: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- Документация:Документация Ultralytics YOLOv5
DAMO-YOLO
Разработанный исследователями из Alibaba Group, DAMO-YOLO уделяет большое внимание поиску нейронной архитектуры (NAS) и передовым методам дистилляции. Он расширяет теоретические пределы производительности, специфичной для оборудования, ориентируясь на исследовательские и граничные среды, требующие экстремальной настройки.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация:Alibaba Group
- Дата: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
Архитектурные инновации
Обе модели используют уникальные структурные концепции для достижения своей производительности в реальном времени, хотя их подходы значительно различаются.
YOLOv5: Стабильность и универсальность.
YOLOv5 использует модифицированный бэкбон CSP (Cross Stage Partial) в сочетании с шейкой PANet (Path Aggregation Network). Эта структура высокоэффективна, минимизируя использование памяти CUDA как во время обучения, так и во время инференса.
Одно из величайших преимуществ YOLOv5 — его универсальность в различных задачах. Помимо предсказаний ограничивающих рамок, он предлагает специализированные архитектуры для сегментации изображений и классификации изображений, что позволяет разработчикам стандартизировать свои конвейеры компьютерного зрения вокруг единой, согласованной платформы.
DAMO-YOLO: Автоматизированный поиск архитектуры
Ключевым нововведением DAMO-YOLO является его магистральный модуль MAE-NAS. Используя многоцелевой эволюционный поиск, команда Alibaba обнаружила магистральные модули, которые динамически балансируют точность обнаружения и скорость вывода.
Кроме того, она оснащена шейкой Efficient RepGFPN для улучшенного слияния признаков — что крайне полезно для сложных изменений масштаба, часто встречающихся при анализе спутниковых изображений. Ее конструкция ZeroHead упрощает конечные слои предсказания для уменьшения задержки, хотя такое сложное структурное построение может сделать архитектуру жесткой и затруднить ее модификацию для пользовательских приложений.
Требования к памяти
Архитектуры на основе трансформеров часто сталкиваются с высоким потреблением VRAM. Как YOLOv5, так и DAMO-YOLO используют эффективные сверточные архитектуры для поддержания низкого потребления памяти, но модели Ultralytics заметно оптимизированы для потребительских GPU, что делает их гораздо более доступными для независимых исследователей и стартапов.
Производительность и метрики
Оценка детекторов объектов реального времени требует рассмотрения матрицы параметров: mAP (средняя точность), скорость инференса и размер модели.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Хотя DAMO-YOLO достигает весьма конкурентных показателей mAP при определенных количествах параметров, YOLOv5 постоянно демонстрирует исключительную скорость TensorRT и невероятно низкое количество параметров для своих конфигураций nano и small. Такой баланс производительности гарантирует эффективную работу YOLOv5 в различных сценариях развертывания на периферийных устройствах.
Эффективность обучения и экосистема
Теоретическая точность модели так же хороша, как и ее практическая реализуемость. Именно здесь модели значительно расходятся.
Сложность дистилляции
DAMO-YOLO активно использует многостадийную методологию обучения. Она реализует технику дистилляции знаний по принципу «учитель-ученик», известную как AlignedOTA. Хотя это позволяет извлечь максимальную производительность из модели-ученика, это требует предварительного обучения массивной модели-учителя. Это значительно увеличивает время вычислений, затраты энергии и требуемое оборудование, создавая узкое место для гибких команд машинного обучения.
Преимущество Ultralytics: Простота использования
Напротив, экосистема Ultralytics всемирно известна своими интуитивно понятными API и эффективностью обучения. Благодаря активной разработке и огромному сообществу открытого исходного кода разработчики могут беспрепятственно обучать, проверять и развертывать модели.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")
Ultralytics также предоставляет встроенную поддержку отслеживания экспериментов с помощью таких инструментов, как Weights & Biases и Comet ML, создавая беспрепятственный рабочий процесс.
Реальные примеры использования
- YOLOv5 превосходно проявляет себя в быстро меняющихся производственных средах. Его простая экспортируемость делает его основным выбором для аналитики умной розничной торговли, высокоскоростного detect дефектов производства и интеграции в мобильные приложения через CoreML.
- DAMO-YOLO очень хорошо подходит для строгого академического бенчмаркинга и сценариев, где доступны обширные вычислительные ресурсы для выполнения длительных, дистиллированных тренировочных прогонов, направленных на выжимание минимальных улучшений mAP для конкретных, фиксированных аппаратных целей.
Сценарии использования и рекомендации
Выбор между YOLOv5 и DAMO-YOLO зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда выбирать YOLOv5
YOLOv5 является оптимальным выбором для:
- Проверенные производственные системы: Существующие развертывания, где ценятся долгий track-рекорд стабильности YOLOv5, обширная документация и массивная поддержка сообщества.
- Обучение с ограниченными ресурсами: Среды с ограниченными ресурсами GPU, где эффективный конвейер обучения YOLOv5 и низкие требования к памяти являются преимуществом.
- Обширная поддержка форматов экспорта: Проекты, требующие развертывания во многих форматах, включая ONNX, TensorRT, CoreML и TFLite.
Когда следует выбирать DAMO-YOLO
DAMO-YOLO рекомендуется для:
- Высокопроизводительная видеоаналитика: Обработка видеопотоков с высокой частотой кадров на стационарной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Промышленные производственные линии: Сценарии со строгими ограничениями по задержке GPU на специализированном оборудовании, например, контроль качества в реальном времени на сборочных линиях.
- Исследования нейронного поиска архитектуры: Изучение влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкбонов на производительность detect.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Следующая эволюция: YOLO26
Если вы начинаете новый проект, настоятельно рекомендуется смотреть в будущее. Ultralytics YOLO26 основывается на невероятном фундаменте YOLOv5, внедряя революционные достижения, которые переопределяют современный искусственный интеллект в области зрения.
Почему стоит перейти на YOLO26?
Выпущенный к всеобщему одобрению, YOLO26 является нативно сквозным (end-to-end). Он имеет сквозную NMS-Free архитектуру, полностью исключающую постобработку Non-Maximum Suppression для значительно более быстрого и простого развертывания.
Ключевые нововведения в YOLO26 включают:
- Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM, этот гибрид SGD и Muon обеспечивает высокостабильное обучение и быструю сходимость.
- До 43% более быстрый инференс на CPU: Значительно оптимизирован для периферийных вычислений, что делает его идеальным для IoT-устройств, работающих без выделенных GPU.
- ProgLoss + STAL: Передовые функции потерь, которые значительно улучшают распознавание мелких объектов, что критически важно для аэросъемки с дронов и робототехники.
- Специализированные улучшения: От специализированной угловой функции потерь для ориентированных ограничивающих рамок (OBB) до оценки остаточного логарифмического правдоподобия (RLE) для точной оценки позы, YOLO26 с легкостью справляется со сложными областями.
Заключение
Как YOLOv5, так и DAMO-YOLO заняли свое место в истории обнаружения объектов. DAMO-YOLO остается увлекательным исследованием в области нейронного архитектурного поиска и дистилляции. Однако для организаций, которые отдают приоритет хорошо поддерживаемой экосистеме, простоте использования и быстрому пути к внедрению в производство, модели Ultralytics остаются непревзойденными.
Мы настоятельно рекомендуем использовать платформу Ultralytics для аннотирования, обучения и развертывания моделей следующего поколения, таких как YOLO26, обеспечивая перспективность, скорость и исключительную точность вашего конвейера компьютерного зрения.
Дополнительная литература
- Изучите RT-DETR на основе трансформеров для высокоточных приложений.
- Узнайте о модели YOLO11 предыдущего поколения.
- Узнайте, как оптимизировать развертывания с помощью OpenVINO.