Link to this sectionYOLOv5 против DAMO-YOLO#
Сфера компьютерного зрения реального времени постоянно развивается, а исследователи и инженеры стремятся к идеальному балансу точности, скорости и удобства использования. Две выдающиеся модели, которые определили этот путь, — это Ultralytics YOLOv5 и DAMO-YOLO от Alibaba.
Это руководство содержит глубокий технический анализ их архитектур, метрик производительности и методологий обучения, чтобы помочь тебе выбрать правильную модель для твоего следующего проекта.
Link to this sectionИстория моделей#
Прежде чем погружаться в технические нюансы, важно понять истоки и основные концепции дизайна каждой из этих влиятельных моделей компьютерного зрения.
Link to this sectionUltralytics YOLOv5#
Разработанная Гленном Джочером и командой Ultralytics, YOLOv5 стала промышленным стандартом с момента своего выпуска. Созданная на базе фреймворка PyTorch, она с самого начала уделяла приоритетное внимание оптимизированному опыту разработчика и надежным возможностям развертывания.
- Автор: Гленн Джочер
- Организация: Ultralytics
- Дата: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- Документация: Документация Ultralytics YOLOv5
Link to this sectionDAMO-YOLO#
Созданная исследователями Alibaba Group, модель DAMO-YOLO делает большой упор на нейроархитектурный поиск (NAS) и передовые методы дистилляции. Она расширяет теоретические границы производительности под конкретное оборудование, что делает ее востребованной в исследованиях и периферийных средах, требующих тонкой настройки.
- Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
- Организация: Alibaba Group
- Дата: 23.11.2022
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
Link to this sectionАрхитектурные инновации#
Обе модели используют уникальные структурные концепции для достижения производительности в реальном времени, хотя их подходы существенно различаются.
Link to this sectionYOLOv5: стабильность и универсальность#
YOLOv5 использует модифицированный бэкенд CSP (Cross Stage Partial) в сочетании с неком PANet (Path Aggregation Network). Эта структура крайне эффективна и минимизирует использование видеопамяти CUDA как во время обучения, так и при инференсе.
Одна из важнейших сильных сторон YOLOv5 — универсальность в решении задач. Помимо предсказания ограничивающих рамок, она предлагает специализированные архитектуры для сегментации изображений и классификации изображений, позволяя разработчикам стандартизировать свои конвейеры компьютерного зрения в рамках единого, связного фреймворка.
Link to this sectionDAMO-YOLO: автоматизированный поиск архитектуры#
Ключевая инновация DAMO-YOLO — это бэкенд MAE-NAS. Используя эволюционный поиск по нескольким критериям, команда Alibaba нашла архитектуры, которые динамически балансируют точность детектирования и скорость инференса.
Кроме того, она оснащена неком Efficient RepGFPN для улучшенного объединения признаков — это крайне полезно при работе со сложными изменениями масштаба, часто встречающимися в анализе спутниковых снимков. Дизайн ZeroHead упрощает финальные слои предсказания для снижения задержки, хотя сложность генерации такой структуры может сделать архитектуру жесткой и трудноизменяемой для кастомных приложений.
Архитектуры на основе Transformer часто сталкиваются с высоким потреблением VRAM. Как YOLOv5, так и DAMO-YOLO используют эффективные сверточные решения для снижения объема потребляемой памяти, но модели Ultralytics заметно лучше оптимизированы для потребительских GPU, что делает их гораздо более доступными для независимых исследователей и стартапов.
Link to this sectionПроизводительность и метрики#
Оценка детекторов объектов в реальном времени требует анализа матрицы mAP (средняя точность), скорости инференса и параметров размера модели.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Хотя DAMO-YOLO достигает очень конкурентоспособных показателей mAP при определенном количестве параметров, YOLOv5 стабильно демонстрирует исключительные скорости TensorRT и невероятно малое количество параметров для конфигураций nano и small. Такой баланс производительности гарантирует, что YOLOv5 эффективно работает в разнообразных сценариях развертывания на периферийных устройствах.
Link to this sectionЭффективность обучения и экосистема#
Теоретическая точность модели хороша ровно настолько, насколько она практически реализуема. Именно здесь пути моделей сильно расходятся.
Link to this sectionСложность дистилляции#
DAMO-YOLO сильно полагается на многоэтапную методологию обучения. Она реализует технику дистилляции знаний «учитель-ученик», известную как AlignedOTA. Хотя это позволяет извлечь максимальную производительность из модели-ученика, для этого сначала нужно обучить массивную модель-учитель. Это значительно увеличивает время вычислений, энергозатраты и требования к оборудованию, создавая «бутылочное горлышко» для гибких команд ML.
Link to this sectionПреимущество Ultralytics: простота использования#
И наоборот, экосистема Ultralytics всемирно известна своими интуитивно понятными API и эффективностью обучения. Благодаря активной разработке и огромному сообществу open-source, разработчики могут беспрепятственно обучать, валидировать и развертывать модели.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")Ultralytics также предоставляет встроенную поддержку отслеживания экспериментов через такие инструменты, как Weights & Biases и Comet ML, что делает рабочий процесс максимально плавным.
Link to this sectionРеальные сценарии использования#
- YOLOv5 отлично проявляет себя в динамичных производственных средах. Возможность простой экспортируемости делает ее лучшим выбором для умной розничной аналитики, высокоскоростного обнаружения дефектов на производстве и интеграции в мобильные приложения через CoreML.
- DAMO-YOLO отлично подходит для строгого академического бенчмаркинга и сценариев, где доступны огромные вычислительные ресурсы для выполнения длительных, дистиллированных циклов обучения, нацеленных на получение незначительных улучшений mAP для специфических, фиксированных целевых устройств.
Link to this sectionСценарии использования и рекомендации#
Выбор между YOLOv5 и DAMO-YOLO зависит от твоих специфических требований к проекту, ограничений при развертывании и предпочтений в экосистеме.
Link to this sectionКогда стоит выбрать YOLOv5#
YOLOv5 — отличный выбор для:
- Проверенных производственных систем: существующих развертываний, где ценятся долгая история стабильности YOLOv5, обширная документация и огромная поддержка сообщества.
- Обучения с ограниченными ресурсами: сред с ограниченными ресурсами GPU, где эффективный конвейер обучения YOLOv5 и более низкие требования к памяти являются преимуществом.
- Обширной поддержки форматов экспорта: проектов, требующих развертывания во многих форматах, включая ONNX, TensorRT, CoreML и TFLite.
Link to this sectionКогда выбирать DAMO-YOLO#
DAMO-YOLO рекомендуется для:
- Высокопроизводительной видеоаналитики: обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при batch-1 является основной метрикой.
- Промышленных производственных линий: сценариев с жесткими ограничениями по задержке GPU на специализированном оборудовании, таких как проверка качества в реальном времени на сборочных линиях.
- Исследований Neural Architecture Search: изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкендов на производительность детекции.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionСледующая эволюция: YOLO26#
Если ты начинаешь новый проект, настоятельно рекомендую взглянуть в будущее. Ultralytics YOLO26 построена на невероятном фундаменте YOLOv5, включая революционные достижения, которые меняют представление о современном AI в компьютерном зрении.
Выпущенная под всеобщее одобрение, YOLO26 является нативно end-to-end моделью. Она оснащена дизайном End-to-End NMS-Free, полностью исключающим постобработку Non-Maximum Suppression для существенно более быстрого и простого развертывания.
Ключевые инновации в YOLO26 включают:
- Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM, этот гибрид SGD и Muon обеспечивает высокую стабильность обучения и быструю сходимость.
- До 43% быстрее инференс на CPU: Значительно оптимизировано для периферийных вычислений, что делает ее идеальной для IoT-устройств, работающих без выделенных GPU.
- ProgLoss + STAL: Передовые функции потерь, которые кардинально улучшают распознавание мелких объектов, что критически важно для аэрофотосъемки с дронов и робототехники.
- Улучшения для конкретных задач: От специализированных функций потерь угла для ориентированных BBox (OBB) до оценки остаточного логарифмического правдоподобия (RLE) для точной оценки позы (Pose estimation) — YOLO26 с легкостью справляется со сложными задачами.
Link to this sectionЗаключение#
И YOLOv5, и DAMO-YOLO заняли свое место в истории обнаружения объектов. DAMO-YOLO остается интересным объектом изучения нейроархитектурного поиска и дистилляции. Однако для организаций, которые ценят хорошо поддерживаемую экосистему, простоту использования и быстрый путь до продакшена, модели Ultralytics остаются непревзойденными.
Мы настоятельно рекомендуем использовать платформу Ultralytics для аннотирования, обучения и развертывания моделей следующего поколения, таких как YOLO26, чтобы обеспечить твоему конвейеру компьютерного зрения надежность на будущее, скорость и поразительную точность.