Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 против DAMO-YOLO#

Сфера компьютерного зрения реального времени постоянно развивается, а исследователи и инженеры стремятся к идеальному балансу точности, скорости и удобства использования. Две выдающиеся модели, которые определили этот путь, — это Ultralytics YOLOv5 и DAMO-YOLO от Alibaba.

Это руководство содержит глубокий технический анализ их архитектур, метрик производительности и методологий обучения, чтобы помочь тебе выбрать правильную модель для твоего следующего проекта.

Link to this sectionИстория моделей#

Прежде чем погружаться в технические нюансы, важно понять истоки и основные концепции дизайна каждой из этих влиятельных моделей компьютерного зрения.

Link to this sectionUltralytics YOLOv5#

Разработанная Гленном Джочером и командой Ultralytics, YOLOv5 стала промышленным стандартом с момента своего выпуска. Созданная на базе фреймворка PyTorch, она с самого начала уделяла приоритетное внимание оптимизированному опыту разработчика и надежным возможностям развертывания.

Узнай больше о YOLOv5

Link to this sectionDAMO-YOLO#

Созданная исследователями Alibaba Group, модель DAMO-YOLO делает большой упор на нейроархитектурный поиск (NAS) и передовые методы дистилляции. Она расширяет теоретические границы производительности под конкретное оборудование, что делает ее востребованной в исследованиях и периферийных средах, требующих тонкой настройки.

Узнай больше о DAMO-YOLO

Link to this sectionАрхитектурные инновации#

Обе модели используют уникальные структурные концепции для достижения производительности в реальном времени, хотя их подходы существенно различаются.

Link to this sectionYOLOv5: стабильность и универсальность#

YOLOv5 использует модифицированный бэкенд CSP (Cross Stage Partial) в сочетании с неком PANet (Path Aggregation Network). Эта структура крайне эффективна и минимизирует использование видеопамяти CUDA как во время обучения, так и при инференсе.

Одна из важнейших сильных сторон YOLOv5 — универсальность в решении задач. Помимо предсказания ограничивающих рамок, она предлагает специализированные архитектуры для сегментации изображений и классификации изображений, позволяя разработчикам стандартизировать свои конвейеры компьютерного зрения в рамках единого, связного фреймворка.

Link to this sectionDAMO-YOLO: автоматизированный поиск архитектуры#

Ключевая инновация DAMO-YOLO — это бэкенд MAE-NAS. Используя эволюционный поиск по нескольким критериям, команда Alibaba нашла архитектуры, которые динамически балансируют точность детектирования и скорость инференса.

Кроме того, она оснащена неком Efficient RepGFPN для улучшенного объединения признаков — это крайне полезно при работе со сложными изменениями масштаба, часто встречающимися в анализе спутниковых снимков. Дизайн ZeroHead упрощает финальные слои предсказания для снижения задержки, хотя сложность генерации такой структуры может сделать архитектуру жесткой и трудноизменяемой для кастомных приложений.

Требования к памяти

Архитектуры на основе Transformer часто сталкиваются с высоким потреблением VRAM. Как YOLOv5, так и DAMO-YOLO используют эффективные сверточные решения для снижения объема потребляемой памяти, но модели Ultralytics заметно лучше оптимизированы для потребительских GPU, что делает их гораздо более доступными для независимых исследователей и стартапов.

Link to this sectionПроизводительность и метрики#

Оценка детекторов объектов в реальном времени требует анализа матрицы mAP (средняя точность), скорости инференса и параметров размера модели.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Хотя DAMO-YOLO достигает очень конкурентоспособных показателей mAP при определенном количестве параметров, YOLOv5 стабильно демонстрирует исключительные скорости TensorRT и невероятно малое количество параметров для конфигураций nano и small. Такой баланс производительности гарантирует, что YOLOv5 эффективно работает в разнообразных сценариях развертывания на периферийных устройствах.

Link to this sectionЭффективность обучения и экосистема#

Теоретическая точность модели хороша ровно настолько, насколько она практически реализуема. Именно здесь пути моделей сильно расходятся.

Link to this sectionСложность дистилляции#

DAMO-YOLO сильно полагается на многоэтапную методологию обучения. Она реализует технику дистилляции знаний «учитель-ученик», известную как AlignedOTA. Хотя это позволяет извлечь максимальную производительность из модели-ученика, для этого сначала нужно обучить массивную модель-учитель. Это значительно увеличивает время вычислений, энергозатраты и требования к оборудованию, создавая «бутылочное горлышко» для гибких команд ML.

Link to this sectionПреимущество Ultralytics: простота использования#

И наоборот, экосистема Ultralytics всемирно известна своими интуитивно понятными API и эффективностью обучения. Благодаря активной разработке и огромному сообществу open-source, разработчики могут беспрепятственно обучать, валидировать и развертывать модели.

from ultralytics import YOLO

# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX format for deployment
model.export(format="onnx")

Ultralytics также предоставляет встроенную поддержку отслеживания экспериментов через такие инструменты, как Weights & Biases и Comet ML, что делает рабочий процесс максимально плавным.

Link to this sectionРеальные сценарии использования#

  • YOLOv5 отлично проявляет себя в динамичных производственных средах. Возможность простой экспортируемости делает ее лучшим выбором для умной розничной аналитики, высокоскоростного обнаружения дефектов на производстве и интеграции в мобильные приложения через CoreML.
  • DAMO-YOLO отлично подходит для строгого академического бенчмаркинга и сценариев, где доступны огромные вычислительные ресурсы для выполнения длительных, дистиллированных циклов обучения, нацеленных на получение незначительных улучшений mAP для специфических, фиксированных целевых устройств.

Link to this sectionСценарии использования и рекомендации#

Выбор между YOLOv5 и DAMO-YOLO зависит от твоих специфических требований к проекту, ограничений при развертывании и предпочтений в экосистеме.

Link to this sectionКогда стоит выбрать YOLOv5#

YOLOv5 — отличный выбор для:

  • Проверенных производственных систем: существующих развертываний, где ценятся долгая история стабильности YOLOv5, обширная документация и огромная поддержка сообщества.
  • Обучения с ограниченными ресурсами: сред с ограниченными ресурсами GPU, где эффективный конвейер обучения YOLOv5 и более низкие требования к памяти являются преимуществом.
  • Обширной поддержки форматов экспорта: проектов, требующих развертывания во многих форматах, включая ONNX, TensorRT, CoreML и TFLite.

Link to this sectionКогда выбирать DAMO-YOLO#

DAMO-YOLO рекомендуется для:

  • Высокопроизводительной видеоаналитики: обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при batch-1 является основной метрикой.
  • Промышленных производственных линий: сценариев с жесткими ограничениями по задержке GPU на специализированном оборудовании, таких как проверка качества в реальном времени на сборочных линиях.
  • Исследований Neural Architecture Search: изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкендов на производительность детекции.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

  • Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
  • Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
  • Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionСледующая эволюция: YOLO26#

Если ты начинаешь новый проект, настоятельно рекомендую взглянуть в будущее. Ultralytics YOLO26 построена на невероятном фундаменте YOLOv5, включая революционные достижения, которые меняют представление о современном AI в компьютерном зрении.

Зачем переходить на YOLO26?

Выпущенная под всеобщее одобрение, YOLO26 является нативно end-to-end моделью. Она оснащена дизайном End-to-End NMS-Free, полностью исключающим постобработку Non-Maximum Suppression для существенно более быстрого и простого развертывания.

Ключевые инновации в YOLO26 включают:

  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении LLM, этот гибрид SGD и Muon обеспечивает высокую стабильность обучения и быструю сходимость.
  • До 43% быстрее инференс на CPU: Значительно оптимизировано для периферийных вычислений, что делает ее идеальной для IoT-устройств, работающих без выделенных GPU.
  • ProgLoss + STAL: Передовые функции потерь, которые кардинально улучшают распознавание мелких объектов, что критически важно для аэрофотосъемки с дронов и робототехники.
  • Улучшения для конкретных задач: От специализированных функций потерь угла для ориентированных BBox (OBB) до оценки остаточного логарифмического правдоподобия (RLE) для точной оценки позы (Pose estimation) — YOLO26 с легкостью справляется со сложными задачами.

Link to this sectionЗаключение#

И YOLOv5, и DAMO-YOLO заняли свое место в истории обнаружения объектов. DAMO-YOLO остается интересным объектом изучения нейроархитектурного поиска и дистилляции. Однако для организаций, которые ценят хорошо поддерживаемую экосистему, простоту использования и быстрый путь до продакшена, модели Ultralytics остаются непревзойденными.

Мы настоятельно рекомендуем использовать платформу Ultralytics для аннотирования, обучения и развертывания моделей следующего поколения, таких как YOLO26, чтобы обеспечить твоему конвейеру компьютерного зрения надежность на будущее, скорость и поразительную точность.

Link to this sectionДополнительная литература#

  • Изучи модель RT-DETR на базе трансформера для высокоточных приложений.
  • Узнай о предыдущем поколении модели YOLO11.
  • Узнай, как оптимизировать развертывание с OpenVINO.

Комментарии