YOLO26 против DAMO-YOLO: Техническое сравнение детекторов объектов реального времени
При выборе современной модели компьютерного зрения критически важно найти оптимальный баланс между скоростью вывода, точностью и простотой развертывания. В этом подробном руководстве сравниваются две известные модели в области визуального ИИ: Ultralytics YOLO26 и DAMO-YOLO. Хотя обе архитектуры раздвигают границы обнаружения объектов в реальном времени, их базовые принципы проектирования и предполагаемые сценарии использования значительно различаются.
Архитектурные инновации и дизайн
Ultralytics YOLO26: Стандарт компьютерного зрения для периферийных устройств
Разработанная Гленном Джочером и Цзин Цю в Ultralytics и выпущенная 14 января 2026 года, YOLO26 представляет собой огромный шаг вперед в линейке YOLO. Она была спроектирована с нуля для периферийных вычислений, органично сочетая передовые методы обучения LLM с современными архитектурами компьютерного зрения.
Ключевые архитектурные прорывы YOLO26 включают:
- Дизайн End-to-End без NMS: Основываясь на новаторской работе YOLOv10, YOLO26 является нативно сквозной (end-to-end). Полностью исключая не-максимальное подавление (NMS) при постобработке, она гарантирует детерминированную задержку и значительно упрощает конвейеры развертывания.
- Удаление DFL: Удаление Distribution Focal Loss (DFL) оптимизирует граф модели. Это делает экспорт в такие среды развертывания, как ONNX и TensorRT, гораздо проще и обеспечивает лучшую совместимость с маломощными периферийными устройствами.
- Оптимизатор MuSGD: Вдохновленный Kimi K2 от Moonshot AI, этот гибрид стохастического градиентного спуска (SGD) и Muon привносит инновации обучения LLM в компьютерное зрение, обеспечивая удивительно стабильное обучение и быструю сходимость.
- ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают заметное улучшение распознавания мелких объектов, что является критической необходимостью для анализа аэрофотоснимков с дронов и сложных робототехнических конвейеров.
DAMO-YOLO: Масштабируемый поиск архитектуры нейронных сетей
Разработанная Сяньчжэ Сюем, Ици Цзяном, Вэйхуа Чэнем, Илунем Хуаном, Юань Чжаном и Сюю Сунем из Alibaba Group (выпущена 23 ноября 2022 года), DAMO-YOLO уделяет большое внимание автоматизированному обнаружению архитектуры. Исследование, подробно описанное в их статье на arXiv, использует поиск архитектуры нейронных сетей (NAS) для поиска оптимальных основ (backbones) при жестких ограничениях по задержке.
Ключевые архитектурные особенности DAMO-YOLO включают:
- Основа MAE-NAS: Использует многоцелевой эволюционный поиск для автоматического проектирования основ, которые балансируют точность с целевой скоростью развертывания.
- Эффективная RepGFPN: Надежный дизайн "тяжелой шеи" (heavy-neck), который оптимизирует слияние признаков в разных масштабах, делая модель высокоэффективной при обработке сложных визуальных сцен.
- ZeroHead: Радикально упрощенная головка детектора, разработанная для минимизации вычислительных затрат в конечных слоях прогнозирования.
Хотя архитектура DAMO-YOLO, управляемая NAS, отлично подходит для конкретных, заранее заданных аппаратных ограничений, дизайн без NMS и удаление DFL в YOLO26 делают её гораздо более универсальным и предсказуемым выбором для широкого спектра разнообразных периферийных и облачных сред.
Сравнение производительности и метрик
Прямое сравнение вариантов моделей, обученных на стандартном наборе данных COCO, выявляет различные профили производительности. В приведенной ниже таблице представлены компромиссы между точностью (mAP), скоростью и вычислительными затратами (количество параметров и FLOPs).
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Анализ производительности
Анализируя данные, видишь, что баланс производительности сильно склоняется в сторону YOLO26 для современных приложений. Вариант Nano (YOLO26n) исключительно легкий, имеет всего 2.4 млн параметров и предлагает молниеносную скорость 1.7 мс на графическом процессоре NVIDIA T4. Кроме того, YOLO26 специально спроектирована для обеспечения до 43% более быстрого вывода на процессоре (CPU), что делает её бесспорным чемпионом для периферийных устройств без выделенных графических ускорителей.
Хотя DAMO-YOLOt немного превосходит YOLO26n по чистому mAP, она делает это ценой почти четырехкратного увеличения количества параметров (8.5 млн). По мере перехода к более крупным вариантам, YOLO26 неизменно превосходит DAMO-YOLO по точности, сохраняя при этом меньший объем памяти, меньшее потребление памяти CUDA во время обучения и значительно более высокую скорость TensorRT.
Экосистема, удобство использования и эффективность обучения
Истинная сила модели машинного обучения заключается не только в её базовых показателях, но и в том, насколько легко она может быть использована разработчиками и исследователями.
Преимущество Ultralytics
Выбор модели Ultralytics гарантирует доступ к высококачественной, ориентированной на разработчиков экосистеме. Сложные рабочие процессы, включающие аугментацию данных, настройку гиперпараметров и надежное отслеживание экспериментов, сведены к интуитивно понятным командам.
Более того, YOLO26 предлагает непревзойденную универсальность. В то время как DAMO-YOLO является исключительно детектором объектов, YOLO26 предоставляет комплексные, специфичные для задач улучшения во многих областях «из коробки»:
- Сегментация экземпляров: Использование специализированной функции потерь для семантической сегментации и многомасштабного прототипирования.
- Оценка позы: Использование продвинутой оценки остаточного логарифмического правдоподобия (RLE).
- Ориентированный ограничивающий прямоугольник (OBB): Включение специализированных функций потерь по углу для идеального решения сложных граничных проблем.
- Классификация изображений: Для быстрой и легкой глобальной маркировки изображений.
Методологии обучения
Обучение DAMO-YOLO часто включает сложный процесс дистилляции, где большая модель-«учитель» обучает меньшую модель-«ученика». Хотя этот метод позволяет получить незначительный прирост точности, он требует значительного объема памяти GPU и более длительных циклов обучения.
И наоборот, требования к памяти для YOLO26 значительно ниже. Благодаря оптимизатору MuSGD, YOLO26 обучается быстро и эффективно на обычном потребительском оборудовании. Вот как легко ты можешь обучить модель YOLO26, используя Python API от Ultralytics на базе PyTorch:
from ultralytics import YOLO
# Initialize the natively end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the optimized, NMS-free model
model.export(format="onnx")Применение в реальных условиях
Выбор между этими архитектурами в конечном итоге зависит от среды развертывания.
Периферийный ИИ и устройства IoT
Для камер интеллектуальной розничной торговли, автоматизированных сельскохозяйственных мониторов или робототехники вычислительные ресурсы строго ограничены. Здесь YOLO26 является окончательным выбором. Её на 43% более быстрый вывод на CPU, полностью свободный от NMS конвейер и крошечный объем параметров позволяют ей плавно работать на таких периферийных устройствах, как Raspberry Pi, без ущерба для критически важной точности.
Высокоскоростное производство и контроль качества
На быстродействующих линиях автоматизации производства обнаружение дефектов на быстро движущихся конвейерных лентах требует минимальной, детерминированной задержки. Хотя DAMO-YOLO может работать адекватно на определенных конфигурациях GPU, колебания задержки, вносимые традиционной постобработкой NMS, могут привести к рассинхронизации роботизированных приводов. Сквозная природа YOLO26 гарантирует стабильное, предсказуемое время обработки кадров, обеспечивая безупречную интеграцию в высокоскоростную промышленную робототехнику.
Дроны и аэрофотосъемка
Обнаружение крошечных объектов с больших высот — задача заведомо сложная. Интеграция ProgLoss и STAL в YOLO26 значительно улучшает распознавание мелких объектов. Независимо от того, отслеживаешь ли ты дикую природу или анализируешь загруженность дорог с помощью БПЛА, YOLO26 последовательно идентифицирует объекты с меньшей площадью в пикселях, которые старые архитектуры, включая DAMO-YOLO, часто пропускают.
Варианты использования и рекомендации
Выбор между YOLO26 и DAMO-YOLO зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.
Когда выбирать YOLO26
YOLO26 — отличный выбор, если:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Когда выбирать DAMO-YOLO
DAMO-YOLO рекомендуется для:
- Высокопроизводительной видеоаналитики: Обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при размере пакета 1 является основным показателем.
- Линий промышленного производства: Сценариев со строгими ограничениями задержки GPU на специализированном оборудовании, таких как контроль качества в реальном времени на сборочных линиях.
- Исследований в области поиска архитектуры нейронных сетей: Изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных основ на производительность обнаружения.
Заключение
Хотя DAMO-YOLO остается захватывающим исследованием возможностей поиска архитектуры нейронных сетей для конкретных аппаратных целей, Ultralytics YOLO26 является превосходным, всесторонним решением для современного специалиста по ИИ. Благодаря своей сквозной архитектуре без NMS, значительно меньшим требованиям к памяти, гибридному оптимизатору MuSGD и безупречно поддерживаемой экосистеме, YOLO26 дает разработчикам возможность создавать и развертывать современные системы компьютерного зрения быстрее и надежнее, чем когда-либо прежде.