Link to this sectionYOLOX против DAMO-YOLO#
Эволюция обнаружения объектов в реальном времени ознаменовалась многочисленными сменами парадигм: от архитектур с использованием анкоров к архитектурам без них и от вручную спроектированных бэкбонов к автоматизированному поиску нейронных архитектур (NAS). В этом подробном техническом сравнении мы проанализируем две важные вехи на этом пути: YOLOX и DAMO-YOLO. Мы изучим их архитектурные инновации, методологии обучения и компромиссы в производительности, а также подчеркнем, как современный Ultralytics YOLO26 предоставляет непревзойденную альтернативу для современных разработчиков.
Link to this sectionYOLOX: Пионер парадигмы без анкоров (anchor-free)#
Выпущенный 18 июля 2021 года Чжэн Гэ, Сунтао Лю, Фэном Ваном, Земином Ли и Цзянь Сунем в Megvii, YOLOX стал критическим поворотным моментом, успешно интегрировав дизайн без анкоров в семейство YOLO. Описанный в их подробном техническом отчете на ArXiv, YOLOX был нацелен на преодоление разрыва между академическими исследованиями и промышленным внедрением.
Link to this sectionКлючевые архитектурные инновации#
YOLOX привнес несколько основных структурных изменений, которые значительно улучшили показатели его предшественников:
- Механизм без анкоров: Предсказывая центр объекта и размеры его ограничивающей рамки напрямую, YOLOX сократил количество эвристик проектирования и упростил сложные процессы кластеризации анкоров. Это делает его легко адаптируемым к различным сценариям компьютерного зрения.
- Разделенная голова (Decoupled Head): Традиционные модели YOLO использовали единую связанную голову как для классификации, так и для регрессии. YOLOX внедрил разделенную голову, обрабатывая классификацию и локализацию отдельно, что позволило достичь сходимости намного быстрее и улучшить точность.
- Назначение меток SimOTA: Упрощенная версия Optimal Transport Assignment (OTA) использовалась для динамического назначения положительных образцов, что сократило время обучения и устранило неоднозначности при назначении центральных точек.
Дизайн разделенной головы YOLOX оказал сильное влияние на последующие поколения детекторов объектов, став стандартной функцией во многих современных моделях.
Link to this sectionDAMO-YOLO: Масштабируемый автоматизированный поиск архитектур#
Разработанный Сяньчжэ Сюем и командой исследователей в Alibaba Group, DAMO-YOLO был представлен 23 ноября 2022 года. Как подробно описано в их публикации на ArXiv, модель активно использовала поиск нейронных архитектур (NAS), чтобы раздвинуть границы Парето для скорости и точности.
Link to this sectionКлючевые архитектурные инновации#
Стратегия DAMO-YOLO была построена на автоматизации проектирования эффективных структур:
- Бэкбоны MAE-NAS: Используя многоцелевой эволюционный алгоритм, DAMO-YOLO обнаружил высокоэффективные бэкбоны, настроенные под конкретные бюджеты задержки, особенно при экспорте в такие фреймворки, как TensorRT.
- Эффективный RepGFPN: Дизайн с тяжелой «шеей» (neck), который значительно улучшает слияние признаков при различных пространственных разрешениях, что крайне полезно для анализа аэрофотоснимков и обнаружения объектов разных масштабов.
- ZeroHead: Упрощенная голова предсказания, которая уменьшает вычислительную избыточность без ущерба для общей средней точности (mAP) модели.
- AlignedOTA и дистилляция: Включает продвинутое назначение меток и дистилляцию знаний «учитель-ученик» для извлечения максимальной производительности из меньших моделей-учеников.
Link to this sectionСравнение производительности и метрик#
Сравнивая эти две модели, мы должны взглянуть на количество параметров, требуемые FLOPs и профили задержки. Ниже представлены данные бенчмарков, сравнивающие YOLOX и DAMO-YOLO в различных масштабах.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Хотя обе модели достигают впечатляющих результатов, у них есть свои нюансы. YOLOX требует тщательной настройки разделенной головы, а сильная зависимость DAMO-YOLO от дистилляции делает переобучение на пользовательских наборах данных крайне ресурсоемким, требуя огромного объема памяти GPU.
Link to this sectionСценарии использования и рекомендации#
Выбор между YOLOX и DAMO-YOLO зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.
Link to this sectionКогда выбирать YOLOX#
YOLOX — сильный выбор для:
- Исследований безъякорного обнаружения: академических исследований, использующих чистую безъякорную архитектуру YOLOX как базу для экспериментов с новыми головами детекции или функциями потерь.
- Сверхлегких Edge-устройств: развертывания на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый вес варианта YOLOX-Nano (0.91 млн параметров).
- Изучения назначения меток SimOTA: исследовательских проектов, анализирующих стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.
Link to this sectionКогда выбирать DAMO-YOLO#
DAMO-YOLO рекомендуется для:
- Высокопроизводительной видеоаналитики: обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при batch-1 является основной метрикой.
- Промышленных производственных линий: сценариев с жесткими ограничениями по задержке GPU на специализированном оборудовании, таких как проверка качества в реальном времени на сборочных линиях.
- Исследований Neural Architecture Search: изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкендов на производительность детекции.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionПреимущество Ultralytics: представляем YOLO26#
Хотя YOLOX и DAMO-YOLO представляют собой важные исторические вехи, современным разработчикам нужно решение, которое сочетает в себе передовую точность с непревзойденной простотой использования. Именно здесь Ultralytics YOLO26 меняет ландшафт. Выпущенный в январе 2026 года, YOLO26 опирается на наследие моделей без NMS, обеспечивая идеальный баланс скорости, точности и удобства для разработчиков.
Link to this sectionПочему стоит выбрать YOLO26?#
Интегрированная экосистема Ultralytics превосходит фрагментированные академические репозитории, предлагая:
- Сквозной дизайн без NMS: YOLO26 нативно исключает немаксимальное подавление (NMS) во время инференса. Это приводит к невероятно быстрой и предсказуемой задержке, что критически важно для развертывания на периферийных устройствах (edge) и автономных транспортных средств.
- Удаление DFL: Убрав Distribution Focal Loss, YOLO26 упрощает процессы экспорта на периферийные устройства, значительно снижая требования к памяти для легких приложений.
- Оптимизатор MuSGD: YOLO26 заимствует инновации обучения LLM с помощью своего гибридного оптимизатора SGD и Muon, обеспечивая стабильность обучения и сверхбыструю сходимость.
- До 43% быстрее инференс на CPU: Благодаря глубоким структурным оптимизациям, YOLO26 работает невероятно быстро на CPU без необходимости использования дорогого оборудования GPU.
- Продвинутые функции потерь: Интеграция ProgLoss + STAL обеспечивает значительные улучшения в распознавании мелких объектов, что делает модель идеальной для таких задач, как мониторинг с дронов и мониторинг IoT.
- Универсальность: В отличие от DAMO-YOLO, который является строго детектором, YOLO26 нативно поддерживает задачи сегментации экземпляров, оценки позы, классификации изображений и ориентированных ограничивающих рамок (OBB) в рамках единой платформы.
С Ultralytics Python API тебе не нужно вручную настраивать сложные конвейеры дистилляции или писать сотни строк кода на C++ для развертывания модели.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")Link to this sectionДругие модели для рассмотрения#
Экосистема компьютерного зрения обширна. В зависимости от твоих конкретных ограничений, ты также можешь захотеть изучить другие архитектуры, полностью поддерживаемые экосистемой Ultralytics:
- YOLO11: Высокоэффективный предшественник YOLO26, известный своей надежностью в розничной аналитике и контроле качества на производстве.
- YOLOv8: Легендарная, очень стабильная модель без анкоров, которая популяризировала широкое развертывание на периферии.
- RT-DETR: Трансформер для обнаружения в реальном времени, разработанный Baidu, предлагающий отличную альтернативу для задач, которые сильно выигрывают от механизмов глобального внимания, хотя и ценой более высоких требований к памяти при обучении.
Link to this sectionЗаключение#
И YOLOX, и DAMO-YOLO внесли важные концепции в развитие глубокого обучения: YOLOX подтвердил эффективность подхода с разделенной головой без анкоров, а DAMO-YOLO продемонстрировал мощь автоматизированного поиска архитектур. Однако для реального промышленного производства сложности их исходных исследовательских кодовых баз могут замедлить работу гибких команд.
Используя комплексную платформу Ultralytics, разработчики могут обойти эти препятствия. Благодаря сквозному дизайну YOLO26, превосходной скорости на CPU и обширной документации, достижение передового уровня в Vision AI стало доступнее, чем когда-либо. Независимо от того, создаешь ли ты инфраструктуру умного города, медицинскую диагностику или продвинутую робототехнику, Ultralytics обеспечивает наиболее эффективный путь от необработанных данных до надежного развертывания в реальном мире.