Link to this sectionDAMO-YOLO против RTDETRv2#
Быстро развивающаяся сфера компьютерного зрения породила впечатляющее множество архитектур, созданных для баланса между скоростью, точностью и вычислительной эффективностью. Две выдающиеся модели, предложившие уникальные подходы к решению этих задач, — это DAMO-YOLO и RTDETRv2. Хотя обе модели стремятся обеспечить передовые решения для инференса в реальном времени, они фундаментально различаются в своей архитектурной философии.
Это подробное руководство глубоко погружается в технические характеристики, архитектурные инновации и практические сценарии использования обеих моделей, а также исследует, как современные решения, такие как Ultralytics Platform и передовая YOLO26, переосмыслили отраслевые стандарты развертывания и простоты использования.
Link to this sectionОбзор моделей#
Link to this sectionПонимание DAMO-YOLO#
Разработанный исследователями из Alibaba Group, метод DAMO-YOLO представляет собой быстрый и точный способ обнаружения объектов, в значительной степени полагающийся на Neural Architecture Search (NAS). Он заменяет традиционные бэкбоны, созданные вручную, на структуры, сгенерированные с помощью NAS, разработанные для обеспечения низкой задержки. Кроме того, он включает эффективный RepGFPN (Reparameterized Generalized Feature Pyramid Network) и дизайн ZeroHead для оптимизации агрегации признаков и предсказаний ограничивающих рамок.
Ключевые детали модели:
- Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
- Организация: Alibaba Group
- Дата: 23.11.2022
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
- Документация: DAMO-YOLO Documentation
Link to this sectionПонимание RTDETRv2#
RTDETRv2 от Baidu представляет собой значительный скачок для трансформеров обнаружения в реальном времени. В отличие от традиционных сверточных нейронных сетей (CNN), которые полагаются на якорные рамки и Non-Maximum Suppression (NMS), RTDETRv2 использует механизмы self-attention для контекстного анализа всего изображения целиком. Она напрямую выдает ограничивающие рамки, полностью обходя этап пост-обработки NMS. Эта модель вводит стратегию обучения "bag of freebies" для улучшения базовой точности без увеличения задержки инференса.
Ключевые детали модели:
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 24.07.2024
- Arxiv: 2407.17140
- GitHub: репозиторий RT-DETR
- Документация: документация RTDETRv2
Хотя трансформеры требуют больших вычислительных ресурсов, их способность обрабатывать глобальный контекст делает их невероятно эффективными для понимания сложных сцен, что является главным преимуществом RTDETRv2.
Link to this sectionСравнение производительности#
При оценке этих моделей для реального развертывания такие параметры, как Mean Average Precision (mAP), скорость инференса и объем используемой памяти, имеют критическое значение. Модели на основе трансформеров, такие как RTDETRv2, обычно требуют больше памяти CUDA во время обучения и инференса по сравнению с легковесными CNN, такими как DAMO-YOLO.
Ниже представлено детальное сравнение их метрик производительности.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Link to this sectionИдеальные варианты использования#
В чем сильные стороны DAMO-YOLO: Благодаря бэкбону, оптимизированному через NAS, и исключительно низкому количеству параметров в своих компактных вариантах (например, DAMO-YOLOt), модель отлично подходит для развертывания на сильно ограниченном оборудовании. Если ты создаешь решения для встраиваемых устройств, используя рантаймы вроде ONNX или специализированные движки TensorRT для периферийных вычислений, DAMO-YOLO предоставляет очень отзывчивый фреймворк.
В чем сильные стороны RTDETRv2: RTDETRv2 превосходит аналоги в сценариях, где доступны серверные GPU и глобальный контекст изображения имеет первостепенное значение. Ее архитектура трансформера позволяет естественно разрешать пересекающиеся ограничивающие рамки без NMS, что делает ее надежным выбором для плотного crowd management или сложного object tracking, где критически важны пространственные отношения между удаленными объектами.
Link to this sectionПреимущество Ultralytics: представляем YOLO26#
Хотя DAMO-YOLO и RTDETRv2 представляют собой значительные академические достижения, переход от этих моделей к масштабируемым приложениям, готовым к продакшену, может быть сложным. Разработчики часто сталкиваются с фрагментированными кодовыми базами, отсутствием поддержки многозадачного обучения и сложными конвейерами развертывания.
Именно здесь Ultralytics ecosystem по-настоящему выделяется. Приоритизируя простоту использования, хорошо поддерживаемый Python API и непревзойденную универсальность, Ultralytics гарантирует, что ты потратишь меньше времени на отладку и больше — на разработку.
Недавно выпущенная модель Ultralytics YOLO26 выводит эти преимущества на новый уровень, предлагая прорывы, которые превосходят как DAMO-YOLO, так и RTDETRv2:
- Комплексный дизайн без NMS: Впервые представленный в YOLOv10, YOLO26 является нативно end-to-end решением. Это полностью исключает пост-обработку NMS, делая развертывание быстрее и значительно проще, чем при работе с традиционными CNN, при этом сохраняя преимущества прямого вывода, присущие RTDETRv2.
- До 43% более быстрый инференс на CPU: Значительно оптимизирована для edge AI devices без дискретных GPU, что делает её намного более эффективным выбором для IoT-приложений по сравнению с требовательными к памяти трансформерами.
- Оптимизатор MuSGD: Вдохновленный Kimi K2 от Moonshot AI, этот гибрид SGD и Muon привносит инновации в обучении больших языковых моделей (LLM) в сферу компьютерного зрения, что приводит к удивительно стабильному обучению и более быстрой сходимости.
- ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является традиционно сложной областью для моделей. Это критически важно для aerial imagery и задач с использованием дронов.
- Удаление DFL: Distribution Focal Loss был убран, чтобы обеспечить упрощенные форматы экспорта и лучшую совместимость с маломощными периферийными устройствами.
- Непревзойденная универсальность: В отличие от конкурирующих моделей, ограниченных исключительно обнаружением, YOLO26 включает улучшения для всех типов задач, такие как специализированная функция потерь для углов Oriented Bounding Boxes (OBB), функция потерь семантической сегментации для пиксельной точности и Residual Log-Likelihood Estimation (RLE) для Pose estimation.
Обучение моделей на основе трансформеров, таких как RTDETRv2, требует огромного объема памяти CUDA, что часто вынуждает использовать дорогостоящие конфигурации с несколькими GPU. Модели Ultralytics YOLO поддерживают значительно более низкие требования к памяти как во время обучения, так и при инференсе, демократизируя разработку ИИ как для исследователей, так и для энтузиастов.
Link to this sectionПример кода: унифицированный Ultralytics API#
Одно из самых больших преимуществ экосистемы Ultralytics — это унифицированный API. Ты можешь легко загружать, обучать и валидировать множество моделей — включая реализацию PyTorch для RTDETR и передовые модели YOLO — не меняя свой рабочий процесс.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
results_yolo[0].show()Эта простота распространяется на custom dataset training и экспорт. Используя Ultralytics Python package, ты можешь легко отправлять свои обученные веса на платформы развертывания, такие как CoreML или OpenVINO, одной командой.
Link to this sectionЗаключение и дальнейшее изучение#
И DAMO-YOLO, и RTDETRv2, безусловно, расширили границы возможного в обнаружении объектов в реальном времени. DAMO-YOLO предоставляет высокооптимизированные, автоматически подобранные структуры сети для чистой эффективности, в то время как RTDETRv2 доказывает, что трансформеры могут конкурировать в пространстве реального времени, устраняя традиционные узкие места, такие как NMS.
Однако для разработчиков, стремящихся к максимальному балансу производительности, исчерпывающей документации и готовности к продакшену, модели Ultralytics YOLO остаются золотым стандартом. С появлением YOLO26 пользователи получают доступ к end-to-end обнаружению трансформерного типа, эффективности обучения, вдохновленной LLM, и непревзойденным скоростям на CPU — и все это в рамках интуитивно понятной и надежной экосистемы.
Если ты оцениваешь модели для своего следующего проекта, тебе также может быть полезно прочитать наши сравнения EfficientDet vs RTDETR, изучить предыдущее поколение YOLO11 или ознакомиться с академическими бенчмарками, такими как YOLOX. Начни разработку сегодня, ознакомившись с Ultralytics quickstart guide.