Техническое противостояние: DAMO-YOLO против RTDETRv2 для обнаружения объектов в реальном времени
Быстро развивающийся ландшафт компьютерного зрения породил впечатляющий набор архитектур, разработанных для баланса между скоростью, точностью и вычислительной эффективностью. Две выдающиеся модели, которые внесли уникальные подходы к решению этих задач, — это DAMO-YOLO и RTDETRv2. Хотя обе модели нацелены на предоставление передовых решений для инференса в реальном времени, они принципиально различаются по своим архитектурным философиям.
Это всеобъемлющее руководство глубоко погружается в технические характеристики, архитектурные инновации и практические сценарии использования обеих моделей, а также исследует, как современные решения, такие как Ultralytics Platform и передовой YOLO26, переопределили отраслевые стандарты развертывания и простоты использования.
Обзоры моделей
Понимание DAMO-YOLO
Разработанный исследователями из Alibaba Group, DAMO-YOLO представляет быстрый и точный метод обнаружения объектов, в значительной степени основанный на поиске нейронной архитектуры (NAS). Он заменяет традиционные вручную разработанные базовые сети структурами, сгенерированными NAS, предназначенными для низкой задержки. Кроме того, он включает эффективную RepGFPN (Reparameterized Generalized Feature Pyramid Network) и дизайн ZeroHead для оптимизации агрегации признаков и предсказаний ограничивающих рамок.
Основные сведения о модели:
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация:Alibaba Group
- Дата: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
- Документация:Документация DAMO-YOLO
Понимание RTDETRv2
RTDETRv2 от Baidu представляет собой значительный прорыв для трансформеров обнаружения в реальном времени. В отличие от традиционных сверточных нейронных сетей (CNN), которые полагаются на опорные якоря (anchor boxes) и подавление немаксимумов (NMS), RTDETRv2 использует механизмы самовнимания для контекстного анализа всего изображения. Он напрямую выводит ограничивающие рамки, полностью обходя этап постобработки NMS. Эта модель представляет стратегию обучения «bag of freebies» для повышения базовой точности без увеличения задержки инференса.
Основные сведения о модели:
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация:Baidu
- Дата: 2024-07-24
- Arxiv:2407.17140
- GitHub:Репозиторий RT-DETR
- Документация:Документация по RTDETRv2
Применение трансформеров в области компьютерного зрения
Хотя трансформеры требуют больших вычислительных ресурсов, их способность обрабатывать глобальный контекст делает их невероятно эффективными для сложного понимания сцен, что является основной сильной стороной RTDETRv2.
Сравнение производительности
При оценке этих моделей для реального развертывания критически важны такие параметры, как средняя точность (mAP), скорость инференса и объем памяти. Модели на основе трансформеров, такие как RTDETRv2, обычно требуют больше памяти CUDA во время обучения и инференса по сравнению с легковесными CNN, такими как DAMO-YOLO.
Ниже приведено подробное сравнение их метрик производительности.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Идеальные варианты использования
Где DAMO-YOLO превосходит: Благодаря своей NAS-оптимизированной архитектуре и исключительно низкому количеству параметров в меньших вариантах (например, DAMO-YOLOt), он очень подходит для развертывания на аппаратуре с жесткими ограничениями. Если вы создаете решения для встраиваемых устройств, используя среды выполнения, такие как ONNX или специализированные движки TensorRT для граничных вычислений, DAMO-YOLO предоставляет высокоотзывчивую платформу.
Где RTDETRv2 превосходит: RTDETRv2 превосходно проявляет себя в сценариях, где доступны серверные GPU и глобальный контекст изображения имеет первостепенное значение. Его архитектура трансформера позволяет ему естественным образом разрешать перекрывающиеся ограничивающие рамки без NMS, что делает его надежным выбором для плотного управления толпой или сложного отслеживания объектов, где пространственные отношения между удаленными объектами критически важны.
Преимущество Ultralytics: Представляем YOLO26
Хотя DAMO-YOLO и RTDETRv2 представляют собой значительные академические достижения, переход этих моделей в масштабируемые, готовые к производству приложения может быть сложным. Разработчики часто сталкиваются с фрагментированными кодовыми базами, отсутствием поддержки многозадачного обучения и сложными конвейерами развертывания.
Именно здесь экосистема Ultralytics по-настоящему выделяется. Отдавая приоритет простоте использования, хорошо поддерживаемому API на python и непревзойденной универсальности, Ultralytics гарантирует, что разработчики тратят меньше времени на отладку и больше времени на создание.
Недавно выпущенная модель Ultralytics YOLO26 выводит эти преимущества на новый уровень, предлагая прорывные решения, превосходящие как DAMO-YOLO, так и RTDETRv2:
- Сквозная архитектура без NMS: Изначально разработанная в YOLOv10, YOLO26 является изначально сквозной. Это полностью устраняет постобработку NMS, делая развертывание быстрее и значительно проще, чем у традиционных CNN, при этом соответствуя преимуществам прямого вывода RTDETRv2.
- До 43% более быстрый инференс на CPU: Значительно оптимизированный для периферийных ИИ-устройств без дискретных GPU, он является значительно превосходящим выбором для IoT-приложений по сравнению с требовательными к памяти трансформерами.
- Оптимизатор MuSGD: Вдохновленный Kimi K2 от Moonshot AI, этот гибрид SGD и Muon привносит инновации в обучение больших языковых моделей (LLM) в компьютерное зрение, что приводит к исключительно стабильному обучению и более быстрой сходимости.
- ProgLoss + STAL: Эти передовые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, область, в которой модели традиционно испытывают трудности. Это критически важно для аэрофотосъемки и применения в дронах.
- Удаление DFL: Distribution Focal Loss была удалена для обеспечения упрощенных форматов экспорта и лучшей совместимости с маломощными периферийными устройствами.
- Непревзойденная универсальность: В отличие от конкурирующих моделей, строго ограниченных detect, YOLO26 включает в себя общие улучшения, специфичные для задач, такие как специализированные угловые потери для ориентированных ограничивающих рамок (OBB), потери семантической сегментации для пиксельной точности и оценка остаточного логарифмического правдоподобия (RLE) для оценки позы.
Эффективность использования памяти имеет значение
Обучение трансформерных моделей, таких как RTDETRv2, требует огромных объемов памяти CUDA, что часто влечет за собой необходимость дорогостоящих многопроцессорных GPU-конфигураций. Модели Ultralytics YOLO поддерживают значительно более низкие требования к памяти как во время обучения, так и во время инференса, что демократизирует разработку ИИ как для исследователей, так и для любителей.
Пример кода: Единый Ultralytics API
Одним из величайших преимуществ экосистемы Ultralytics является ее унифицированный API. Вы можете беспрепятственно загружать, обучать и проверять различные модели, включая реализацию RT-DETR на PyTorch и современные модели YOLO, без изменения рабочего процесса.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
results_yolo[0].show()
Эта простота распространяется на обучение на пользовательских наборах данных и экспорт. Используя пакет Ultralytics Python, разработчики могут легко загружать свои обученные веса на платформы развертывания, такие как CoreML или OpenVINO, с помощью одной команды.
Заключение и дальнейшее исследование
Как DAMO-YOLO, так и RTDETRv2, несомненно, расширили границы возможного в обнаружении объектов в реальном времени. DAMO-YOLO предлагает высокооптимизированные, автоматически найденные сетевые структуры для чистой эффективности, в то время как RTDETRv2 доказывает, что трансформеры могут конкурировать в пространстве реального времени, устраняя традиционные узкие места, такие как NMS.
Однако для разработчиков, ищущих идеальный баланс производительности, всесторонней документации и готовности к производству, модели Ultralytics YOLO остаются золотым стандартом. С введением YOLO26 пользователи получают доступ к сквозному detect, подобному трансформерам, эффективности обучения, вдохновленной LLM, и беспрецедентным скоростям CPU — все это заключено в интуитивно понятную и надежную экосистему.
Если вы оцениваете модели для вашего следующего проекта, вы также можете найти полезным прочитать наши сравнения EfficientDet vs RTDETR, изучить предыдущее поколение YOLO11 или рассмотреть академические эталоны, такие как YOLOX. Начните создавать сегодня, изучив руководство по быстрому старту Ultralytics.