Перейти к содержанию

RTDETRv2 и DAMO-YOLO: глубокое погружение в обнаружение объектов в реальном времени

Ландшафт компьютерного зрения быстро развивается, и исследователи постоянно расширяют границы между скоростью вывода и точностью detect. Двумя видными претендентами на этой арене являются RTDETRv2, модель на основе трансформеров от Baidu, и DAMO-YOLO, высокооптимизированная сверточная сеть от Alibaba. В этом техническом сравнении исследуются различные архитектурные философии этих моделей, их показатели производительности и идеальные сценарии применения.

Эталонные показатели производительности: Скорость vs. Точность

При выборе модели обнаружения объектов основной компромисс обычно заключается между средней точностью (mAP) и задержкой. Следующие данные освещают различия в производительности между RTDETRv2 и DAMO-YOLO на наборе данных проверки COCO.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Данные показывают четкое различие в философии дизайна. DAMO-YOLO отдает приоритет скорости и эффективности, при этом вариант 'Tiny' достигает исключительно низкой задержки, подходящей для сред периферийных вычислений с ограничениями. И наоборот, RTDETRv2 стремится к максимальной точности, при этом его самый большой вариант достигает заметного 54,3 mAP, что делает его превосходным для задач, где точность имеет первостепенное значение.

RTDETRv2: мощь Transformer

RTDETRv2 основывается на успехе архитектуры Detection Transformer (DETR), решая проблему высоких вычислительных затрат, обычно связанных с vision transformers, сохраняя при этом их способность захватывать глобальный контекст.

Архитектура и возможности

RTDETRv2 использует гибридный энкодер, который эффективно обрабатывает многомасштабные признаки. В отличие от традиционных YOLO моделей на основе CNN, RTDETR устраняет необходимость в постобработке Non-Maximum Suppression (NMS). Этот сквозной подход упрощает конвейер развертывания и снижает изменчивость задержки в переполненных сценах.

Модель использует эффективный гибридный энкодер, который разделяет взаимодействие внутри масштаба и слияние между масштабами, что значительно снижает вычислительные издержки по сравнению со стандартными моделями DETR. Эта конструкция позволяет ей превосходно идентифицировать объекты в сложных средах, где окклюзия может запутать стандартные сверточные детекторы.

Использование памяти Transformer

В то время как RTDETRv2 предлагает высокую точность, важно отметить, что архитектуры Transformer, как правило, потребляют значительно больше памяти CUDA во время обучения по сравнению с CNN. Пользователи с ограниченным объемом GPU VRAM могут столкнуться с трудностями при обучении этих моделей по сравнению с эффективными альтернативами, такими как YOLO11.

Узнайте больше о RTDETR

DAMO-YOLO: Оптимизировано для эффективности

DAMO-YOLO представляет собой строгий подход к архитектурной оптимизации, используя поиск нейронной архитектуры (NAS) для поиска наиболее эффективных структур для извлечения и слияния признаков.

Ключевые архитектурные инновации

DAMO-YOLO интегрирует несколько передовых технологий для максимизации компромисса между скоростью и точностью:

  • Бэкбон MAE-NAS: Он использует бэкбон, обнаруженный с помощью Method-Aware Efficient Neural Architecture Search, гарантируя, что каждый параметр эффективно способствует извлечению признаков.
  • RepGFPN: Специализированная конструкция neck, которая объединяет признаки в разных масштабах с минимальными вычислительными затратами, улучшая обнаружение мелких объектов без замедления скорости inference.
  • ZeroHead: упрощенная головка обнаружения, которая снижает сложность конечных слоев предсказания.

Эта модель особенно сильна в сценариях, требующих высокой пропускной способности, таких как промышленные сборочные линии или высокоскоростной мониторинг трафика, где важны миллисекунды.

Узнайте больше о DAMO-YOLO

Сценарии применения в реальном мире

Выбор между этими двумя моделями часто сводится к конкретным ограничениям среды развертывания.

Когда следует выбирать RTDETRv2

RTDETRv2 является предпочтительным выбором для приложений, где точность не подлежит обсуждению, а аппаратные ресурсы достаточны.

  • Медицинская визуализация: В анализе медицинских изображений пропуск обнаружения (ложноотрицательный результат) может иметь серьезные последствия. Высокий mAP RTDETRv2 делает его подходящим для обнаружения аномалий на рентгеновских снимках или МРТ.
  • Детальное наблюдение: Для систем безопасности, требующих распознавания лиц или идентификации мелких деталей на расстоянии, возможности transformer-архитектуры по глобальному контексту дают явное преимущество.

Когда следует выбирать DAMO-YOLO

DAMO-YOLO превосходно проявляет себя в средах с ограниченными ресурсами или в приложениях, требующих сверхнизкой задержки.

  • Робототехника: Для автономных мобильных роботов, обрабатывающих визуальные данные на встроенных устройствах с батарейным питанием, эффективность DAMO-YOLO обеспечивает быстродействие в реальном времени.
  • Высокоскоростное производство: В автоматизации производства detect дефектов на быстро движущихся конвейерных лентах требует высокой скорости inference, обеспечиваемой вариантами DAMO-YOLO-tiny и small.

Преимущество Ultralytics: Почему YOLO11 — оптимальный выбор

В то время как RTDETRv2 и DAMO-YOLO предлагают убедительные функции, Ultralytics YOLO11 предоставляет комплексное решение, которое уравновешивает производительность, удобство использования и поддержку экосистемы, что делает его превосходным выбором для большинства разработчиков и исследователей.

Непревзойденная экосистема и удобство использования

Одним из наиболее существенных препятствий на пути внедрения исследовательских моделей является сложность их кодовой базы. Ultralytics устраняет это затруднение с помощью унифицированного, удобного для пользователя Python API. Независимо от того, выполняете ли вы сегментацию экземпляров, оценку позы или классификацию, рабочий процесс остается последовательным и интуитивно понятным.

from ultralytics import YOLO

# Load a model (YOLO11 offers various sizes: n, s, m, l, x)
model = YOLO("yolo11n.pt")

# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Универсальность в различных задачах

В отличие от DAMO-YOLO, который в основном ориентирован на detect, YOLO11 — это универсальная платформа. Он поддерживает широкий спектр задач компьютерного зрения из коробки, включая Oriented Bounding Box (OBB) detect, который имеет решающее значение для аэрофотосъемки и анализа документов. Эта универсальность позволяет командам стандартизировать единый фреймворк для нескольких требований проекта.

Эффективность обучения и управление памятью

YOLO11 разработан для эффективности. Обычно для обучения требуется меньше памяти GPU (VRAM) по сравнению с моделями на основе transformer, такими как RTDETRv2. Эта эффективность снижает аппаратный барьер, позволяя разработчикам обучать современные модели на GPU потребительского класса или эффективно использовать облачные ресурсы через экосистему Ultralytics. Кроме того, обширная библиотека предварительно обученных weights гарантирует, что transfer learning будет быстрым и эффективным, что значительно сокращает время выхода AI-решений на рынок.

Для тех, кто ищет надежное, хорошо поддерживаемое и высокопроизводительное решение, которое развивается вместе с отраслью, Ultralytics YOLO11 остается рекомендуемым стандартом.

Изучите другие сравнения

Чтобы лучше понять, как эти модели вписываются в более широкий ландшафт компьютерного зрения, изучите эти связанные сравнения:


Комментарии