Перейти к содержанию

RTDETRv2 против YOLO: глубокое погружение в обнаружение объектов в реальном времени

Компьютерное зрение стремительно развивается, и исследователи постоянно расширяют границы между скоростью вывода и точностью обнаружения. Двумя выдающимися соперниками на этой арене являются RTDETRv2, модель на основе трансформаторов от Baidu, и YOLO, высоко оптимизированная конволюционная сеть от Alibaba. В этом техническом сравнении рассматриваются различные архитектурные философии этих моделей, их показатели производительности и идеальные сценарии применения.

Бенчмарки производительности: Скорость против точности

При выборе модели обнаружения объектов основной компромисс обычно лежит между средней точностьюmAP) и задержкой. Приведенные ниже данные показывают разницу в производительности RTDETRv2 и YOLO на наборе данных для проверки COCO .

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Полученные данные свидетельствуют о четком различии в философии проектирования. YOLO ставит во главу угла скорость и эффективность, а вариант "Tiny" достигает исключительно низкой задержки, подходящей для ограниченных вычислительных сред на границе. Напротив, RTDETRv2 стремится к максимальной точности, а его самый большой вариант достигает заметного значения 54,3 mAP, что делает его превосходным для задач, где точность имеет первостепенное значение.

RTDETRv2: Трансформер-мощник

RTDETRv2 опирается на успех архитектуры трансформатора обнаружения (DETR), решая проблему высоких вычислительных затрат, обычно связанных с трансформаторами зрения, сохраняя при этом их способность улавливать глобальный контекст.

Архитектура и возможности

В RTDETRv2 используется гибридный кодер, который эффективно обрабатывает разномасштабные признаки. В отличие от традиционных моделей YOLO , основанных на CNN, RTDETR исключает необходимость в постобработке с использованием технологии немаксимального подавления (NMS). Такой сквозной подход упрощает конвейер развертывания и снижает вариативность задержек в сценах с большим скоплением людей.

В модели используется эффективный гибридный кодер, который разделяет внутримасштабное взаимодействие и межмасштабное слияние, что значительно снижает вычислительные затраты по сравнению со стандартными моделями DETR. Такая конструкция позволяет ей превосходно идентифицировать объекты в сложных условиях, где окклюзия может сбить с толку стандартные конволюционные детекторы.

Использование памяти трансформатора

Хотя RTDETRv2 обеспечивает высокую точность, важно отметить, что архитектуры Transformer обычно потребляют значительно больше памяти CUDA во время обучения по сравнению с CNN. Пользователи с ограниченным объемом памяти GPU VRAM могут столкнуться с трудностями при обучении этих моделей по сравнению с такими эффективными альтернативами, как YOLO11.

Узнайте больше о RTDETR

YOLO: оптимизация для эффективности

YOLO представляет собой строгий подход к оптимизации архитектуры, используя нейронный поиск архитектуры (NAS) для поиска наиболее эффективных структур для извлечения и объединения признаков.

Ключевые архитектурные инновации

YOLO объединяет в себе несколько передовых технологий для достижения максимального компромисса между скоростью и точностью:

  • MAE-NAS Backbone: В ней используется основа, найденная с помощью метода эффективного поиска нейронной архитектуры, гарантирующего, что каждый параметр вносит эффективный вклад в извлечение признаков.
  • RepGFPN: Специализированная конструкция шеи, которая объединяет функции разных масштабов с минимальными вычислительными затратами, улучшая обнаружение мелких объектов без снижения скорости вывода.
  • ZeroHead: упрощенная головка обнаружения, которая снижает сложность конечных слоев предсказания.

Эта модель особенно эффективна в сценариях, требующих высокой пропускной способности, таких как промышленные сборочные линии или высокоскоростной мониторинг дорожного движения, где счет идет на миллисекунды.

Узнайте больше о DAMO-YOLO

Сценарии применения в реальном мире

Выбор между этими двумя моделями часто сводится к конкретным ограничениям среды развертывания.

Когда следует выбирать RTDETRv2

RTDETRv2 является предпочтительным выбором для приложений, где точность не является обязательной, а аппаратные ресурсы достаточно велики.

  • Медицинская визуализация: При анализе медицинских изображений пропуск обнаружения (ложноотрицательный результат) может иметь серьезные последствия. Высокий mAP RTDETRv2 позволяет использовать его для обнаружения аномалий на рентгеновских снимках или снимках МРТ.
  • Детальное наблюдение: Для систем безопасности, требующих распознавания лиц или идентификации мелких деталей на расстоянии, возможности глобального контекста архитектуры трансформера дают явное преимущество.

Когда следует выбирать YOLO

YOLO отлично проявляет себя в средах с ограниченными ресурсами или в приложениях, требующих сверхнизкой задержки.

  • Робототехника: Для автономных мобильных роботов, обрабатывающих визуальные данные на встраиваемых устройствах с батарейным питанием, эффективность YOLO обеспечивает оперативность реагирования в реальном времени.
  • Высокоскоростное производство: При автоматизации производства обнаружение дефектов на быстро движущихся конвейерных лентах требует высокой скорости вывода информации, которую обеспечивают YOLO и small варианты.

Преимущество Ultralytics : Почему YOLO11 - оптимальный выбор

В то время как RTDETRv2 и YOLO предлагают привлекательные возможности, Ultralytics YOLO11 представляет собой целостное решение, в котором сбалансированы производительность, удобство использования и поддержка экосистемы, что делает его лучшим выбором для большинства разработчиков и исследователей.

Непревзойденная экосистема и удобство использования

Одним из самых серьезных препятствий на пути внедрения исследовательских моделей является сложность их кодовой базы. Ultralytics устраняет эти трудности с помощью унифицированного, удобного API на языке Python . Независимо от того, выполняете ли вы сегментацию экземпляров, оценку позы или классификацию, рабочий процесс остается последовательным и интуитивно понятным.

from ultralytics import YOLO

# Load a model (YOLO11 offers various sizes: n, s, m, l, x)
model = YOLO("yolo11n.pt")

# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Универсальность в решении различных задач

В отличие от YOLO, ориентированной в первую очередь на обнаружение, YOLO11 - универсальная платформа. Она поддерживает широкий спектр задач компьютерного зрения, включая обнаружение ориентированных границ (Oriented Bounding Box, OBB), что очень важно для анализа аэрофотоснимков и документов. Такая универсальность позволяет командам стандартизировать один фреймворк для различных требований проекта.

Эффективность обучения и управление памятью

YOLO11 разработан для повышения эффективности. Для его обучения обычно требуется меньше памяти GPU (VRAM) по сравнению с моделями на основе трансформаторов, такими как RTDETRv2. Такая эффективность снижает аппаратный барьер, позволяя разработчикам обучать самые современные модели на графических процессорах потребительского класса или эффективно использовать облачные ресурсы через экосистемуUltralytics . Кроме того, обширная библиотека предварительно обученных весов обеспечивает быстрое и эффективное трансферное обучение, значительно сокращая время вывода на рынок решений в области ИИ.

Для тех, кто ищет надежное, хорошо обслуживаемое и высокопроизводительное решение, развивающееся вместе с отраслью, Ultralytics YOLO11 остается рекомендованным стандартом.

Изучите другие сравнения

Чтобы лучше понять, как эти модели вписываются в более широкий ландшафт компьютерного зрения, изучите эти связанные сравнения:


Комментарии