Перейти к содержанию

RT-DETRv2 против YOLOv10: техническое сравнение для обнаружения объектов

Выбор оптимальной модели обнаружения объектов требует навигации по ландшафту развивающихся архитектур, где компромиссы между точностью, задержкой и потреблением ресурсов определяют наилучший вариант для конкретного приложения. В данном техническом сравнении анализируется RT-DETRv2модель на основе трансформатора, предназначенную для высокоточных задач, и YOLOv10ориентированной на повышение эффективности знаменитого семейства YOLO . Рассматривая их архитектурные инновации, показатели производительности и характеристики развертывания, мы стремимся направить разработчиков к выбору идеального решения для их конкретных задач.

RT-DETRv2: Оптимизированные трансформаторы зрения

RT-DETRv2 Представляет собой значительную итерацию в серии Real-Time Detection Transformer, изначально созданной для борьбы с доминированием детекторов на основе CNN. Разработанная исследователями из Baidu, эта модель включает в себя "мешок бесплатных данных" для повышения стабильности обучения и производительности без дополнительных затрат на вывод.

Узнайте больше о RT-DETR

Архитектура и сильные стороны

В RT-DETRv2 используется гибридный кодер и масштабируемая основа Vision Transformer (ViT). В отличие от традиционных конволюционных нейронных сетей (CNN), которые обрабатывают изображения, используя локальные рецептивные поля, архитектура трансформатора использует механизмы самовнимания для захвата глобального контекста. Это позволяет модели эффективно различать связи между удаленными объектами и справляться со сложными окклюзиями. Улучшения "v2" направлены на оптимизацию динамического выбора запросов и внедрение гибких стратегий обучения, которые позволяют пользователям точно настроить баланс между скоростью и точностью.

Несмотря на свою эффективность, такая архитектура требует значительных вычислительных ресурсов. Слои самовнушения, хотя и являются мощными, но потребляют больше памяти как при обучении, так и при выводе результатов по сравнению с альтернативами, основанными исключительно на CNN.

YOLOv10: стандарт эффективности в режиме реального времени

YOLOv10 расширяет границы парадигмы You Only Look Once, внедряя стратегию обучения NMS и целостный дизайн, ориентированный на эффективность и точность. Созданный исследователями Университета Цинхуа, он специально разработан для минимизации задержки при сохранении конкурентоспособной производительности обнаружения.

Узнайте больше о YOLOv10

Архитектура и сильные стороны

Определяющей характеристикой YOLOv10 является устранение немаксимального подавления (NMS) с помощью последовательной стратегии двойного назначения. Традиционные детекторы объектов часто предсказывают несколько ограничивающих рамок для одного объекта, что требует постобработки NMS для отсеивания дубликатов. Этот шаг создает узкое место в задержке вывода. YOLOv10 устраняет это требование, обеспечивая истинное сквозное развертывание.

Кроме того, в архитектуре реализована пространственно-канальная понижающая дискретизация и ранжированный дизайн блоков, что значительно сокращает количество параметров и количество операций с плавающей запятой (FLOP). Это делает YOLOv10 исключительно легким и подходящим для сред с ограниченными ресурсами, таких как пограничные устройства ИИ.

Вывод NMS

Устранение NMS - это переломный момент для приложений реального времени. Оно снижает сложность конвейера развертывания и гарантирует, что время вывода остается детерминированным, независимо от количества объектов, обнаруженных в сцене.

Анализ производительности

При непосредственном сравнении этих двух моделей, YOLOv10 демонстрирует превосходство в балансе между скоростью и точностью, особенно в верхней части спектра производительности. Хотя RT-DETRv2 демонстрирует высокие результаты, YOLOv10 постоянно достигает меньшей задержки и требует меньшего количества параметров для сопоставимой или лучшей mAP (средняя точность).

В таблице ниже представлены показатели производительности на наборе данных COCO . Примечательно, что YOLOv10x превосходит RT-DETRv2 по точности (54,4 % против 54,3 %), при этом работает значительно быстрее (12,2 мс против 15,03 мс) и требует гораздо меньше параметров (56,9 М против 76 М).

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Скорость и эффективность

Архитектурная эффективность YOLOv10 очевидна во всех масштабах. Варианты Nano (n) и Small (s) обеспечивают молниеносную скорость вычислений, подходящую для мобильных процессоров и IoT-устройств. Например, YOLOv10n работает со скоростью 1,56 мс на GPU T4, что значительно быстрее, чем самый маленький вариант RT-DETRv2 .

Точность против вычислений

RT-DETRv2 использует свою трансформаторную основу для достижения высокой точности, особенно в моделях малого и среднего размера. Однако это достигается ценой значительно большего количества FLOP и параметров. YOLOv10 эффективно устраняет этот пробел; более крупные модели YOLOv10 соответствуют или превосходят по точности свои трансформаторные аналоги, сохраняя при этом меньшую вычислительную площадь, что делает их более универсальными для различного оборудования.

Обучение, удобство использования и экосистема

Важнейшим отличием для разработчиков является простота обучения и внедрения. Экосистема Ultralytics предоставляет единый интерфейс, который значительно упрощает работу с такими моделями, как YOLOv10.

Простота использования

Обучение RT-DETRv2 часто связано со сложными конфигурационными файлами и специфическими настройками среды, адаптированными к архитектуре трансформаторов. В отличие от этого, YOLOv10 интегрирован непосредственно в Ultralytics Python API, что позволяет пользователям начать обучение, проверку или выводы с помощью всего нескольких строк кода.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Требования к памяти

Известно, что модели на основе трансформаторов, такие как RT-DETRv2 , занимают много памяти. Механизм самовнушения масштабируется квадратично с длиной последовательности, что приводит к большому расходу VRAM во время обучения. YOLOv10, благодаря оптимизированной архитектуре CNN, требует значительно меньше памятиCUDA , что позволяет обучать большие партии или использовать более скромное аппаратное обеспечение.

Хорошо поддерживаемая экосистема

Выбор модели Ultralytics, обеспечивает доступ к надежной экосистеме. Она включает в себя постоянные обновления, обширную документацию и бесшовную интеграцию с такими инструментами MLOps, как Ultralytics HUB, а также различные форматы экспортаONNX, TensorRT, CoreML). Такая структура поддержки неоценима для эффективного продвижения проектов от исследований к производству.

Идеальные варианты использования

RT-DETRv2

  • Академические исследования: Идеально подходит для изучения возможностей трансформатора в задачах технического зрения и сравнительного анализа с современными методами.
  • Развертывание на серверах высокого класса: Подходит для сценариев, где аппаратных ресурсов много, а специфические характеристики трансформаторных карт внимания полезны, например, при детальном анализе медицинских изображений.

YOLOv10

  • Edge AI в реальном времени: низкая задержка и небольшой размер модели делают ее идеальной для развертывания на пограничных устройствах, таких как NVIDIA Jetson или Raspberry Pi, для решения таких задач, как управление трафиком.
  • Робототехника: Конструкция NMS обеспечивает детерминированную задержку, необходимую для контуров управления в автономных роботах.
  • Коммерческие приложения: От аналитики розничной торговли до мониторинга безопасности - баланс скорости и точности обеспечивает максимальную окупаемость инвестиций за счет снижения затрат на оборудование.

Заключение

В то время как RT-DETRv2 демонстрирует потенциал трансформаторов в обнаружении объектов с впечатляющей точностью, YOLOv10 является более практичным и универсальным выбором для большинства реальных приложений. Его способность обеспечивать современную производительность при значительно меньших вычислительных требованиях в сочетании с простотой использования, обеспечиваемой экосистемой Ultralytics , делает его лучшим решением для разработчиков, стремящихся к эффективности и масштабируемости.

Тем, кто ищет абсолютные новинки в области технологий компьютерного зрения, мы также рекомендуем обратить внимание на YOLO11в котором доработана архитектура, обеспечивающая еще большую скорость и точность в более широком спектре задач, включая сегментацию и оценку позы.

Изучите другие модели

Расширьте свое понимание ландшафта обнаружения объектов с помощью этих дополнительных сравнений:


Комментарии