Перейти к содержанию

RTDETRv2 против YOLO11: Глубокое погружение в архитектуры обнаружения объектов в реальном времени

Ландшафт компьютерного зрения постоянно развивается, новые архитектуры расширяют границы возможного на периферийных устройствах и облачных серверах. Двумя наиболее заметными претендентами в текущей области обнаружения объектов в реальном времени являются RTDETRv2 и YOLO11. Хотя обе модели демонстрируют исключительную производительность, они представляют собой принципиально разные архитектурные философии: подход на основе трансформеров против высокооптимизированной сверточной нейронной сети (CNN).

В этом всестороннем техническом сравнении мы рассмотрим архитектуры, метрики производительности, методологии обучения и идеальные сценарии использования для обеих моделей, помогая вам принять обоснованное решение для вашего следующего приложения искусственного интеллекта.

RTDETRv2: Претендент на основе трансформеров

Представленный как эволюция оригинального трансформера для обнаружения в реальном времени, RTDETRv2 использует механизмы внимания для обработки визуальных данных. Обрабатывая фрагменты изображений как последовательности, он достигает глобального понимания контекста изображения, что чрезвычайно полезно для обнаружения сильно перекрывающихся объектов в сложных сценах.

Подробности модели:

Архитектурные преимущества и недостатки

Основное нововведение RTDETRv2 — это его сквозная архитектура без NMS. Устраняя подавление немаксимумов (NMS), она упрощает конвейер постобработки. Кроме того, ее возможности многомасштабного извлечения признаков были улучшены по сравнению с оригинальной моделью RT-DETR, что позволяет ей лучше идентифицировать объекты различных размеров.

Однако, поскольку RTDETRv2 опирается на трансформеры, он обычно требует значительно больше памяти во время обучения. Трансформеры, как правило, медленнее сходятся и требуют существенно больше памяти CUDA по сравнению с традиционными CNN, что делает их менее доступными для исследователей, работающих на потребительском оборудовании, или при развертывании в ограниченных средах периферийного ИИ.

Узнайте больше о RTDETR

Ultralytics YOLO11: Вершина эффективности CNN

Основываясь на многолетних фундаментальных исследованиях, Ultralytics выпустила YOLO11 как огромный шаг вперед в линейке YOLO. Он совершенствует архитектуру CNN для достижения беспрецедентной скорости и точности, сохраняя гибкость и удобную для разработчиков экосистему, которую сообщество привыкло ожидать.

Подробности модели:

Преимущество Ultralytics

YOLO11 выделяется своим балансом производительности. Он достигает выдающегося компромисса между скоростью и точностью, что делает его исключительно универсальным для разнообразных сценариев развертывания в реальном мире, от массивных кластеров облачных вычислений до легких мобильных устройств.

Более того, модели Ultralytics YOLO известны своим низким потреблением памяти во время обучения и инференса. В отличие от моделей Transformer, которые могут легко исчерпать VRAM, YOLO11 позволяет использовать большие размеры пакетов на стандартных GPU. Кроме того, YOLO11 не ограничивается только detect объектов; она обладает невероятной универсальностью, предлагая нативную поддержку сегментации экземпляров, классификации изображений, оценки позы и ориентированных ограничивающих рамок (obb).

Узнайте больше о YOLO11

Сравнение производительности и метрик

При сравнении необработанных данных становится очевидным, что, хотя RTDETRv2 достигает впечатляющей точности, YOLO11 предлагает гораздо более гранулированный выбор размеров моделей с превосходной скоростью инференса, особенно на TensorRT.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Как видно из таблицы, модель YOLO11x достигает превосходного mAPval в 54.7%, используя при этом меньше операций FLOPs (194.9B против 259B) и обеспечивая более быстрый вывод на TensorRT (11.3 мс против 15.03 мс) по сравнению с вариантом RTDETRv2-x. Нано- и малые варианты YOLO11 предоставляют беспрецедентные легковесные решения для устройств с ограничениями, таких как Raspberry Pi.

Экосистема, простота использования и обучение

Отличительной особенностью моделей Ultralytics является упрощенный пользовательский опыт. ultralytics Пакет python предоставляет унифицированный, интуитивно понятный API, который берет на себя основную нагрузку по Аугментация данных, распределенное обучение и экспорт модели. В то время как исследовательский репозиторий RTDETRv2 требует значительного шаблонного кода и конфигурации, Ultralytics предоставляет конвейер «от нуля до героя».

Интересно, что экосистема Ultralytics настолько надежна, что изначально поддерживает запуск моделей RT-DETR наряду с моделями YOLO! Это позволяет вам использовать хорошо поддерживаемую экосистему Ultralytics, включая интеграции с Weights & Biases и Comet ML, для легкого отслеживания экспериментов.

from ultralytics import RTDETR, YOLO

# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")

# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")

Оптимизируйте свой рабочий процесс

Эффективность обучения имеет первостепенное значение в машинном обучении. Модели Ultralytics используют предварительно обученные веса, которые быстро сходятся. Для управления вашими наборами данных, запусками обучения и конечными точками развертывания без написания кода изучите платформу Ultralytics для интегрированного опыта MLOps.

Приложения в реальном мире

Выбор между этими архитектурами часто сводится к специфическим ограничениям развертывания вашего проекта.

Где RTDETRv2 превосходит: Архитектура трансформера RTDETRv2 высокоэффективна в сценариях с плотными, сильно окклюдированными объектами, где требуется глобальный контекст. Он часто оценивается в академических исследованиях и приложениях, где вычислительный бюджет менее важен, чем прямое отображение отношений на основе внимания.

Где YOLO11 доминирует: YOLO11 — бесспорный чемпион практического, реального развертывания. Его минимальное потребление памяти и молниеносная скорость инференции делают его идеальным для:

  • Умное производство: Выполнение обнаружения дефектов в реальном времени на производственных линиях с использованием промышленных ПК.
  • Сельское хозяйство: Развертывание на дронах для мониторинга состояния урожая в реальном времени и автоматизированной робототехники для сбора урожая.
  • Аналитика розничной торговли: Одновременная обработка нескольких видеопотоков с камер для управления очередями и отслеживания запасов без необходимости в массивных серверных фермах.

Сценарии использования и рекомендации

Выбор между RT-DETR и YOLO11 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбрать RT-DETR

RT-DETR — отличный выбор для:

  • Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
  • Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
  • Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.

Когда следует выбирать YOLO11

YOLO11 рекомендуется для:

  • Промышленное периферийное развертывание: Коммерческие приложения на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где надежность и активное обслуживание имеют первостепенное значение.
  • Многозадачные приложения компьютерного зрения: Проекты, требующие detect, сегментации, оценки позы и obb в рамках единой унифицированной среды.
  • Быстрое прототипирование и развертывание: Команды, которым необходимо быстро перейти от сбора данных к производству, используя оптимизированный Ultralytics Python API.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Взгляд в будущее: Появление YOLO26

Если вы начинаете новый проект, вам также следует рассмотреть следующее поколение ИИ для зрения: Ultralytics YOLO26. Выпущенный в январе 2026 года, YOLO26 объединяет лучшее из обоих миров. Он представляет сквозную NMS-Free архитектуру (впервые применённую в YOLOv10), полностью устраняя задержку постобработки, как RTDETRv2, но с непревзойдённой скоростью CNN.

YOLO26 использует оптимизатор MuSGD — вдохновленный инновациями в обучении LLM — для невероятно стабильной и быстрой сходимости, а также обеспечивает до 43% более быструю инференцию на CPU за счет исключения Distribution Focal Loss (DFL). Благодаря специализированным функциям потерь ProgLoss + STAL, значительно улучшающим распознавание мелких объектов, YOLO26 является идеальной рекомендацией для любого современного конвейера компьютерного зрения.

Независимо от того, выбираете ли вы YOLO11 за ее проверенную универсальность, RT-DETRv2 за ее механизмы внимания или передовую YOLO26 для максимальной производительности на периферии, документация Ultralytics предоставляет все необходимые ресурсы для успешного развития в области компьютерного зрения.


Комментарии