Перейти к содержанию

RTDETRv2 против YOLOv8: трансформация обнаружения объектов в реальном времени

Область компьютерного зрения быстро развивается, переходя от традиционных сверточных нейронных сетей (CNN) к гибридным архитектурам, включающим трансформеры. Двумя выдающимися моделями в этом переходном процессе являются RTDETRv2 (Real-Time Detection Transformer version 2) и Ultralytics YOLOv8. Хотя обе модели направлены на решение задачи обнаружения объектов в реальном времени, они подходят к этой задаче с принципиально разными философиями и архитектурными решениями.

В данном руководстве представлено техническое сравнение, которое поможет разработчикам, исследователям и инженерам выбрать подходящую модель для конкретных задач развертывания с учетом таких факторов, как скорость вывода, точность и эффективность обучения.

Обзоры моделей

Прежде чем углубляться в метрики, необходимо понять происхождение и архитектурные цели каждой модели.

RTDETRv2

RTDETRv2 основан на успехе оригинального RT-DETR, который был первым детектором на основе трансформатора, способным по-настоящему составить конкуренцию YOLO в сценариях реального времени. Разработанный исследователями Baidu, он использует базовую структуру трансформатора зрения для захвата глобального контекста, что часто отсутствует в чистых CNN. Его отличительной чертой является способность к сквозному прогнозированию, что устраняет необходимость в постобработке с помощью Non-Maximum Suppression (NMS).

Ultralytics YOLOv8

YOLOv8, выпущенный Ultralytics, представляет собой вершину эффективности обнаружения объектов на основе CNN. Он представляет собой детектор без анкеров и обновленную основу CSPDarknet. Разработанный для универсального использования, YOLOv8 не просто детектор; он изначально поддерживает такие задачи, как сегментация экземпляров, оценка позы и классификация. Он опирается на надежную программную экосистему, которая упрощает все, от управления наборами данных до развертывания.

Узнайте больше о YOLOv8

Сравнение технической архитектуры

Основное различие заключается в том, как эти модели обрабатывают визуальную информацию.

Трансформеры видения против CNN

RTDETRv2 использует гибридный кодировщик, который обрабатывает особенности изображения с помощью механизмов внимания. Это позволяет модели «видеть» все изображение сразу, эффективно понимая взаимосвязь между удаленными объектами. Этот глобальный контекст особенно полезен в сценах с большим количеством объектов или когда объекты закрыты. Однако это имеет свою цену: трансформеры обычно требуют значительно больше GPU (VRAM) во время обучения и могут сходиться медленнее, чем их аналоги CNN.

В отличие от этого, YOLOv8 на глубокие сверточные сети. CNN отлично справляются с извлечением локальных характеристик, таких как края и текстуры. YOLOv8 это с помощью «Bag of Freebies» — архитектурных настроек, которые повышают точность без увеличения затрат на вывод. Результатом является невероятно легкая модель, которая быстрее обучается на потребительском оборудовании и эффективно развертывается на периферийных устройствах, таких как Raspberry Pi.

Архитектура NMS

Одной из причин популярности RTDETRv2 является его конструкция NMS. Традиционные детекторы, такие как YOLOv8 множество перекрывающихся ограничительных рамок и используют немаксимальное подавление (NMS) для их фильтрации. RTDETRv2 напрямую прогнозирует точный набор объектов.

Примечание: более новая версия YOLO26 также использует сквозную архитектуру NMS, сочетая это архитектурное преимущество с фирменной скоростью Ultralytics.

Метрики производительности

В следующей таблице сравниваются характеристики различных размеров моделей. В то время как RTDETRv2 демонстрирует впечатляющую точность (mAP), YOLOv8 превосходную эффективность с точки зрения количества параметров и вычислительной нагрузки (FLOP), что напрямую влияет на скорость работы на устройствах с ограниченными ресурсами.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Основные выводы

  1. Edge AI с низкой задержкой: YOLOv8n Nano) не имеет себе равных по скорости, достигая ~1,47 мс на GPU T4 GPU сохраняя производительность в реальном времени на центральных процессорах. RTDETRv2 не имеет сопоставимой «нано»-модели для сред с крайне ограниченными ресурсами.
  2. Максимальная точность: RTDETRv2-x достигает немного более высокого показателя mAP 54,3) по сравнению с YOLOv8x 53,9), демонстрируя мощь механизма трансформаторного внимания в сложных валидациях, таких как COCO.
  3. Вычислительная эффективность: YOLOv8 требует меньшего количества FLOP для аналогичных уровней производительности, что делает его более энергоэффективным для мобильных устройств.

Экосистема и простота использования

Показатели производительности отражают только половину картины. Для инженерных команд решающим фактором часто является простота интеграции и обслуживания.

Преимущества Ultralytics : YOLOv8 преимущества зрелой Ultralytics , которая обеспечивает беспроблемную работу «из коробки».

  • Единый API: Вы можете переключаться между YOLOv8, YOLO11и даже RT-DETR одной строки кода.
  • Поддержка платформы: Ultralytics предлагает веб-инструменты для обучения, визуализации результатов и управления наборами данных без написания шаблонного кода.
  • Широкое применение: встроенные режимы экспорта позволяют мгновенно конвертировать данные в такие форматы, как ONNX, TensorRT, CoreML и TFLite.

RTDETRv2 Standalone vs. Integration: Хотя официальный репозиторий RTDETRv2 представляет собой кодовую базу, ориентированную на исследования, Ultralytics RT-DETR непосредственно в свой пакет. Это означает, что вы можете использовать архитектурные преимущества RTDETRv2, одновременно пользуясь удобным Ultralytics .

Пример кода: обучение и прогнозирование

Ниже приведен Python , демонстрирующий использование обеих архитектур в Ultralytics . Это подчеркивает модульность библиотеки.

from ultralytics import RTDETR, YOLO

# --- Option 1: Using YOLOv8 ---
# Load a pretrained YOLOv8 model (recommended for edge devices)
model_yolo = YOLO("yolov8n.pt")

# Train on a custom dataset
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# --- Option 2: Using RT-DETR ---
# Load a pretrained RT-DETR model (recommended for high-accuracy tasks)
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run inference on an image
# Note: RT-DETR models predict without NMS natively
results = model_rtdetr("https://ultralytics.com/images/bus.jpg")

# Visualize the results
results[0].show()

Приложения в реальном мире

В чем превосходит RTDETRv2

Архитектура на основе трансформатора делает RTDETRv2 идеальным решением для сценариев, в которых точность имеет первостепенное значение, а аппаратные ресурсы ограничены (например, обработка на стороне сервера с использованием мощных графических процессоров).

  • Медицинская визуализация: обнаружение тонких аномалий на рентгеновских снимках, где общий контекст помогает различать схожие ткани.
  • Анализ толпы: отслеживание отдельных лиц в плотной толпе, где окклюзия обычно сбивает с толку стандартные CNN.
  • Воздушное наблюдение: идентификация небольших объектов на высококачественных снимках, полученных с помощью дронов, где важна взаимосвязь между элементами рельефа.

Где превосходит YOLOv8

YOLOv8 оптимальным решением для разнообразных приложений с ограниченными ресурсами, требующих баланса между скоростью и надежностью.

  • Встроенный IoT: работает на таких устройствах, как NVIDIA Orin Nano, для мониторинга дорожного движения в умных городах.
  • Робототехника: обход препятствий в режиме реального времени, когда каждая миллисекунда задержки имеет значение для предотвращения столкновений.
  • Производство: высокоскоростная инспекция сборочной линии, где модель должна успевать за быстро движущимися конвейерными лентами.
  • Многозадачность: приложения, требующие OBB для вращающихся объектов или оценки положения для мониторинга безопасности работников.

Перспективы на будущее: лучшее из обоих миров с YOLO26

В то время как RTDETRv2 выдвинул на первый план обнаружение NMS, в этой области продолжается прогресс. Недавно выпущенный YOLO26 эффективно устраняет разрыв между этими двумя архитектурами.

YOLO26 включает в себя дизайн End-to-End NMS, впервые примененный в трансформаторах, но реализует его в рамках высокооптимизированной архитектуры, CPU. Благодаря таким функциям, как MuSGD Optimizer и удаление Distribution Focal Loss (DFL), YOLO26 обеспечивает стабильность обучения и глобальное понимание контекста трансформаторов с невероятной скоростью и низким потреблением памяти YOLO . Для новых проектов, начинающихся в 2026 году, YOLO26 является перспективным решением, сочетающим в себе преимущества RTDETRv2 и YOLOv8.

Заключение

RTDETRv2 и YOLOv8 исключительные инструменты в арсенале инженера по компьютерному зрению. RTDETRv2 — надежный выбор для исследований и развертывания на высокопроизводительных серверах, где VRAM не является ограничением, а глобальный контекст имеет решающее значение. YOLOv8, однако, предлагает беспрецедентную универсальность, поддержку экосистемы и эффективность, что делает его практичным выбором для подавляющего большинства коммерческих и периферийных развертываний ИИ.

Разработчикам, которые ищут оптимальное сочетание этих подходов — высокую скорость обработки данных без накладных расходов на трансформатор — мы рекомендуем ознакомиться с документацией по YOLO26, чтобы узнать, как искусственный интеллект нового поколения может ускорить ваш рабочий процесс.

Дополнительная литература

  • Изучите показателиYOLO , чтобы mAP понять mAP .
  • Узнайте о Model Export для развертывания на устройствах iOS, Android и Edge.
  • Ознакомьтесь с другими поддерживаемыми моделями, такими как YOLO11 и SAM .

Комментарии