RTDETRv2 против YOLOv8: трансформация обнаружения объектов в реальном времени
Область компьютерного зрения быстро развивается, переходя от традиционных сверточных нейронных сетей (CNN) к гибридным архитектурам, включающим трансформеры. Двумя выдающимися моделями в этом переходном процессе являются RTDETRv2 (Real-Time Detection Transformer version 2) и Ultralytics YOLOv8. Хотя обе модели направлены на решение задачи обнаружения объектов в реальном времени, они подходят к этой задаче с принципиально разными философиями и архитектурными решениями.
В данном руководстве представлено техническое сравнение, которое поможет разработчикам, исследователям и инженерам выбрать подходящую модель для конкретных задач развертывания с учетом таких факторов, как скорость вывода, точность и эффективность обучения.
Обзоры моделей
Прежде чем углубляться в метрики, необходимо понять происхождение и архитектурные цели каждой модели.
RTDETRv2
RTDETRv2 основан на успехе оригинального RT-DETR, который был первым детектором на основе трансформатора, способным по-настоящему составить конкуренцию YOLO в сценариях реального времени. Разработанный исследователями Baidu, он использует базовую структуру трансформатора зрения для захвата глобального контекста, что часто отсутствует в чистых CNN. Его отличительной чертой является способность к сквозному прогнозированию, что устраняет необходимость в постобработке с помощью Non-Maximum Suppression (NMS).
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang и др.
- Организация:Baidu
- Дата: июль 2024 г. (документ v2)
- Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
- GitHub:Репозиторий RT-DETR
Ultralytics YOLOv8
YOLOv8, выпущенный Ultralytics, представляет собой вершину эффективности обнаружения объектов на основе CNN. Он представляет собой детектор без анкеров и обновленную основу CSPDarknet. Разработанный для универсального использования, YOLOv8 не просто детектор; он изначально поддерживает такие задачи, как сегментация экземпляров, оценка позы и классификация. Он опирается на надежную программную экосистему, которая упрощает все, от управления наборами данных до развертывания.
- Авторы: Гленн Джокер, Аюш Чаурасия и Цзин Цю
- Организация:Ultralytics
- Дата: 10 января 2023 г.
- Документация:Документация YOLOv8
Сравнение технической архитектуры
Основное различие заключается в том, как эти модели обрабатывают визуальную информацию.
Трансформеры видения против CNN
RTDETRv2 использует гибридный кодировщик, который обрабатывает особенности изображения с помощью механизмов внимания. Это позволяет модели «видеть» все изображение сразу, эффективно понимая взаимосвязь между удаленными объектами. Этот глобальный контекст особенно полезен в сценах с большим количеством объектов или когда объекты закрыты. Однако это имеет свою цену: трансформеры обычно требуют значительно больше GPU (VRAM) во время обучения и могут сходиться медленнее, чем их аналоги CNN.
В отличие от этого, YOLOv8 на глубокие сверточные сети. CNN отлично справляются с извлечением локальных характеристик, таких как края и текстуры. YOLOv8 это с помощью «Bag of Freebies» — архитектурных настроек, которые повышают точность без увеличения затрат на вывод. Результатом является невероятно легкая модель, которая быстрее обучается на потребительском оборудовании и эффективно развертывается на периферийных устройствах, таких как Raspberry Pi.
Архитектура NMS
Одной из причин популярности RTDETRv2 является его конструкция NMS. Традиционные детекторы, такие как YOLOv8 множество перекрывающихся ограничительных рамок и используют немаксимальное подавление (NMS) для их фильтрации. RTDETRv2 напрямую прогнозирует точный набор объектов.
Примечание: более новая версия YOLO26 также использует сквозную архитектуру NMS, сочетая это архитектурное преимущество с фирменной скоростью Ultralytics.
Метрики производительности
В следующей таблице сравниваются характеристики различных размеров моделей. В то время как RTDETRv2 демонстрирует впечатляющую точность (mAP), YOLOv8 превосходную эффективность с точки зрения количества параметров и вычислительной нагрузки (FLOP), что напрямую влияет на скорость работы на устройствах с ограниченными ресурсами.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
Основные выводы
- Edge AI с низкой задержкой: YOLOv8n Nano) не имеет себе равных по скорости, достигая ~1,47 мс на GPU T4 GPU сохраняя производительность в реальном времени на центральных процессорах. RTDETRv2 не имеет сопоставимой «нано»-модели для сред с крайне ограниченными ресурсами.
- Максимальная точность: RTDETRv2-x достигает немного более высокого показателя mAP 54,3) по сравнению с YOLOv8x 53,9), демонстрируя мощь механизма трансформаторного внимания в сложных валидациях, таких как COCO.
- Вычислительная эффективность: YOLOv8 требует меньшего количества FLOP для аналогичных уровней производительности, что делает его более энергоэффективным для мобильных устройств.
Экосистема и простота использования
Показатели производительности отражают только половину картины. Для инженерных команд решающим фактором часто является простота интеграции и обслуживания.
Преимущества Ultralytics : YOLOv8 преимущества зрелой Ultralytics , которая обеспечивает беспроблемную работу «из коробки».
- Единый API: Вы можете переключаться между YOLOv8, YOLO11и даже RT-DETR одной строки кода.
- Поддержка платформы: Ultralytics предлагает веб-инструменты для обучения, визуализации результатов и управления наборами данных без написания шаблонного кода.
- Широкое применение: встроенные режимы экспорта позволяют мгновенно конвертировать данные в такие форматы, как ONNX, TensorRT, CoreML и TFLite.
RTDETRv2 Standalone vs. Integration: Хотя официальный репозиторий RTDETRv2 представляет собой кодовую базу, ориентированную на исследования, Ultralytics RT-DETR непосредственно в свой пакет. Это означает, что вы можете использовать архитектурные преимущества RTDETRv2, одновременно пользуясь удобным Ultralytics .
Пример кода: обучение и прогнозирование
Ниже приведен Python , демонстрирующий использование обеих архитектур в Ultralytics . Это подчеркивает модульность библиотеки.
from ultralytics import RTDETR, YOLO
# --- Option 1: Using YOLOv8 ---
# Load a pretrained YOLOv8 model (recommended for edge devices)
model_yolo = YOLO("yolov8n.pt")
# Train on a custom dataset
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# --- Option 2: Using RT-DETR ---
# Load a pretrained RT-DETR model (recommended for high-accuracy tasks)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run inference on an image
# Note: RT-DETR models predict without NMS natively
results = model_rtdetr("https://ultralytics.com/images/bus.jpg")
# Visualize the results
results[0].show()
Приложения в реальном мире
В чем превосходит RTDETRv2
Архитектура на основе трансформатора делает RTDETRv2 идеальным решением для сценариев, в которых точность имеет первостепенное значение, а аппаратные ресурсы ограничены (например, обработка на стороне сервера с использованием мощных графических процессоров).
- Медицинская визуализация: обнаружение тонких аномалий на рентгеновских снимках, где общий контекст помогает различать схожие ткани.
- Анализ толпы: отслеживание отдельных лиц в плотной толпе, где окклюзия обычно сбивает с толку стандартные CNN.
- Воздушное наблюдение: идентификация небольших объектов на высококачественных снимках, полученных с помощью дронов, где важна взаимосвязь между элементами рельефа.
Где превосходит YOLOv8
YOLOv8 оптимальным решением для разнообразных приложений с ограниченными ресурсами, требующих баланса между скоростью и надежностью.
- Встроенный IoT: работает на таких устройствах, как NVIDIA Orin Nano, для мониторинга дорожного движения в умных городах.
- Робототехника: обход препятствий в режиме реального времени, когда каждая миллисекунда задержки имеет значение для предотвращения столкновений.
- Производство: высокоскоростная инспекция сборочной линии, где модель должна успевать за быстро движущимися конвейерными лентами.
- Многозадачность: приложения, требующие OBB для вращающихся объектов или оценки положения для мониторинга безопасности работников.
Перспективы на будущее: лучшее из обоих миров с YOLO26
В то время как RTDETRv2 выдвинул на первый план обнаружение NMS, в этой области продолжается прогресс. Недавно выпущенный YOLO26 эффективно устраняет разрыв между этими двумя архитектурами.
YOLO26 включает в себя дизайн End-to-End NMS, впервые примененный в трансформаторах, но реализует его в рамках высокооптимизированной архитектуры, CPU. Благодаря таким функциям, как MuSGD Optimizer и удаление Distribution Focal Loss (DFL), YOLO26 обеспечивает стабильность обучения и глобальное понимание контекста трансформаторов с невероятной скоростью и низким потреблением памяти YOLO . Для новых проектов, начинающихся в 2026 году, YOLO26 является перспективным решением, сочетающим в себе преимущества RTDETRv2 и YOLOv8.
Заключение
RTDETRv2 и YOLOv8 исключительные инструменты в арсенале инженера по компьютерному зрению. RTDETRv2 — надежный выбор для исследований и развертывания на высокопроизводительных серверах, где VRAM не является ограничением, а глобальный контекст имеет решающее значение. YOLOv8, однако, предлагает беспрецедентную универсальность, поддержку экосистемы и эффективность, что делает его практичным выбором для подавляющего большинства коммерческих и периферийных развертываний ИИ.
Разработчикам, которые ищут оптимальное сочетание этих подходов — высокую скорость обработки данных без накладных расходов на трансформатор — мы рекомендуем ознакомиться с документацией по YOLO26, чтобы узнать, как искусственный интеллект нового поколения может ускорить ваш рабочий процесс.
Дополнительная литература
- Изучите показателиYOLO , чтобы mAP понять mAP .
- Узнайте о Model Export для развертывания на устройствах iOS, Android и Edge.
- Ознакомьтесь с другими поддерживаемыми моделями, такими как YOLO11 и SAM .