Перейти к содержанию

YOLOv8 RTDETRv2: подробное исследование обнаружения объектов в реальном времени

В области обнаружения объектов долгое время доминировали сверточные нейронные сети (CNN), но появление архитектур на основе трансформеров привело к появлению новых интересных парадигм. В этом техническом сравнении рассматриваются различия между Ultralytics YOLOv8, отраслевого стандарта для универсального видения в реальном времени, и RTDETRv2 (Real-Time DEtection TRansformer version 2), мощной модели от Baidu, ориентированной на исследования.

В то время как YOLOv8 проверенную эффективность CNN для обеспечения скорости и простоты использования, RTDETRv2 использует трансформеры зрения для захвата глобального контекста, предлагая другой подход к точности.

Сравнение метрик производительности

В следующей таблице представлены сравнительные данные по ключевым показателям эффективности. В то время как RTDETRv2 демонстрирует высокую точность на COCO, YOLOv8 предлагает более широкий диапазон размеров моделей (от Nano до X-Large) и превосходную скорость инференса на стандартном оборудовании, что подчеркивает его оптимизацию для реального внедрения.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Обзор модели

Ultralytics YOLOv8

YOLOv8 представляет собой значительный скачок в YOLO , разработанный как самая доступная и мощная модель искусственного интеллекта в мире. Он представляет собой ультрасовременную архитектуру без анкеров, которая обеспечивает баланс между точностью обнаружения и задержкой вывода на огромном разнообразии аппаратных целей, от встроенных устройств NVIDIA до облачных API.

  • Авторы: Гленн Джокер, Аюш Чаурасия и Цзин Цю
  • Организация:Ultralytics
  • Дата выпуска: 10 января 2023 г.
  • Фреймворк: PyTorch с нативным экспортом в ONNX, OpenVINO, CoreML, TFLite)
  • GitHub:ultralytics/ultralytics

Узнайте больше о YOLOv8

RTDETRv2

RTDETRv2 является усовершенствованной версией Real-Time DEtection TRansformer (RT-DETR). Он призван решить проблему высокой вычислительной стоимости, которая обычно ассоциируется с Vision Transformers (ViTs), за счет использования эффективного гибридного кодировщика и устранения необходимости в постобработке Non-Maximum Suppression (NMS) благодаря архитектуре декодера трансформатора.

  • Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang и др.
  • Организация: Baidu
  • Дата выпуска: 17 апреля 2023 г. (оригинальный RT-DETR), июль 2024 г. (версия 2 на бумаге)
  • Фреймворк: PyTorch
  • GitHub:lyuwenyu/RT-DETR
  • Arxiv:RT-DETRv2 Paper

Узнайте больше о RTDETR

Архитектурные различия

Основное различие заключается в том, как эти модели обрабатывают визуальные характеристики.

YOLOv8 использует основу на базе CNN с модулем C2f (Cross-Stage Partial Bottleneck с двумя свертками). Такая конструкция улучшает градиентный поток и богатство функций, сохраняя при этом небольшой размер. Она использует анкер-фри головку, которая напрямую предсказывает центры объектов, а не корректирует заранее определенные анкерные рамки. Это упрощает процесс обучения и улучшает обобщение на нерегулярных формах объектов.

RTDETRv2 использует гибридный кодировщик, который обрабатывает многомасштабные особенности. В отличие от традиционных трансформеров, которые требуют больших вычислительных ресурсов, RTDETRv2 разделяет внутримасштабное взаимодействие (с помощью CNN) и межмасштабное слияние (с помощью Attention), что значительно повышает скорость. Его отличительной особенностью является декодер трансформера с выбором запросов IoU, который позволяет выводить фиксированный набор ограничительных рамок без необходимости NMS.

NMS NMS

Традиционно детекторы объектов, такие как YOLOv8 немаксимальное подавление (NMS) для фильтрации перекрывающихся рамок. Архитектура трансформатора RTDETRv2 изначально NMS использует NMS. Однако последняя Ultralytics , YOLO26, теперь также отличается сквозной конструкцией NMS, сочетающей в себе лучшие характеристики CNN по скорости с простотой трансформатора.

Экосистема и простота использования

Именно здесь различие становится наиболее заметным для разработчиков и инженеров.

Ultralytics : YOLOv8 не просто модель, а часть зрелой платформы. ultralytics Python предоставляет унифицированный интерфейс для Обучение, Валидация, Прогнози Экспорт.

  • Универсальность: встроенная поддержка сегментации экземпляров, оценки позы, классификации и OBB. RTDETRv2 — это в первую очередь репозиторий исследований, посвященных обнаружению.
  • Режимы экспорта: с помощью одной строки кода YOLOv8 экспортируются в ONNX, TensorRT, CoreML и TFLite, что обеспечивает беспроблемное развертывание на мобильных и пограничных устройствах.
  • Сообщество: огромное сообщество, насчитывающее миллионы пользователей, обеспечивает наличие учебных материалов, руководств и сторонних интеграций (таких как Ultralytics и Comet) всегда под рукой.

Экосистема RTDETRv2: RTDETRv2 — это репозиторий исследовательского уровня. Хотя он обеспечивает отличные академические результаты, часто требует более тщательной ручной настройки для пользовательских наборов данных и не обладает той «готовой к использованию» отлаженностью, которая присуща Ultralytics . Пользователям может быть сложно развернуть его на ограниченных по мощности периферийных устройствах, таких как Raspberry Pi, без значительных инженерных усилий.

Пример кода: Простота Ultralytics

Обучение YOLOv8 интуитивно YOLOv8 и требует минимального количества шаблонного кода:

from ultralytics import YOLO

# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")

# Train on a custom dataset with one command
# The system handles data loading, augmentation, and logging automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for production
model.export(format="onnx")

Эффективность обучения и использование ресурсов

Эффективность использования памяти: YOLO Ultralytics YOLO разработаны с учетом эффективности. Как правило, во время обучения они требуют меньше GPU (VRAM) по сравнению с архитектурами на основе трансформаторов. Это позволяет исследователям обучать большие партии данных на картах потребительского класса (например, NVIDIA 3060/4070), что делает высокопроизводительный ИИ доступным для широкого круга пользователей.

RTDETRv2, опирающийся на механизмы внимания, может быть более требовательным к памяти. Трансформеры часто требуют более длительных графиков обучения для полной конвергенции по сравнению с быстрой конвергенцией CNN, таких как YOLOv8.

Стабильность обучения: YOLOv8 обширной эволюции гиперпараметров на COCO , что обеспечивает стабильное обучение с минимальной настройкой. Ultralytics предоставляет Ultralytics для визуализации метрик и удобного управления экспериментами.

Приложения в реальном мире

Где превосходит YOLOv8

YOLOv8 «швейцарский армейский нож» компьютерного зрения, идеально подходящий для:

  • Edge AI & IoT: Работа на устройствах с низким энергопотреблением, таких как Android телефонах или умных камерах.
  • Робототехника: навигация в реальном времени и обход препятствий, где важна каждая миллисекунда задержки.
  • Промышленная инспекция: высокоскоростные сборочные линии, требующие одновременного обнаружения, сегментации и OBB (для вращающихся деталей).
  • Спортивная аналитика: отслеживание быстрых движений игроков с помощью оценки положения тела.

Место RTDETRv2

RTDETRv2 является сильным претендентом на:

  • Обработка на стороне сервера: приложения, работающие на мощных графических процессорах с большим объемом памяти.
  • Понимание сложных сцен: сценарии, в которых глобальный механизм внимания может лучше разделять перекрывающиеся объекты в плотной толпе.
  • Исследования: академические тесты, в которых основной целью mAP выжатие последних 0,1% mAP .

Будущее: вступает YOLO26

Хотя YOLOv8 RTDETRv2 являются отличными инструментами, в этой области все быстро меняется. Ultralytics выпустила YOLO26, который объединяет преимущества обеих архитектур.

Почему стоит перейти на YOLO26?

  • NMS: Как и RTDETRv2, YOLO26 устраняет NMS, упрощая процессы развертывания и стабилизируя задержку вывода, но делает это в рамках эффективной YOLO .
  • MuSGD Optimizer: вдохновленный инновациями в области обучения LLM (такими как Kimi K2 от Moonshot AI), этот гибридный оптимизатор обеспечивает стабильное обучение и более быструю конвергенцию.
  • Оптимизировано для Edge: YOLO26 обеспечивает на 43 % более быстрое CPU по сравнению с предыдущими поколениями, что делает его значительно более практичным дляGPU , чем тяжеловесные трансформеры.
  • Удаление DFL: удаление Distribution Focal Loss упрощает график модели, делая экспорт в встроенные NPU еще более плавным.

Для разработчиков, которые ищут точность современных трансформаторов с скоростью и экосистемой Ultralytics, YOLO26 является рекомендуемым выбором для новых проектов в 2026 году.

Узнайте больше о YOLO26

Обзор

ФункциональностьUltralytics YOLOv8RTDETRv2
АрхитектураCNN (C2f, без якоря)Гибридный кодер + трансформаторный декодер
NMSДа (стандартный)Нет ( NMS встроенной NMS)
Скорость тренировкиБыстрая конвергенцияМедленнее, требует большего количества эпох
Поддержка задачОбнаружение, сегментация, поза, классификация, OBBПреимущественно обнаружение
Простота использованияВысокий (простой API, обширная документация)Умеренный (Исследовательский репозиторий)
РазвертываниеЭкспорт в 1 клик (ONNX, TRT, CoreML)Требуется ручной экспорт

Для большинства пользователей YOLOv8 (и более новая версия YOLO26) предлагает оптимальный баланс производительности, универсальности и удобства для разработчиков. Его способность масштабироваться от небольших периферийных устройств до огромных кластеров в сочетании с исчерпывающей Ultralytics делает его самым безопасным и мощным выбором для производственных систем.


Комментарии