Перейти к содержанию

RTDETRv2 против YOLOv8: техническое сравнение

В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для успеха проекта. В настоящее время в этой области доминируют две различные архитектурные философии: подходы на основе трансформаторов, представленные RTDETRv2, и высоко оптимизированные конволюционные нейронные сети (CNN), примером которых являются Ultralytics YOLOv8.

В то время как RTDETRv2 расширяет границы точности с помощью трансформаторов зрения, YOLOv8 улучшает баланс между скоростью, точностью и простотой развертывания. В этом сравнении рассматриваются технические характеристики, архитектурные различия и практические показатели производительности, чтобы помочь разработчикам и исследователям выбрать оптимальное решение для своих приложений.

Метрики производительности: Скорость, точность и эффективность

В области производительности наблюдается явный компромисс. RTDETRv2 фокусируется на максимизации средней точностиmAP) с помощью сложных механизмов внимания, в то время как YOLOv8 ставит во главу угла универсальный баланс скорости вывода в реальном времени и высокой точности, подходящий для развертывания на границе и в облаке.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Анализ результатов

Полученные данные позволяют сделать несколько важных выводов относительно стратегий развертывания:

  • Вычислительная эффективность: YOLOv8 демонстрирует высочайшую эффективность. Например, YOLOv8l достигает почти равной точности (52,9 mAP) с RTDETRv2-l (53,4 mAP), работая при этом на GPU с более высокой скоростью вывода.
  • ПроизводительностьCPU : YOLOv8 предлагает задокументированную, надежную производительность на CPU , что делает его практичным выбором для пограничных AI-устройств, не имеющих специальных ускорителей. Бенчмарки RTDETRv2 для CPU часто недоступны из-за больших вычислительных затрат на слои трансформатора.
  • Эффективность использования параметров: Для достижения конкурентоспособных результатов моделям YOLOv8 требуется меньшее количество параметров и операций с плавающей запятой (FLOP), что напрямую ведет к снижению потребления памяти и ускорению времени обучения.

Аппаратные соображения

Если в качестве объекта развертывания используются стандартные процессоры (например, процессоры Intel ) или встраиваемые устройства (например, Raspberry Pi), архитектура YOLOv8 на основе CNN обеспечивает значительное преимущество в задержке по сравнению с операциями RTDETRv2, требующими большого количества трансформаторов.

RTDETRv2: Обнаружение в реальном времени с помощью Transformers

RTDETRv2 (Real-Time Detection Transformer v2) представляет собой продолжение эволюции применения трансформаторов зрения (ViT) для обнаружения объектов. Разработанный исследователями из Baidu, он призван решить проблемы задержки, традиционно связанные с моделями на основе DETR, сохранив при этом их способность понимать глобальный контекст.

Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organization:Baidu
Date: 2024-07-24 (v2 release)
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR

Архитектура

RTDETRv2 использует гибридную архитектуру, которая сочетает в себе основу (обычно CNN, например ResNet) и эффективный кодер-декодер с трансформатором. Ключевой особенностью является разделение внутримасштабного взаимодействия и межмасштабного слияния, что помогает модели улавливать дальние зависимости по всему изображению. Это позволяет модели "присутствовать" в разных частях сцены одновременно, что потенциально улучшает производительность в загроможденном окружении.

Сильные и слабые стороны

Основное достоинство RTDETRv2 - высокая точность при работе со сложными наборами данных, где глобальный контекст имеет решающее значение. Отказ от якорных ящиков в пользу объектных запросов упрощает конвейер постобработки, устраняя необходимость в немаксимальном подавленииNMS).

Однако за эти преимущества приходится платить:

  • Ресурсоемкость: Модель требует значительно больше памяти GPU для обучения по сравнению с CNN.
  • Более медленное схождение: Модели на основе трансформаторов обычно требуют больше времени для обучения и сходимости.
  • Ограниченная универсальность: Он предназначен в первую очередь для определения ограничительных рамок и не имеет встроенной поддержки сегментации или оценки позы.

Узнайте больше о RTDETRv2

Ultralytics YOLOv8: скорость, универсальность и экосистема

Ultralytics YOLOv8 это современная модель обнаружения объектов без привязки, которая устанавливает стандарты универсальности и простоты использования в отрасли. Она опирается на наследие семейства YOLO , внося архитектурные усовершенствования, повышающие производительность, сохраняя при этом скорость работы в реальном времени, которая сделала YOLO знаменитой.

Авторы: Гленн Джочер, Аюш Чаурасия и Цзин Цю
Организация:Ultralytics
Дата: 2023-01-10
GitHubultralytics
Docsyolov8

Архитектура

YOLOv8 имеет CSP (Cross Stage Partial) Darknet магистраль и PANet (Path Aggregation Network) горловину, завершающуюся раздельной головкой обнаружения. Эта архитектура не имеет якорей, то есть предсказывает центры объектов напрямую, что упрощает конструкцию и улучшает обобщение. Модель оптимизирована для tensor процессоров и графических процессоров, что обеспечивает максимальную пропускную способность.

Ключевые преимущества для разработчиков

  • Простота использования: Благодаря Pythonic API и надежному CLI пользователи могут обучать и развертывать модели всего в нескольких строках кода. Исчерпывающая документация снижает входной барьер как для новичков, так и для экспертов.
  • Хорошо поддерживаемая экосистема: Благодаря поддержке Ultralytics, YOLOv8 получает частые обновления, поддержку сообщества и легкую интеграцию с такими инструментами, как TensorBoard и MLFlow.
  • Универсальность: В отличие от RTDETRv2, YOLOv8 поддерживает широкий спектр задач из коробки, включая сегментацию объектов, оценку положения, классификацию и ориентированное обнаружение объектов (OBB).
  • Эффективность обучения: Модель разработана для быстрого обучения с меньшими требованиями к памяти CUDA , что делает ее доступной для исследователей с ограниченным бюджетом на оборудование.

Узнайте больше о YOLOv8

Глубокое погружение: Архитектура и примеры использования

Выбор между этими двумя моделями часто зависит от конкретных требований среды применения.

Философия архитектуры

В YOLOv8 используются конволюционные нейронные сети (CNN), которые отлично справляются с обработкой локальных признаков и пространственных иерархий. Это делает их изначально более быстрыми и менее требовательными к памяти. Использование трансформаторов в RTDETRv2 позволяет эффективно моделировать глобальные взаимосвязи, но при этом возникает квадратичная сложность по отношению к размеру изображения, что приводит к увеличению задержки и расхода памяти, особенно при высоких разрешениях.

Идеальные варианты использования

Выбирайте YOLOv8 , когда:

  • Производительность в реальном времени имеет решающее значение: Такие приложения, как автономное вождение, видеоаналитика и контроль качества продукции, требуют низкой задержки.
  • Аппаратное обеспечение не имеет ограничений: Развертывание на NVIDIA Jetson, Raspberry Pi или мобильных устройствах не вызывает затруднений благодаря YOLOv8.
  • Необходима многозадачность: Если ваш проект требует сегментирования объектов или отслеживания ключевых точек наряду с обнаружением, YOLOv8 предлагает единую структуру.
  • Быстрые циклы разработки: ЭкосистемаUltralytics ускоряет маркировку данных, обучение и развертывание.

Выберите RTDETRv2, если:

  • Максимальная точность - единственная метрика: Для академических бенчмарков или сценариев, где доступны бесконечные вычисления и важна каждая доля mAP .
  • Сложные окклюзии: В сильно загроможденных сценах, где понимание взаимосвязи между удаленными пикселями жизненно необходимо, механизм глобального внимания может дать небольшое преимущество.

Сравнительная характеристика

В то время как RTDETRv2 представляет собой интересное научное достижение в применении трансформаторов для обнаружения, YOLOv8 остается лучшим выбором для большинства практических приложений. Его баланс скорости, точности и эффективности не имеет себе равных. Кроме того, способность выполнять множество задач компьютерного зрения в рамках одной удобной библиотеки делает ее универсальным инструментом для разработки современного ИИ.

Разработчики, стремящиеся к абсолютной производительности и набору функций, обращают внимание на такие новые итерации, как YOLO11 обеспечивает еще больший прирост эффективности и точности по сравнению с YOLOv8 и RTDETRv2.

Пример кода: Начало работы с YOLOv8

Интеграция YOLOv8 в ваш рабочий процесс очень проста. Ниже приведен пример на Python , демонстрирующий, как загрузить предварительно обученную модель, провести расчеты и экспортировать ее для развертывания.

from ultralytics import YOLO

# Load a pre-trained YOLOv8 model
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a local image
# Ensure the image path is correct or use a URL
results = model("path/to/image.jpg")

# Export the model to ONNX format for deployment
success = model.export(format="onnx")

Изучите другие модели

Чтобы получить более широкое представление об архитектурах обнаружения объектов, ознакомьтесь с этими сравнительными материалами:


Комментарии