Перейти к содержанию

YOLOv5 против RTDETRv2: Оценка архитектур CNN против Transformer для обнаружения объектов.

Ландшафт компьютерного зрения значительно расширился за последние несколько лет, предлагая разработчикам широкий спектр архитектур для решения сложных визуальных задач. Среди наиболее популярных парадигм — сверточные нейронные сети (CNN) и трансформеры обнаружения (DETR).

Это руководство предоставляет углубленное техническое сравнение между двумя ключевыми моделями в этих категориях: Ultralytics YOLOv5, высокоэффективной и широко используемой моделью на основе CNN, и RTDETRv2, современным детектором объектов реального времени на основе трансформеров.

Ultralytics YOLOv5: Отраслевой стандарт эффективности

С момента своего выпуска Ultralytics YOLOv5 стал краеугольным камнем сообщества ИИ, обеспечивая работу тысяч коммерческих приложений и исследовательских проектов по всему миру. Построенный полностью на фреймворке PyTorch, он отдавал приоритет интуитивно понятному опыту разработчика без ущерба для производительности в реальном времени.

Ключевые характеристики:

Архитектура и сильные стороны

YOLOv5 использует оптимизированную архитектуру CNN, разработанную для максимизации эффективности извлечения признаков при сохранении чрезвычайно низкого потребления памяти. Она применяет бэкбон CSPDarknet и шейку PANet, создавая мощную комбинацию для многомасштабного слияния признаков.

Одним из основных преимуществ YOLOv5 является его Баланс производительности. Он обеспечивает исключительный компромисс между скоростью и точностью, что делает его идеальным выбором для развертывания моделей на оборудовании с ограниченными ресурсами, таком как устройства NVIDIA Jetson и смартфоны.

Кроме того, YOLOv5 обладает беспрецедентной универсальностью. В отличие от моделей, строго ограниченных предсказаниями ограничивающих рамок, YOLOv5 нативно поддерживает классификацию изображений и сегментацию экземпляров, предоставляя единую структуру для различных визуальных задач. Его эффективность обучения также примечательна, требуя значительно меньше памяти CUDA во время обучения по сравнению с архитектурами на основе трансформеров.

Слабые стороны

Поскольку YOLOv5 основан на более старом фреймворке CNN, он по своей сути зависит от Non-Maximum Suppression (NMS) во время постобработки для устранения дублирующихся ограничивающих рамок. Несмотря на высокую оптимизацию в рамках Ultralytics, NMS иногда может вызывать задержки на специализированных периферийных NPU.

Узнайте больше о YOLOv5

RTDETRv2: Трансформеры реального времени от Baidu

RTDETRv2 (Real-Time Detection Transformer v2) представляет собой значительный прорыв в применении архитектур трансформеров для обнаружения объектов в реальном времени, устраняя вычислительные неэффективности, которые исторически преследовали стандартные DETR.

Ключевые характеристики:

Архитектура и сильные стороны

RTDETRv2 основывается на своем предшественнике, используя гибридный кодировщик и гибкую конструкцию декодера для обработки изображений. Механизм самовнимания трансформера обеспечивает модели глобальное понимание контекста изображения, позволяя ей исключительно хорошо работать в сложных сценах с сильной окклюзией объектов.

Определяющей особенностью RTDETRv2 является его сквозная архитектура без NMS. Предсказывая запросы объектов напрямую, без использования якорных боксов или постобработки NMS, она упрощает конвейер вывода. Эта архитектура достигает впечатляющего mAP (средней точности) на эталонных наборах данных, таких как COCO.

Слабые стороны

Несмотря на свои возможности работы в реальном времени, RTDETRv2 имеет заметно более высокие требования к памяти по сравнению с моделями YOLO. Механизмы внимания в трансформерах масштабируются квадратично с длиной последовательности, что может привести к ошибкам нехватки памяти во время обучения с высоким разрешением, если не используются массивные кластеры GPU. Кроме того, ему не хватает универсальности экосистемы Ultralytics, готовой к использованию, в основном ориентируясь только на 2D обнаружение объектов без нативной поддержки сегментации или оценки позы.

Узнайте больше о RTDETR

Таблица сравнения производительности

Для объективной оценки этих архитектур мы собрали их метрики производительности. Значения, выделенные жирным шрифтом, представляют наиболее эффективные или высокопроизводительные метрики по всем протестированным масштабам.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Контекст производительности

Хотя RTDETRv2-x достигает наивысшего абсолютного mAP, он требует почти в 30 раз больше параметров, чем YOLOv5n. Для высокоскоростных приложений, работающих на ограниченном оборудовании, Ultralytics модели неизменно предлагают лучшую вычислительную эффективность.

Преимущество экосистемы Ultralytics

При переносе модели из исследовательской среды в производственную программное обеспечение, окружающее модель, столь же важно, как и архитектура нейронной сети. Хорошо поддерживаемая экосистема, предоставляемая Ultralytics, значительно ускоряет цикл разработки.

Непревзойденная простота использования

Модели Ultralytics обеспечивают невероятно упрощенный пользовательский опыт. Независимо от того, хотите ли вы обучить пользовательскую модель, выполнить валидацию или экспортировать в аппаратно-специфичные форматы, такие как TensorRT или ONNX, API Ultralytics на python позволяет достичь этого всего за несколько строк кода.

Вот практический пример кода, демонстрирующий, как просто обучать и выполнять инференс с моделью Ultralytics:

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

Этот простой, унифицированный API нативно поддерживает интеграции для отслеживания экспериментов с такими инструментами, как Weights & Biases и Comet, позволяя разработчикам беспрепятственно регистрировать метрики без написания сложного шаблонного кода.

Сценарии использования и рекомендации

Выбор между YOLOv5 и RT-DETR зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбирать YOLOv5

YOLOv5 является оптимальным выбором для:

  • Проверенные производственные системы: Существующие развертывания, где ценятся долгий track-рекорд стабильности YOLOv5, обширная документация и массивная поддержка сообщества.
  • Обучение с ограниченными ресурсами: Среды с ограниченными ресурсами GPU, где эффективный конвейер обучения YOLOv5 и низкие требования к памяти являются преимуществом.
  • Обширная поддержка форматов экспорта: Проекты, требующие развертывания во многих форматах, включая ONNX, TensorRT, CoreML и TFLite.

Когда выбрать RT-DETR

RT-DETR рекомендуется для:

  • Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
  • Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
  • Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Взгляд в будущее: YOLO11 и YOLO26

Если вы начинаете новый проект в области зрения сегодня, настоятельно рекомендуется изучить последние поколения моделей Ultralytics.

Хотя YOLOv5 остается невероятно надежной, YOLO11 предлагает улучшенную точность и расширенный набор задач, включая Oriented Bounding Box (OBB) detect.

Что еще более важно, передовая YOLO26 объединяет лучшее из обоих миров. Она реализует сквозную архитектуру без NMS (впервые примененную в YOLOv10), устраняя накладные расходы на постобработку при сохранении эффективности CNN. YOLO26 также представляет оптимизатор MuSGD, вдохновленный инновациями в обучении LLM, для более быстрой сходимости. Благодаря удалению DFL (Distribution Focal Loss удален для упрощенного экспорта и лучшей совместимости с периферийными/маломощными устройствами), YOLO26 обеспечивает до 43% более быстрый инференс на CPU, что делает ее абсолютно лучшим выбором для периферийного ИИ. Кроме того, ProgLoss + STAL предлагает улучшенные функции потерь со значительными улучшениями в распознавании мелких объектов, что критически важно для IoT, робототехники и аэрофотосъемки.

Заключение

Выбор между YOLOv5 и RTDETRv2 сильно зависит от ваших ограничений развертывания. RTDETRv2 расширяет границы mAP, используя мощные механизмы внимания трансформеров, но сопряжен со значительными затратами памяти и вычислительными издержками.

Напротив, Ultralytics YOLOv5 предлагает проверенное, высокооптимизированное и универсальное решение, которое бесперебойно работает повсюду — от облачных серверов до микроконтроллеров. Для команд, стремящихся к максимально возможной точности наряду с бесшовными инструментами развертывания, обновление в экосистеме Ultralytics до YOLO26 предоставляет окончательное современное решение для современных приложений компьютерного зрения на базе ИИ.


Комментарии