Link to this sectionYOLOv5 против RTDETRv2#

Ландшафт компьютерного зрения значительно расширился за последние несколько лет, предложив разработчикам широкий спектр архитектур для решения сложных визуальных задач. Среди самых популярных парадигм — сверточные нейронные сети (CNN) и трансформеры обнаружения (DETR).

В этом руководстве представлено подробное техническое сравнение двух ключевых моделей в этих категориях: Ultralytics YOLOv5, высокоэффективная и широко используемая модель на базе CNN, и RTDETRv2, современный детектор объектов реального времени на основе трансформеров.

Link to this sectionUltralytics YOLOv5: отраслевой стандарт эффективности#

С момента своего выпуска Ultralytics YOLOv5 стал краеугольным камнем сообщества ИИ, обеспечивая работу тысяч коммерческих приложений и исследовательских проектов по всему миру. Построенный полностью на фреймворке PyTorch, он ставит во главу угла интуитивно понятный опыт разработчика без ущерба для производительности в реальном времени.

Основные характеристики:

Автор: Гленн Джочер
Организация: Ultralytics
Дата: 2020-06-26
Ссылки: Репозиторий GitHub

Link to this sectionАрхитектура и преимущества#

YOLOv5 использует оптимизированную архитектуру CNN, разработанную для максимизации эффективности извлечения признаков при сохранении крайне малого объема памяти. Он использует бэкбон CSPDarknet и нек PANet, создавая мощную комбинацию для многомасштабного слияния признаков.

Одним из главных преимуществ YOLOv5 является баланс производительности. Он обеспечивает исключительный компромисс между скоростью и точностью, что делает его идеальным выбором для развертывания моделей на оборудовании с ограниченными ресурсами, таком как устройства NVIDIA Jetson и смартфоны.

Более того, YOLOv5 может похвастаться непревзойденной универсальностью. В отличие от моделей, строго ограниченных предсказанием ограничивающих рамок, YOLOv5 изначально поддерживает классификацию изображений и сегментацию экземпляров, предоставляя единый фреймворк для различных визуальных задач. Его эффективность обучения также впечатляет: он требует значительно меньше памяти CUDA во время обучения по сравнению с архитектурами на базе трансформеров.

Link to this sectionСлабые стороны#

Поскольку YOLOv5 основан на более старой архитектуре CNN, он неизбежно зависит от Non-Maximum Suppression (NMS) при постобработке для удаления дублирующихся ограничивающих рамок. Несмотря на высокую оптимизацию в рамках Ultralytics, NMS может иногда приводить к задержкам на специализированных периферийных NPU.

Узнай больше о YOLOv5

Link to this sectionRTDETRv2: трансформеры реального времени от Baidu#

RTDETRv2 (Real-Time Detection Transformer v2) представляет собой существенный скачок в применении архитектур трансформеров к обнаружению объектов в реальном времени, устраняя вычислительные неэффективности, которые исторически были свойственны стандартным DETR.

Основные характеристики:

Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu
Дата: 24.07.2024
Ссылки: Статья Arxiv, Репозиторий GitHub

Link to this sectionАрхитектура и преимущества#

RTDETRv2 развивает идеи своего предшественника, используя гибридный энкодер и гибкий дизайн декодера для обработки изображений. Механизм селф-аттеншн (самовнимания) трансформера дает модели глобальное понимание контекста изображения, позволяя ей отлично работать в сложных сценах с сильным перекрытием объектов.

Ключевой особенностью RTDETRv2 является его сквозной дизайн, не требующий NMS. Предсказывая объектные запросы напрямую без использования anchor boxes или постобработки NMS, он упрощает конвейер вывода. Эта архитектура достигает впечатляющего mAP (mean Average Precision) на бенчмарках, таких как COCO.

Link to this sectionСлабые стороны#

Несмотря на свои возможности работы в реальном времени, у RTDETRv2 заметно более высокие требования к памяти по сравнению с моделями YOLO. Механизмы внимания в трансформерах масштабируются квадратично от длины последовательности, что может приводить к ошибкам нехватки памяти (OOM) во время обучения с высоким разрешением, если не использовать массивные кластеры GPU. Кроме того, ему не хватает универсальности экосистемы Ultralytics, поскольку он в основном фокусируется только на 2D обнаружении объектов без встроенной поддержки сегментации или оценки поз.

Узнай больше о RTDETR

Link to this sectionТаблица сравнения производительности#

Чтобы объективно оценить эти архитектуры, мы собрали их показатели производительности. Значения, выделенные жирным шрифтом, представляют собой наиболее эффективные или самые высокие показатели производительности среди протестированных масштабов.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(М)	FLOPs ^(Б)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Контекст производительности

Хотя RTDETRv2-x достигает наивысшего абсолютного значения mAP, он требует почти в 30 раз больше параметров, чем YOLOv5n. Для высокоскоростных приложений, работающих на ограниченном оборудовании, модели Ultralytics неизменно предлагают лучшую вычислительную эффективность.

Link to this sectionПреимущества экосистемы Ultralytics#

При переносе модели из исследовательского ноутбука в производственную среду программное обеспечение, окружающее модель, так же важно, как и архитектура нейронной сети. Хорошо поддерживаемая экосистема, предоставляемая Ultralytics, значительно ускоряет жизненный цикл разработки.

Link to this sectionНепревзойденная простота использования#

Модели Ultralytics отдают приоритет невероятно оптимизированному пользовательскому опыту. Хочешь ли ты обучить пользовательскую модель, запустить валидацию или экспортировать ее в аппаратно-зависимые форматы, такие как TensorRT или ONNX, Python API от Ultralytics позволит сделать это всего за несколько строк кода.

Вот практический пример кода, демонстрирующий, насколько просто обучать и запускать вывод с моделью Ultralytics:

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

Этот простой, унифицированный API изначально поддерживает интеграцию отслеживания экспериментов с такими инструментами, как Weights & Biases и Comet, что позволяет разработчикам легко регистрировать метрики, не записывая сложный шаблонный код.

Link to this sectionСценарии использования и рекомендации#

Выбор между YOLOv5 и RT-DETR зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Link to this sectionКогда стоит выбрать YOLOv5#

YOLOv5 — отличный выбор для:

Проверенных производственных систем: существующих развертываний, где ценятся долгая история стабильности YOLOv5, обширная документация и огромная поддержка сообщества.
Обучения с ограниченными ресурсами: сред с ограниченными ресурсами GPU, где эффективный конвейер обучения YOLOv5 и более низкие требования к памяти являются преимуществом.
Обширной поддержки форматов экспорта: проектов, требующих развертывания во многих форматах, включая ONNX, TensorRT, CoreML и TFLite.

Link to this sectionКогда выбирать RT-DETR#

RT-DETR рекомендуется для:

Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionВзгляд в будущее: YOLO11 и YOLO26#

Если ты начинаешь новый проект в области компьютерного зрения сегодня, настоятельно рекомендуется изучить последние поколения моделей Ultralytics.

Хотя YOLOv5 остается невероятно надежным, YOLO11 предлагает улучшенную точность и расширенный набор задач, включая обнаружение ориентированных ограничивающих рамок (OBB).

Еще более значительно то, что передовая модель YOLO26 объединяет лучшее из обоих миров. Она реализует сквозной дизайн без NMS (впервые представленный в YOLOv10), устраняя накладные расходы на постобработку при сохранении эффективности CNN. YOLO26 также представляет оптимизатор MuSGD, вдохновленный инновациями в обучении LLM, для более быстрой сходимости. Благодаря удалению DFL (Distribution Focal Loss удален для упрощенного экспорта и лучшей совместимости с периферийными/маломощными устройствами), YOLO26 обеспечивает ускорение вывода на CPU до 43%, что делает его абсолютным лучшим выбором для Edge AI. Кроме того, ProgLoss + STAL предоставляет улучшенные функции потерь с заметными улучшениями в распознавании мелких объектов, что критически важно для IoT, робототехники и аэрофотосъемки.

Link to this sectionЗаключение#

Выбор между YOLOv5 и RTDETRv2 сильно зависит от твоих ограничений при развертывании. RTDETRv2 расширяет границы mAP, используя мощные механизмы внимания трансформеров, но требует больших затрат памяти и вычислительных мощностей.

И наоборот, Ultralytics YOLOv5 предлагает проверенное, высокооптимизированное и универсальное решение, которое плавно работает везде — от облачных серверов до микроконтроллеров. Для команд, которые ищут максимально возможную точность в сочетании с бесшовными инструментами развертывания, переход на YOLO26 внутри экосистемы Ultralytics предоставляет окончательное современное решение для актуальных приложений искусственного интеллекта в компьютерном зрении.

Участники

GLglenn-jocher¹⁴ PDpderrenger¹

Создано 27 янв. 2025 г.Обновлено в прошлом месяце

Link to this sectionYOLOv5 против RTDETRv2#

Link to this sectionUltralytics YOLOv5: отраслевой стандарт эффективности#

Link to this sectionАрхитектура и преимущества#

Link to this sectionСлабые стороны#

Link to this sectionRTDETRv2: трансформеры реального времени от Baidu#

Link to this sectionАрхитектура и преимущества#

Link to this sectionСлабые стороны#

Link to this sectionТаблица сравнения производительности#

Link to this sectionПреимущества экосистемы Ultralytics#

Link to this sectionНепревзойденная простота использования#

Link to this sectionСценарии использования и рекомендации#

Link to this sectionКогда стоит выбрать YOLOv5#

Link to this sectionКогда выбирать RT-DETR#

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Link to this sectionВзгляд в будущее: YOLO11 и YOLO26#

Link to this sectionЗаключение#

Комментарии