Перейти к содержанию

YOLOv5 RT-DETRv2: техническое сравнение детекторов объектов в реальном времени

Эволюция обнаружения объектов в реальном времени определяется двумя основными архитектурными парадигмами: YOLO на основе сверточных нейронных сетей (CNN) и моделями обнаружения на основе трансформеров. В этом сравнении исследуются технические различия между Ultralytics YOLOv5, детектора на основе CNN, являющегося отраслевым стандартом, и RT-DETRv2, последней версией Real-Time Detection Transformer, разработанной для того, чтобы бросить вызов традиционному доминированию CNN.

Обе модели направлены на решение важной задачи обеспечения баланса между скоростью вывода и высокой точностью, но подходят к этой цели с использованием принципиально разных методологий.

Ultralytics YOLOv5: Промышленный стандарт

YOLOv5 одной из наиболее широко используемых моделей компьютерного зрения в мире благодаря исключительному балансу скорости, точности и практической применимости. Выпущенная в середине 2020 года компанией Ultralytics, она переопределила понятие удобства использования в сфере искусственного интеллекта, сделав современные технологии обнаружения доступными как для инженеров, так и для исследователей благодаря удобному Python .

Узнайте больше о YOLOv5

Архитектура и Дизайн

YOLOv5 магистраль CSPDarknet, которая интегрирует сети Cross Stage Partial для улучшения градиентного потока и снижения вычислительных затрат. Его шея использует PANet (Path Aggregation Network) для эффективной агрегации пирамиды признаков, обеспечивая эффективное слияние признаков из разных масштабов.

Ключевые архитектурные особенности включают:

  • Обнаружение на основе анкоров: использует заранее определенные анкорные рамки для прогнозирования местоположения объектов — проверенный метод надежной локализации.
  • Мозаичное увеличение данных: метод обучения, при котором четыре изображения соединяются воедино, чтобы научить модель detect в различных контекстах и масштабах.
  • Активация SiLU: более плавные функции активации, которые улучшают сходимость глубоких нейронных сетей по сравнению с традиционными ReLU.

Сильные стороны в развертывании

YOLOv5 простотой использования. Его рабочий процесс «от нуля до героя» позволяет разработчикам за считанные минуты перейти от набора данных к развернутой модели. Ultralytics поддерживает это с помощью интегрированных инструментов для аннотирования данных, обучения в облаке и экспорта в один клик в такие форматы, как ONNX, TensorRTи CoreML.

В отличие от моделей трансформаторов, которые могут быть требовательными к памяти, YOLOv5 значительно более низкие требования к памяти во время обучения. Такая эффективность позволяет ему работать на потребительских графических процессорах и даже на периферийных устройствах, таких как NVIDIA , что делает его очень универсальным для реальных приложений, от охраны дикой природы до аналитики в розничной торговле.

RT-DETRv2: Претендент на звание трансформатора

RT-DETRv2 Real-Time Detection Transformer version 2) основан на успехе оригинального RT-DETR и направлен на обеспечение точности трансформаторов в режиме реального времени. Он решает проблему высоких вычислительных затрат, обычно связанных с Vision Transformers (ViTs), за счет оптимизации структуры кодировщика-декодировщика.

Узнайте больше о RT-DETR

Архитектура и Дизайн

RT-DETRv2 гибридную архитектуру, сочетающую базовую структуру CNN (обычно ResNet или HGNet) с эффективным кодировщиком-декодировщиком трансформатора.

  • Гибридный кодировщик: развязывает взаимодействие внутри масштаба и межмасштабное слияние для снижения вычислительных затрат.
  • Выбор запросовIoU: улучшает инициализацию запросов объектов за счет приоритезации высоконадежных функций.
  • Без анкоров: прогнозирует границы прямо, без заранее определенных анкоров, что теоретически упрощает выходную головку.
  • NMS: ключевым преимуществом является устранение функции Non-Maximum Suppression (NMS), которая может уменьшить разброс задержки при постобработке.

Рекомендации по развертыванию

Хотя RT-DETRv2 конкурентоспособную точность, он требует больше ресурсов. Обучение моделей на основе трансформаторов обычно требует больше GPU и более длительного времени обучения по сравнению с CNN, такими как YOLOv5. Кроме того, хотя удаление NMS для стабильности задержки, сложные матричные умножения в слоях внимания могут быть более медленными на старом оборудовании или пограничных устройствах, которые не имеют специальных tensor .

Сравнение метрик производительности

В следующей таблице сравниваются результаты YOLOv5 RT-DETRv2 наборе данных COCO . В то время как RT-DETRv2 высокую точность (mAP), YOLOv5 обеспечивает превосходный коэффициент скорости на параметр, особенно на стандартном оборудовании.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Баланс производительности

Хотя RT-DETRv2 более высокого пикового mAP, обратите внимание на значительную разницу в размере и скорости модели. YOLOv5n работает почти в 5 раз быстрее на графических процессорах T4, чем самая маленькая RT-DETRv2 , что делает его лучшим выбором для крайне ограниченных по ресурсам пограничных приложений.

Ключевые различия и сценарии использования

1. Эффективность обучения и экосистема

Одно из наиболее значительных преимуществ Ultralytics YOLOv5 является эффективность обучения. Возможность эффективного обучения на небольших наборах данных с помощью менее мощного оборудования делает ИИ доступным для всех. Интегрированная Ultralytics позволяет пользователям визуализировать метрики обучения, управлять наборами данных и беспрепятственно развертывать модели.

Напротив, обучение RT-DETRv2 требует больше CUDA и более длительных эпох обучения для достижения сходимости из-за особенностей механизмов внимания трансформера. Для разработчиков, выполняющих быструю итерацию, быстрые циклы обучения YOLOv5 важным фактором повышения производительности.

2. Универсальность

YOLOv5 не просто детектор объектов. Ultralytics расширяет его возможности до следующих:

Эта универсальность означает, что одна библиотека может обеспечить работу целого набора приложений, от спортивной аналитики до медицинской визуализации, снижая сложность кода и затраты на обслуживание. RT-DETRv2 в первую очередь RT-DETRv2 на обнаружение, с менее зрелой поддержкой этих вспомогательных задач в едином рабочем процессе.

3. CPU на периферии и CPU

Для развертывания на ЦП (обычно используемых в IP-камерах или облачных функциях) или мобильных устройствах архитектура CNN YOLOv5 высоко оптимизирована. Она поддерживает экспорт в TFLite и CoreML с широкой поддержкой квантования. Модели Transformer, такие как RT-DETRv2 испытывать задержки наGPU из-за сложных матричных операций, которые не так легко ускорить с помощью стандартных CPU .

Рекомендация: Преимущества Ultralytics

В то время как RT-DETRv2 впечатляющие академические результаты, YOLO Ultralytics YOLO предлагают более целостное решение для производственных систем. Хорошо поддерживаемая экосистема, обеспечивающая совместимость с последними Python , драйверами оборудования и форматами экспорта, дает уверенность в долгосрочных проектах.

Для тех, кто начинает новые проекты в 2026 году, мы настоятельно рекомендуем обратить внимание на Ultralytics YOLO26.

Почему стоит выбрать YOLO26?

YOLO26 представляет собой вершину эффективности, сочетая в себе лучшие характеристики CNN и Transformers.

  • Нативная сквозная архитектура: как и RT-DETRv2, YOLO26 NMS использует NMS, что упрощает процессы развертывания.
  • MuSGD Optimizer: революционный гибридный оптимизатор для более быстрой конвергенции и стабильности.
  • Оптимизация краев: специально разработана для ускорения CPU до 43 % по сравнению с предыдущими поколениями.
  • Удаление DFL: упрощенные функции потерь для лучшей экспортируемости на пограничные устройства.

Узнайте больше о YOLO26

Пример кода: Запуск YOLOv5

Простота Ultralytics является одной из основных причин его широкого распространения. Вот как легко можно загрузить и запустить инференцию.

import torch

# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"

# Perform inference
results = model(img)

# Print results to the console
results.print()

# Show the image with bounding boxes
results.show()

Для сравнения, Ultralytics поддерживает RT-DETR через тот же простой интерфейс:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
for result in results:
    result.show()

Заключение

YOLOv5 RT-DETRv2 эффективные модели. RT-DETRv2 с его архитектурой NMS и высокой точностью RT-DETRv2 представление о будущем обнаружения на основе трансформаторов. Однако YOLOv5 остается мощным инструментом для практического применения в реальных условиях, предлагая непревзойденную скорость на периферийных устройствах, более низкие затраты на ресурсы и богатую экосистему инструментов.

Для разработчиков, которые хотят получить «лучшее из обоих миров» — скорость CNN и удобство трансформеров NMS —Ultralytics является окончательным выбором на 2026 год и далее.

Дополнительные ресурсы


Комментарии