YOLOv5 RT-DETRv2: техническое сравнение детекторов объектов в реальном времени
Эволюция обнаружения объектов в реальном времени определяется двумя основными архитектурными парадигмами: YOLO на основе сверточных нейронных сетей (CNN) и моделями обнаружения на основе трансформеров. В этом сравнении исследуются технические различия между Ultralytics YOLOv5, детектора на основе CNN, являющегося отраслевым стандартом, и RT-DETRv2, последней версией Real-Time Detection Transformer, разработанной для того, чтобы бросить вызов традиционному доминированию CNN.
Обе модели направлены на решение важной задачи обеспечения баланса между скоростью вывода и высокой точностью, но подходят к этой цели с использованием принципиально разных методологий.
Ultralytics YOLOv5: Промышленный стандарт
YOLOv5 одной из наиболее широко используемых моделей компьютерного зрения в мире благодаря исключительному балансу скорости, точности и практической применимости. Выпущенная в середине 2020 года компанией Ultralytics, она переопределила понятие удобства использования в сфере искусственного интеллекта, сделав современные технологии обнаружения доступными как для инженеров, так и для исследователей благодаря удобному Python .
- Авторы: Гленн Джокер
- Организация:Ultralytics
- Дата: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- Документация:https://docs.ultralytics.com/models/yolov5/
Архитектура и Дизайн
YOLOv5 магистраль CSPDarknet, которая интегрирует сети Cross Stage Partial для улучшения градиентного потока и снижения вычислительных затрат. Его шея использует PANet (Path Aggregation Network) для эффективной агрегации пирамиды признаков, обеспечивая эффективное слияние признаков из разных масштабов.
Ключевые архитектурные особенности включают:
- Обнаружение на основе анкоров: использует заранее определенные анкорные рамки для прогнозирования местоположения объектов — проверенный метод надежной локализации.
- Мозаичное увеличение данных: метод обучения, при котором четыре изображения соединяются воедино, чтобы научить модель detect в различных контекстах и масштабах.
- Активация SiLU: более плавные функции активации, которые улучшают сходимость глубоких нейронных сетей по сравнению с традиционными ReLU.
Сильные стороны в развертывании
YOLOv5 простотой использования. Его рабочий процесс «от нуля до героя» позволяет разработчикам за считанные минуты перейти от набора данных к развернутой модели. Ultralytics поддерживает это с помощью интегрированных инструментов для аннотирования данных, обучения в облаке и экспорта в один клик в такие форматы, как ONNX, TensorRTи CoreML.
В отличие от моделей трансформаторов, которые могут быть требовательными к памяти, YOLOv5 значительно более низкие требования к памяти во время обучения. Такая эффективность позволяет ему работать на потребительских графических процессорах и даже на периферийных устройствах, таких как NVIDIA , что делает его очень универсальным для реальных приложений, от охраны дикой природы до аналитики в розничной торговле.
RT-DETRv2: Претендент на звание трансформатора
RT-DETRv2 Real-Time Detection Transformer version 2) основан на успехе оригинального RT-DETR и направлен на обеспечение точности трансформаторов в режиме реального времени. Он решает проблему высоких вычислительных затрат, обычно связанных с Vision Transformers (ViTs), за счет оптимизации структуры кодировщика-декодировщика.
- Авторы: Вэнью Лю, Иань Чжао и др.
- Организация: Baidu
- Дата: 17.04.2023 (v1), 24.07.2024 (v2)
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:RT-DETR
Архитектура и Дизайн
RT-DETRv2 гибридную архитектуру, сочетающую базовую структуру CNN (обычно ResNet или HGNet) с эффективным кодировщиком-декодировщиком трансформатора.
- Гибридный кодировщик: развязывает взаимодействие внутри масштаба и межмасштабное слияние для снижения вычислительных затрат.
- Выбор запросовIoU: улучшает инициализацию запросов объектов за счет приоритезации высоконадежных функций.
- Без анкоров: прогнозирует границы прямо, без заранее определенных анкоров, что теоретически упрощает выходную головку.
- NMS: ключевым преимуществом является устранение функции Non-Maximum Suppression (NMS), которая может уменьшить разброс задержки при постобработке.
Рекомендации по развертыванию
Хотя RT-DETRv2 конкурентоспособную точность, он требует больше ресурсов. Обучение моделей на основе трансформаторов обычно требует больше GPU и более длительного времени обучения по сравнению с CNN, такими как YOLOv5. Кроме того, хотя удаление NMS для стабильности задержки, сложные матричные умножения в слоях внимания могут быть более медленными на старом оборудовании или пограничных устройствах, которые не имеют специальных tensor .
Сравнение метрик производительности
В следующей таблице сравниваются результаты YOLOv5 RT-DETRv2 наборе данных COCO . В то время как RT-DETRv2 высокую точность (mAP), YOLOv5 обеспечивает превосходный коэффициент скорости на параметр, особенно на стандартном оборудовании.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Баланс производительности
Хотя RT-DETRv2 более высокого пикового mAP, обратите внимание на значительную разницу в размере и скорости модели. YOLOv5n работает почти в 5 раз быстрее на графических процессорах T4, чем самая маленькая RT-DETRv2 , что делает его лучшим выбором для крайне ограниченных по ресурсам пограничных приложений.
Ключевые различия и сценарии использования
1. Эффективность обучения и экосистема
Одно из наиболее значительных преимуществ Ultralytics YOLOv5 является эффективность обучения. Возможность эффективного обучения на небольших наборах данных с помощью менее мощного оборудования делает ИИ доступным для всех. Интегрированная Ultralytics позволяет пользователям визуализировать метрики обучения, управлять наборами данных и беспрепятственно развертывать модели.
Напротив, обучение RT-DETRv2 требует больше CUDA и более длительных эпох обучения для достижения сходимости из-за особенностей механизмов внимания трансформера. Для разработчиков, выполняющих быструю итерацию, быстрые циклы обучения YOLOv5 важным фактором повышения производительности.
2. Универсальность
YOLOv5 не просто детектор объектов. Ultralytics расширяет его возможности до следующих:
- Сегментация экземпляров: сегментация объектов на уровне пикселей.
- Классификация изображений: эффективная категоризация целых изображений.
- Оценка позы: Обнаружение ключевых точек на телах людей.
Эта универсальность означает, что одна библиотека может обеспечить работу целого набора приложений, от спортивной аналитики до медицинской визуализации, снижая сложность кода и затраты на обслуживание. RT-DETRv2 в первую очередь RT-DETRv2 на обнаружение, с менее зрелой поддержкой этих вспомогательных задач в едином рабочем процессе.
3. CPU на периферии и CPU
Для развертывания на ЦП (обычно используемых в IP-камерах или облачных функциях) или мобильных устройствах архитектура CNN YOLOv5 высоко оптимизирована. Она поддерживает экспорт в TFLite и CoreML с широкой поддержкой квантования. Модели Transformer, такие как RT-DETRv2 испытывать задержки наGPU из-за сложных матричных операций, которые не так легко ускорить с помощью стандартных CPU .
Рекомендация: Преимущества Ultralytics
В то время как RT-DETRv2 впечатляющие академические результаты, YOLO Ultralytics YOLO предлагают более целостное решение для производственных систем. Хорошо поддерживаемая экосистема, обеспечивающая совместимость с последними Python , драйверами оборудования и форматами экспорта, дает уверенность в долгосрочных проектах.
Для тех, кто начинает новые проекты в 2026 году, мы настоятельно рекомендуем обратить внимание на Ultralytics YOLO26.
Почему стоит выбрать YOLO26?
YOLO26 представляет собой вершину эффективности, сочетая в себе лучшие характеристики CNN и Transformers.
- Нативная сквозная архитектура: как и RT-DETRv2, YOLO26 NMS использует NMS, что упрощает процессы развертывания.
- MuSGD Optimizer: революционный гибридный оптимизатор для более быстрой конвергенции и стабильности.
- Оптимизация краев: специально разработана для ускорения CPU до 43 % по сравнению с предыдущими поколениями.
- Удаление DFL: упрощенные функции потерь для лучшей экспортируемости на пограничные устройства.
Пример кода: Запуск YOLOv5
Простота Ultralytics является одной из основных причин его широкого распространения. Вот как легко можно загрузить и запустить инференцию.
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"
# Perform inference
results = model(img)
# Print results to the console
results.print()
# Show the image with bounding boxes
results.show()
Для сравнения, Ultralytics поддерживает RT-DETR через тот же простой интерфейс:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
for result in results:
result.show()
Заключение
YOLOv5 RT-DETRv2 эффективные модели. RT-DETRv2 с его архитектурой NMS и высокой точностью RT-DETRv2 представление о будущем обнаружения на основе трансформаторов. Однако YOLOv5 остается мощным инструментом для практического применения в реальных условиях, предлагая непревзойденную скорость на периферийных устройствах, более низкие затраты на ресурсы и богатую экосистему инструментов.
Для разработчиков, которые хотят получить «лучшее из обоих миров» — скорость CNN и удобство трансформеров NMS —Ultralytics является окончательным выбором на 2026 год и далее.