RTDETRv2 и YOLOv5: техническое сравнение
Выбор правильной архитектуры обнаружения объектов — это ключевое решение, которое влияет на все: от затрат на развертывание до пользовательского опыта. В этом подробном сравнении мы исследуем компромиссы между RTDETRv2, передовым трансформатором реального времени от Baidu, и Ultralytics YOLOv5, легендарной моделью на основе CNN, которая установила стандарт простоты использования и надежности в компьютерном зрении.
В то время как RTDETRv2 представляет интересные инновации на основе трансформаторов, YOLOv5 его последующие версии (такие как современная YOLO26) остаются отраслевыми эталонами универсальности, скорости развертывания и удобства для разработчиков.
Краткое изложение
RTDETRv2 (Real-Time Detection Transformer v2) — это усовершенствованная версия архитектуры DETR, разработанная для устранения немаксимального подавления (NMS) при обеспечении высокой точности на GPU . Она идеально подходит для исследовательских сред и высокопроизводительных серверных установок с большим объемом VRAM.
YOLOv5 (You Only Look Once v5) — это зрелая, готовая к производству архитектура CNN. Известная своей простотой «установил и запустил», она отличается превосходными характеристиками в области пограничных вычислений, быстрого обучения и широкой аппаратной совместимости. Для разработчиков, которые ищут абсолютную скорость и точность, Ultralytics рекомендует YOLO26, которая сочетает в себе преимущества трансформаторов NMS со скоростью YOLO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Архитектура и Дизайн
Фундаментальное различие заключается в том, как эти модели обрабатывают визуальную информацию: трансформеры против сверточных нейронных сетей (CNN).
RTDETRv2: подход Transformer
Авторы: Вэнью Лв, Янь Чжао, Циньяо Чан, Куй Хуан, Гуанчжун Ван и И Лю
Организация:Baidu
Дата: 17.04.2023 (оригинальная версия RT-DETR), 2024 (v2)
Ссылки:ArXiv | GitHub
RTDETRv2 использует гибридную архитектуру кодировщика-декодировщика. Он использует базовую сеть CNN (часто ResNet или HGNetv2) для извлечения признаков, которые затем обрабатываются эффективным кодировщиком-трансформатором. Ключевой инновацией является гибридный кодировщик, который развязывает внутримасштабное взаимодействие и межмасштабное слияние для снижения вычислительных затрат.
Наиболее заметной особенностью является прогнозированиеNMS. Используя двудольное сопоставление во время обучения, модель учится выводить ровно одну рамку на каждый объект, что устраняет необходимость в таких этапах постобработки, как подавление не максимальных значений (NMS). Однако это достигается за счет более высокого потребления памяти и более медленной конвергенции обучения по сравнению с чистыми CNN.
YOLOv5: стандарт CNN
Автор: Гленн Джочер
Организация:Ultralytics
Дата: 26.06.2020
Ссылки:Документация | GitHub
YOLOv5 высокооптимизированную архитектуру CNN, основанную на магистрали CSPNet и шее PANet. Эта конструкция уделяет приоритетное внимание градиентному потоку и повторному использованию функций, в результате чего модель получается исключительно легкой и быстрой. В отличие от трансформаторов, которым требуются огромные наборы данных для изучения глобального контекста, индуктивное смещение YOLOv5 позволяет ему эффективно учиться на меньших наборах данных с гораздо меньшими вычислительными затратами.
Эволюция: YOLO26
В то время как YOLOv5 на NMS, новый Ultralytics использует сквозную конструкцию NMS, аналогичную RTDETRv2, но сохраняет скорость и эффективность обучения YOLO . Он также представляет оптимизатор MuSGD, значительно ускоряющий сходимость.
Анализ производительности
Скорость вывода и задержка
При развертывании в производственной среде задержка часто становится узким местом. YOLOv5 в средах CPU и периферийных устройствах. Простота архитектуры CNN эффективно отображается на стандартных процессорах и мобильных NPU.
RTDETRv2 отлично работает на современных графических процессорах (таких как NVIDIA или A100), где операции умножения матриц эффективно параллелизуются. Однако на периферийных устройствах, таких как Raspberry Pi, операции трансформатора могут быть чрезмерно тяжелыми, что приводит к более низкому FPS по сравнению с YOLOv5n или YOLOv5s.
Точность (mAP)
RTDETRv2 в целом достигает более высокой средней точности (mAP) на COCO по сравнению с YOLOv5, особенно для крупных объектов и сложных сцен, где глобальный контекст имеет решающее значение. Например, RTDETRv2-L достигает mAP , превосходя YOLOv5x (50,7%) при использовании меньшего количества параметров.
Однако точность — не единственный показатель. В реальных сценариях с небольшими объектами или видеопотоками с размытием движения разница сокращается. Кроме того, в более новых Ultralytics , таких как YOLO11 и YOLO26, сократили этот разрыв, предлагая сопоставимую или более высокую точность с лучшей эффективностью.
Эффективность обучения и экосистема
Именно в этом заключается явное преимущество Ultralytics .
Ultralytics YOLOv5 YOLO26:
- Быстрая конвергенция: CNN обычно конвергируют быстрее, чем трансформеры. Вы можете обучить пригодную для использования YOLOv5 за несколько часов на одном GPU.
- Низкое потребление памяти: для обучения YOLO значительно меньше VRAM, что делает его доступным для исследователей, использующих карты потребительского класса (например, RTX 3060).
- Увеличение объема данных: Ultralytics включает в себя современные стратегии увеличения объема данных (Mosaic, MixUp), которые включены по умолчанию.
- Интеграция платформы: беспрепятственное подключение к Ultralytics для управления наборами данных, обучения в облаке и развертывания в один клик.
RTDETRv2:
- Ресурсоемкость: Трансформеры известны своей высокой потребностью в данных и вычислительной мощности во время обучения. Стабилизация механизма внимания часто требует более длительных графиков обучения (часто 72+ эпохи, чтобы YOLO , что YOLO за меньшее время).
- Сложная конфигурация: поскольку RTDETRv2 является хранилищем, ориентированным на исследования, настройка RTDETRv2 для пользовательских наборов данных часто требует изменения конфигурационных файлов и ручной адаптации программ загрузки данных.
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Реальные примеры использования
Идеальные сценарии для YOLOv5 YOLO26
Ultralytics — это «швейцарский армейский нож» компьютерного зрения, подходящий для 90 % коммерческих приложений.
- Edge AI & IoT: идеально подходит для NVIDIA или мобильных приложений, где энергопотребление и тепловые ограничения являются строгими ограничениями.
- Производство: Используется в контроле качества на конвейере, где выводы должны делаться за миллисекунды, чтобы не отставать от скорости производства.
- Разнообразные задачи: помимо обнаружения, Ultralytics изначально поддерживают сегментацию экземпляров, оценку позы, OBB и классификацию.
- Сельское хозяйство: Легкие модели, такие как YOLOv5n, идеально подходят для мониторинга урожая с помощью дронов, работая непосредственно на аппаратном обеспечении дрона.
Идеальные сценарии для RTDETRv2
- Высококачественное наблюдение: стационарные камеры безопасности, подключенные к мощным серверам, где максимальная точность предпочтительнее задержки на периферии.
- Академические исследования: изучение механизмов внимания и трансформаторов зрения.
- Переполненные сцены: глобальный механизм внимания иногда может лучше справляться с сильной окклюзией, чем чистые CNN, при условии, что аппаратное обеспечение может выдержать вычислительную нагрузку.
Заключение
Как RTDETRv2, так и YOLOv5 важные вехи в истории обнаружения объектов. RTDETRv2 доказывает, что трансформеры могут работать в режиме реального времени на высокопроизводительных графических процессорах, обеспечивая высокую точность и элегантную архитектуру NMS.
Однако для подавляющего большинства разработчиков и коммерческих приложений Ultralytics остаются лучшим выбором. Сочетание зрелой YOLOv5 и передовых инноваций в YOLO26 гарантирует, что у вас будет подходящий инструмент для любых задач.
Почему стоит перейти на YOLO26? Если вы сравниваете эти модели для нового проекта в 2026 году, мы настоятельно рекомендуем YOLO26. Он сочетает в себе лучшее из обоих миров:
- Нативная сквозная архитектура: как и RTDETRv2, она устраняет NMS упрощения развертывания.
- До 43% более быстрое CPU : оптимизировано специально для периферийных устройств, в отличие от тяжелых трансформаторов.
- Универсальность задач: поддерживает обнаружение, сегментацию, позу и OBB в единой структуре.
Для получения дополнительной информации о других архитектурах ознакомьтесь с нашими сравнениями RT-DETR YOLO11, а также YOLOv8 EfficientDet.