Перейти к содержанию

YOLOv7 против RTDETRv2: Техническое сравнение для обнаружения объектов в реальном времени

Ландшафт компьютерного зрения продолжает быстро развиваться, находясь под сильным влиянием конкуренции между сверточными нейронными сетями (CNN) и Vision Transformer (ViT). В этом техническом сравнении рассматриваются две мощные архитектуры: YOLOv7, высокооптимизированный детектор объектов на основе CNN, и RTDETRv2, современный Real-Time Detection Transformer.

Анализируя их архитектурные различия, метрики производительности и идеальные сценарии развертывания, разработчики могут принимать обоснованные решения при интеграции этих моделей компьютерного зрения в свои производственные конвейеры.

YOLOv7: CNN-архитектура «Бесплатных приемов»

YOLOv7 представила несколько структурных оптимизаций, меняющих парадигму для традиционного семейства YOLO, расширяя границы detect объектов в реальном времени посредством серии «обучаемых бесплатных приемов».

Ключевые характеристики: Авторы: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Организация: Институт информатики, Academia Sinica
Дата: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7

Архитектура и сильные стороны

YOLOv7 процветает благодаря своей архитектуре Extended Efficient Layer Aggregation Network (E-ELAN). Эта структурная конструкция позволяет модели изучать более разнообразные признаки без разрушения исходного пути градиента. Кроме того, она включает плановые репараметризованные свертки, которые оптимизируют скорость инференса без снижения точности. Его декомпозированная структура головы позволяет достигать впечатляющих компромиссов между скоростью и точностью, что делает его очень подходящим для задач обнаружения объектов в реальном времени на серверных GPU.

YOLOv7 также очень универсален. Помимо стандартного обнаружения ограничивающих рамок, репозиторий предлагает ветки для оценки позы и сегментации экземпляров, демонстрируя свою адаптивность.

Ограничения

Как и многие устаревшие модели CNN, YOLOv7 для постобработки полагается на Non-Maximum Suppression (NMS). NMS вносит переменную задержку, особенно в сценах с большим количеством объектов, что может усложнить обеспечение строгих гарантий реального времени на периферийных устройствах.

Узнайте больше о YOLOv7

RTDETRv2: Развитие трансформеров реального времени

RTDETRv2 основывается на оригинальной архитектуре RT-DETR, далее подтверждая, что трансформеры могут конкурировать с архитектурами YOLO по задержке в реальном времени, сохраняя при этом высокую пространственную точность.

Ключевые характеристики: Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Организация: Baidu
Дата: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

Архитектура и сильные стороны

RTDETRv2 представляет собой значительный шаг вперед для Vision Transformers. Он использует гибкий процесс выбора запросов и эффективный гибридный энкодер для быстрой обработки многомасштабных признаков. Внедряя новый набор «бесплатных улучшений», специально разработанных для Detection Transformers (DETRs), он расширяет границы пространственного мышления. Поскольку он изначально не требует NMS, он обеспечивает детерминированное время инференса, что является критически важной особенностью для требовательных приложений умного города и автономного вождения.

Ограничения

Несмотря на свои достижения, RTDETRv2 несет традиционные недостатки трансформерных архитектур. Он требует значительно больше памяти CUDA как во время обучения, так и во время инференса по сравнению с CNN. Кроме того, время сходимости его обучения заметно дольше, требуя огромных объемов высококачественных аннотированных данных (таких как набор данных COCO) и значительных вычислительных ресурсов.

Узнайте больше о RTDETRv2

Сравнение производительности

При бенчмаркинге этих моделей мы должны рассматривать целостную картину, включающую точность, чистую скорость инференса и вычислительный след. Ниже представлена таблица прямого сравнения.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Интерпретация сравнительных тестов

Хотя RTDETRv2-x заявляет о наивысшем абсолютном mAPval в 54,3%, он требует колоссальные 259 миллиардов FLOPs. Напротив, архитектуры YOLOv7 обеспечивают отличную базовую производительность, но страдают от устаревших накладных расходов NMS, которые не полностью учитываются в метриках чистой сетевой задержки.

Преимущество Ultralytics: Экосистема и эволюция

Хотя YOLOv7 и RTDETRv2 предлагают надежные возможности, их развертывание в производственных средах часто выявляет логистические сложности. Именно здесь преуспевает экосистема Ultralytics. Разработанная для бесшовной сквозной интеграции, платформа Ultralytics предоставляет разработчикам унифицированный API, который абстрагирует типичные сложности конвейеров компьютерного зрения.

Непревзойденная универсальность и эффективность использования памяти

В отличие от жестких трансформерных моделей, потребляющих огромное количество VRAM, модели Ultralytics YOLO поддерживают строгую эффективность использования памяти. Это позволяет быстро обучать модели на доступном оборудовании. Экосистема изначально поддерживает несколько задач компьютерного зрения из единой кодовой базы, включая классификацию изображений и обнаружение ориентированных ограничивающих рамок (OBB), предлагая гибкость, которой в настоящее время не хватает RTDETRv2.

Простое развертывание

Переход от исследований к производству требует надежных вариантов развертывания. API Ultralytics нативно поддерживает экспорт моделей одним щелчком мыши в стандартные отраслевые форматы. Независимо от того, ориентируетесь ли вы на ONNX для кроссплатформенной совместимости или на TensorRT для максимального ускорения GPU, конвейер полностью автоматизирован и надежен.

Окончательное обновление: Ultralytics YOLO26

Для разработчиков, выбирающих между YOLOv7 и RTDETRv2, оптимальным решением является новый стандарт в области ИИ для компьютерного зрения: Ultralytics YOLO26. Выпущенный в январе 2026 года, YOLO26 устраняет разрыв между скоростью CNN и сложными рассуждениями трансформеров, полностью нивелируя их соответствующие недостатки.

Узнайте больше о YOLO26

YOLO26 представляет новаторские инновации, разработанные как для серверных, так и для граничных развертываний:

  • Сквозная архитектура без NMS: Впервые разработанная в YOLOv10, YOLO26 изначально устраняет постобработку NMS. Это обеспечивает детерминированную задержку RTDETRv2 без обременительных вычислительных затрат трансформера.
  • Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей (такими как Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD и Muon. Это обеспечивает беспрецедентную стабильность обучения и значительно более быстрое время сходимости по сравнению со стандартными реализациями AdamW, используемыми ViTs.
  • ProgLoss + STAL: Эти усовершенствованные функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, напрямую конкурируя с преимуществами многомасштабных признаков RTDETRv2, что критически важно для роботизированной автоматизации.
  • Оптимизация для периферийных устройств и удаление DFL: За счет удаления Distribution Focal Loss (DFL) YOLO26 упрощает выходной слой, что приводит к ускорению вывода на CPU до 43%, делая его значительно более пригодным для развертывания на периферийных устройствах по сравнению с тяжелыми трансформерными моделями.

Пример обучения с Ultralytics

Простота Python API Ultralytics позволяет обучать современную модель YOLO26 всего несколькими строками кода:

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

Идеальные варианты использования

Выбор правильной архитектуры в значительной степени зависит от ограничений развертывания и доступности оборудования:

Когда рассмотреть YOLOv7:

  • Устаревшие исследовательские проекты, где YOLOv7 является установленным эталоном.
  • Среды, где доступно большое количество прямого ускорения GPU и допустимы колебания задержки NMS.

Когда рассматривать RTDETRv2:

  • Развертывания на высокопроизводительных серверах, требующие максимально возможного mAP.
  • Сценарии, где строго требуется детерминированная задержка инференса (без NMS), при условии наличия VRAM для поддержки его трансформерной архитектуры.

Когда выбирать Ultralytics YOLO26:

  • Почти всегда. Он предлагает NMS-free детерминизм RTDETRv2, превосходит скорость и точность YOLOv7, использует значительно меньше VRAM и полностью интегрирован в Ultralytics Platform для легкого управления наборами данных, обучения и развертывания.

Изучить больше моделей

Интересно, как соотносятся другие архитектуры? Изучите наши подробные обзоры предыдущих поколений, таких как YOLO11 и YOLOv8, или узнайте, как использовать настройку гиперпараметров для максимизации точности вашего проекта.


Комментарии