YOLOv7 RTDETRv2: баланс между традиционной скоростью и точностью трансформера
За последние несколько лет область обнаружения объектов претерпела значительные изменения, перейдя от чистых сверточных нейронных сетей (CNN) к сложным гибридным архитектурам. Двумя ключевыми моделями в этой области являются YOLOv7, знаменитая мощная CNN «bag-of-freebies» 2022 года, и RTDETRv2, Real-Time Detection Transformer, выпущенная Baidu в 2023/2024 году, чтобы бросить вызов YOLO .
В то время как YOLOv7 классический подход на основе анкоров до предела, RTDETRv2 использовал возможности трансформеров зрения (ViT) для устранения этапов постобработки, таких как подавление не максимальных значений (NMS). В этом руководстве сравниваются их архитектуры, производительность и пригодность для современных проектов в области компьютерного зрения, а также исследуется, почему модели нового поколения, такие как Ultralytics , все чаще становятся стандартом для производственного внедрения.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv7: вершина обнаружения на основе анкоров
Выпущен в июле 2022 года, YOLOv7 представил собой значительный скачок в развитии YOLO , сосредоточившись на архитектурной эффективности без использования ImageNet . Он ввел концепцию «обучаемого набора бесплатных инструментов» — методов оптимизации, которые повышают точность во время обучения без увеличения задержки вывода.
Ключевые технические детали:
- Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
- Организация: Институт информатики, Academia Sinica, Тайвань
- Дата: 2022-07-06
- Ссылки:Статья на ArXiv | Репозиторий GitHub
Основной инновацией YOLOv7 расширенная сеть эффективной агрегации слоев (E-ELAN). Эта архитектура позволяет сети обучаться более разнообразным особенностям за счет контроля длины градиентного пути, обеспечивая эффективное обучение в более глубоких сетях. Несмотря на высокую эффективность, YOLOv7 детектором на основе якорей, то есть он полагается на заранее определенные якорные рамки для прогнозирования местоположения объектов. Эта зависимость часто требует тщательной настройки гиперпараметров для пользовательских наборов данных, что устраняется в современных детекторах без якорей, таких как YOLO11.
RTDETRv2: преобразователи для скорости в реальном времени
RTDETRv2 (Real-Time Detection Transformer v2) основан на успехе оригинального RT-DETR и направлен на решение проблемы высоких вычислительных затрат, связанных с традиционными детекторами на основе трансформаторов, такими как DETR. Разработанный компанией Baidu, он доказывает, что архитектуры трансформаторов могут достигать скоростей реального времени на GPU .
Ключевые технические детали:
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang и др.
- Организация:Baidu
- Дата: 17.04.2023 (v1), 2024 (обновления v2)
- Ссылки:Статья на ArXiv | Репозиторий GitHub
RTDETRv2 использует гибридный кодировщик, который эффективно обрабатывает многомасштабные особенности. Его отличительной особенностью является выбор запросовIoU, который помогает модели сосредоточиться на наиболее релевантных частях изображения. Важно отметить, что RTDETRv2 является детектором «из конца в конец ». Он не требует постобработки с помощью Non-Maximum Suppression (NMS), что упрощает процессы развертывания и снижает разброс задержек в сценах с большим количеством объектов. Однако это достигается за счет более высокого потребления памяти во время обучения по сравнению с моделями на основе CNN.
Техническое сравнение: архитектура и варианты использования
Понимание фундаментальных различий между этими архитектурами помогает выбрать правильный инструмент для конкретных приложений компьютерного зрения.
1. Архитектура: CNN против гибридного трансформера
YOLOv7 исключительно на свертки. Это делает его чрезвычайно эффективным на периферийных устройствах с ограниченной памятью, но приличными вычислительными мощностями, поскольку CNN по своей природе являются инвариантными по отношению к переносу. RTDETRv2 сочетает в себе базовые структуры CNN с кодировщиками Transformer. Хотя это позволяет ему лучше улавливать глобальный контекст (повышая точность в сложных сценах), оно значительно увеличивает требования CUDA . Например, для обучения модели трансформера часто требуются высокопроизводительные графические процессоры (например, A100 или H100), чтобы обрабатывать разумные размеры пакетов, тогда как YOLOv7 часто YOLOv7 обучать на потребительском оборудовании.
2. Вывод: NMS
YOLOv7 тысячи кандидатов в ограничительные рамки, которые необходимо отфильтровать с помощью NMS. В сценариях с плотной расстановкой объектов (например, при подсчете запасов в розничной торговле) NMS стать препятствием для скорости. RTDETRv2 полностью устраняет этот шаг, выводя точно необходимое количество рамок.
Лучшее из обоих миров
Современные Ultralytics , такие как YOLO26, теперь отличаются сквозной конструкцией NMS, аналогичной RTDETRv2, но построенной на высокооптимизированной архитектуре CNN. Это обеспечивает простоту развертывания трансформаторов с эффективностью и скоростью обучения YOLO.
3. Развертывание и экосистема
Хотя обе модели имеют сильную научную поддержку, Ultralytics предлагает явное преимущество в плане обслуживаемости. Официальный репозиторий YOLOv7 в основном статичен, тогда как Ultralytics часто обновляются, что обеспечивает их совместимость с последними версиями PyTorch, ONNX и TensorRT.
Современная альтернатива: Ultralytics
Для разработчиков, которые ищут точность трансформаторов со скоростью CNN, Ultralytics является лучшим выбором. Выпущенный в 2026 году, он сочетает в себе «сквозные» преимущества RTDETRv2 и устраняет его недостатки в использовании ресурсов.
Почему стоит выбрать YOLO26?
- Нативная сквозная обработка: как и RTDETRv2, YOLO26 устраняет NMS, упрощая экспорт в TensorRT и CoreML.
- MuSGD Optimizer: вдохновленный обучением LLM, этот оптимизатор обеспечивает стабильную конвергенцию, сокращая количество «проб и ошибок», которые часто требуются при обучении старых моделей, таких как YOLOv7.
- Оптимизация полей: YOLO26 устраняет распределенную фокальную потерю (DFL), что значительно облегчает его работу. Он обеспечивает до 43% более быстрое CPU , что является важным показателем для полей, где RTDETRv2 часто испытывает трудности из-за сложных вычислений трансформатора.
- Универсальность: в отличие от YOLOv7 RTDETRv2, которые в основном ориентированы на обнаружение, YOLO26 изначально поддерживает сегментацию, оценку позы и ориентированные ограничительные рамки (OBB).
Баланс производительности
YOLO26 использует ProgLoss и STAL (Soft-Target Anchor Loss) для улучшения обнаружения мелких объектов, области, в которой старые YOLO исторически отставали от трансформеров. Это делает его идеальным для таких приложений, как анализ аэрофотоснимков или подсчет клеток в медицине.
Пример кода: бесшовная интеграция
Переход с более старых моделей на новейшие Ultralytics модели Ultralytics не представляет никакого труда. Python Ultralytics устраняет сложности, связанные с различиями в архитектуре.
from ultralytics import YOLO
# Load the latest YOLO26 model (recommended)
model = YOLO("yolo26n.pt")
# Alternatively, load RT-DETR or YOLOv7 within the same ecosystem
# model = YOLO("rtdetr-l.pt")
# model = YOLO("yolov7.pt")
# Train on a dataset like COCO8
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with NMS-free speed (native in YOLO26)
results = model("https://ultralytics.com/images/bus.jpg")
Обзор
- Используйте YOLOv7, если вы обслуживаете устаревшие системы и вам нужен проверенный детектор, основанный исключительно на CNN, и у вас есть время для настройки анкоров.
- Используйте RTDETRv2, если вам требуется сквозное инференция на высокопроизводительных графических процессорах и вы можете позволить себе более высокую стоимость VRAM во время обучения.
- Используйте Ultralytics для достижения оптимального баланса. Он предлагает преимущества RTDETR NMS, скорость и низкую память YOLO, а также надежную поддержку Ultralytics .
Для большинства новых проектов в 2026 году простота использования, документация и соотношение производительности и эффективности YOLO26 делают его рекомендуемой отправной точкой.