RTDETRv2 против YOLOv7: анализируем эволюцию детектирования объектов в реальном времени
Ландшафт computer vision значительно расширился за последние несколько лет благодаря постоянным инновациям как в сверточных нейронных сетях (CNN), так и в трансформерах зрения (ViT). Выбор правильной архитектуры для развертывания требует понимания тонких компромиссов между скоростью, точностью и вычислительными затратами. В этом руководстве рассматриваются технические различия между двумя высоко ценимыми архитектурами: RTDETRv2 и YOLOv7, а также освещаются современные достижения, доступные в новой версии Ultralytics YOLO26.
RTDETRv2: подход трансформеров к детектированию в реальном времени
RTDETRv2 (Real-Time Detection Transformer version 2) опирается на фундамент своего предшественника, доказывая, что архитектуры на основе трансформеров могут эффективно конкурировать в сценариях реального времени без использования традиционных этапов постобработки.
Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu
Дата: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: Репозиторий RTDETRv2
Ключевые архитектурные особенности
RTDETRv2 utilizes a hybrid encoder and a transformer decoder architecture. By leveraging self-attention mechanisms, the model processes the entire image holistically, allowing it to understand complex spatial relationships better than strictly localized convolutional kernels. One of its most defining features is its natively NMS-free design. By eliminating Non-Maximum Suppression (NMS), RTDETRv2 removes a common bottleneck that introduces variable inference latency during deployment.
Сильные и слабые стороны
Основная сила RTDETRv2 заключается в способности работать с плотными, перекрывающимися объектами в сложных сценах. Глобальный контекст, обеспечиваемый слоями внимания трансформера, делает модель высокоточной, особенно в сценариях с частыми окклюзиями.
However, this comes at a computational cost. Transformer models traditionally require a higher memory footprint during training and inference compared to CNNs. Furthermore, RTDETRv2 generally requires more epochs to converge during distributed training, leading to longer iteration cycles for developers tuning custom datasets.
YOLOv7: CNN-базис для скорости
Выпущенная за год до RTDETRv2, модель YOLOv7 представила ряд структурных оптимизаций для классического фреймворка YOLO, установив высокий стандарт для CNN-детекторов реального времени на момент публикации.
Авторы: Chien-Yao Wang, Alexey Bochkovskiy и Hong-Yuan Mark Liao
Организация: Institute of Information Science, Academia Sinica, Taiwan
Дата: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: Репозиторий YOLOv7
Ключевые архитектурные особенности
YOLOv7's architecture is built around the concept of Extended Efficient Layer Aggregation Network (E-ELAN). This approach optimizes the gradient path, allowing the model to learn more effectively without significantly increasing computational complexity. The authors also introduced "trainable bag-of-freebies," a set of methods that improve model accuracy during training without affecting the inference speed on edge devices.
Сильные и слабые стороны
YOLOv7 остается высокоэффективной моделью для стандартных задач object detection, обеспечивая отличную скорость обработки на потребительских GPU. Благодаря своей CNN-природе, она обычно требует меньше памяти CUDA во время обучения по сравнению с моделями на базе трансформеров, такими как RTDETRv2.
Несмотря на эти преимущества, YOLOv7 все еще полагается на NMS для постобработки. В средах с высокой плотностью предсказаний этап NMS может вызывать колебания времени обработки, что затрудняет гарантированную работу в реальном времени. Кроме того, по сравнению с современными фреймворками, процесс обработки различных задач, таких как instance segmentation и pose estimation, может быть фрагментирован.
Сравнение производительности
Evaluating these models requires looking at the delicate balance between mean Average Precision (mAP), parameter count, and inference speed.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Хотя RTDETRv2-x достигает наивысшего mAP, у него также самое большое количество параметров и FLOPs. Меньшие варианты, такие как RTDETRv2-s, предлагают конкурентоспособную скорость на TensorRT, но пользователям, работающим в маломощных средах без выделенных GPU, необходимо тщательно оценивать возможности инференса на CPU.
Современное решение: YOLO26
Хотя RTDETRv2 и YOLOv7 сыграли ключевую роль в расширении границ computer vision applications, ландшафт ИИ быстро развивается. Выпущенная в январе 2026 года, YOLO26 объединяет лучшие аспекты эффективности CNN и архитектур без NMS, подобных трансформерам.
Для разработчиков и исследователей, создающих новые системы, интегрированная Ultralytics Platform и экосистема Python предоставляют унифицированный опыт, который значительно сокращает технический долг.
Ключевые инновации в YOLO26
- Сквозной дизайн без NMS: YOLO26 является нативно сквозным решением, исключающим постобработку NMS для более быстрого и простого развертывания. Этот прорывной подход был впервые применен в YOLOv10, обеспечивая стабильную задержку независимо от плотности объектов.
- До 43% быстрее инференс на CPU: Специально оптимизировано для edge computing и устройств без GPU, что делает ее намного более универсальной для полевых развертываний, чем тяжелые модели-трансформеры.
- Оптимизатор MuSGD: Гибрид SGD и Muon (вдохновленный Kimi K2 от Moonshot AI), привносящий инновации обучения LLM в компьютерное зрение для более стабильного обучения и быстрой сходимости.
- Удаление DFL: Distribution Focal Loss была удалена, что привело к упрощению вычислительного графа для более гладкого экспорта в встроенные NPU и среды TensorRT.
- ProgLoss + STAL: Improved loss functions yield notable enhancements in small-object recognition, which is critical for robotics, IoT, and aerial imagery analysis.
- Улучшения для конкретных задач: YOLO26 — это не только про детектирование. Она включает мультимасштабные прототипы для сегментации, Residual Log-Likelihood Estimation (RLE) для отслеживания поз и специализированную функцию потерь угла для решения проблем границ oriented bounding box (OBB).
Оптимизированный опыт разработчика
Истинное преимущество выбора модели Ultralytics, такой как YOLO26 (или очень популярной YOLO11), заключается в хорошо поддерживаемой экосистеме. Обучение на собственном наборе данных требует минимум шаблонного кода:
from ultralytics import YOLO
# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)Идеальные варианты использования и приложения
Выбор между этими архитектурами сильно зависит от целевого оборудования и конкретных операционных требований.
Когда стоит рассмотреть RTDETRv2
RTDETRv2 крайне эффективен в средах server-side processing, оснащенных мощными GPU. Его механизм глобального внимания делает его подходящим для понимания сложных сцен, таких как мониторинг очень людных мероприятий или специализированная медицинская визуализация, где перекрывающиеся признаки требуют глубокого контекстуального анализа.
Когда стоит рассмотреть YOLOv7
YOLOv7 часто сохраняется в устаревших академических исследованиях как модель для базового сравнения. Ее также можно встретить в более старых промышленных развертываниях, где существующие пайплайны жестко запрограммированы под конкретные версии PyTorch и не требуют гибкости мультизадачности новых фреймворков.
Почему YOLO26 — рекомендуемый стандарт
Для современной инфраструктуры smart city, drone navigation и высокоскоростного производства YOLO26 предлагает непревзойденный баланс. Меньшие требования к памяти делают hyperparameter tuning и обучение доступными на потребительском оборудовании, а инференс без NMS обеспечивает быстрое выполнение на ограниченных edge-устройствах, таких как Raspberry Pi или NVIDIA Jetson.
Интересно, как эти модели соотносятся с другими архитектурами? Ознакомьтесь с нашими подробными руководствами по YOLO11 vs. RTDETR и YOLOv8 vs. YOLOv7, чтобы найти идеальный вариант для вашего проекта в области ИИ компьютерного зрения.