RTDETRv2 vs. YOLOv7: Изучение эволюции обнаружения объектов в реальном времени
Ландшафт компьютерного зрения значительно расширился за последние несколько лет, чему способствовали непрерывные инновации как в сверточных нейронных сетях (CNN), так и в визуальных трансформерах (ViT). Выбор правильной архитектуры для вашего развертывания требует понимания тонких компромиссов между скоростью, точностью и вычислительными затратами. В этом руководстве рассматриваются технические различия между двумя высоко оцененными архитектурами: RTDETRv2 и YOLOv7, а также освещаются современные достижения, доступные в новой Ultralytics YOLO26.
RTDETRv2: Трансформерный подход к обнаружению в реальном времени
RTDETRv2 (Real-Time Detection Transformer версии 2) основывается на фундаменте своего предшественника, чтобы доказать, что архитектуры на основе трансформеров могут эффективно конкурировать в сценариях реального времени без использования традиционных этапов постобработки.
Авторы: Вэньюй Лю, Иань Чжао, Циняо Чан, Куй Хуан, Гуаньчжун Ван и И Лю
Организация:BaiduДата: 24.07.2024
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:Репозиторий RTDETRv2
Архитектурные особенности
RTDETRv2 использует гибридный энкодер и архитектуру декодера трансформера. Используя механизмы самовнимания, модель обрабатывает все изображение целостно, что позволяет ей лучше понимать сложные пространственные отношения, чем строго локализованные сверточные ядра. Одной из ее наиболее определяющих особенностей является изначально NMS-свободная конструкция. Устраняя Non-Maximum Suppression (NMS), RTDETRv2 устраняет распространенное узкое место, которое вносит переменную задержку инференса во время развертывания.
Сильные стороны и ограничения
Основная сила RTDETRv2 заключается в его способности обрабатывать плотные, перекрывающиеся объекты в сложных сценах. Глобальный контекст, обеспечиваемый слоями внимания трансформера, делает его очень точным, особенно в сценариях, где часто встречаются окклюзии.
Однако это сопряжено с вычислительными затратами. Модели-трансформеры традиционно требуют больше памяти во время обучения и инференса по сравнению с CNN. Кроме того, RTDETRv2 обычно требует больше эпох для сходимости во время распределенного обучения, что приводит к более длительным циклам итераций для разработчиков, настраивающих пользовательские наборы данных.
YOLOv7: Базовая CNN для скорости
Выпущенный за год до RTDETRv2, YOLOv7 представил несколько структурных оптимизаций классического фреймворка YOLO, установив сильный эталон для CNN-основанных детекторов реального времени на момент его публикации.
Авторы: Chien-Yao Wang, Alexey Bochkovskiy и Hong-Yuan Mark Liao
Организация:Институт информатики, Academia Sinica, Тайвань
Дата: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:Репозиторий YOLOv7
Архитектурные особенности
Архитектура YOLOv7 построена вокруг концепции расширенной эффективной сети агрегации слоев (E-ELAN). Этот подход оптимизирует градиентный путь, позволяя модели обучаться более эффективно без значительного увеличения вычислительной сложности. Авторы также представили «обучаемые бесплатные дополнения» — набор методов, которые повышают точность модели во время обучения, не влияя на скорость инференса на периферийных устройствах.
Сильные стороны и ограничения
YOLOv7 остается высокопроизводительной моделью для стандартных задач обнаружения объектов, предлагая отличную скорость обработки на потребительских GPU. Его природа CNN означает, что он обычно требует меньше памяти CUDA во время обучения по сравнению с моделями на основе Transformer, такими как RTDETRv2.
Несмотря на эти преимущества, YOLOv7 по-прежнему полагается на NMS для постобработки. В средах с высокой плотностью предсказаний шаг NMS может вызывать колебания во времени обработки, что затрудняет обеспечение строгих гарантий реального времени. Кроме того, по сравнению с современными фреймворками, процесс обработки различных задач, таких как сегментация экземпляров и оценка позы, может быть фрагментирован.
Сравнение производительности
Оценка этих моделей требует рассмотрения тонкого баланса между средней точностью (mAP), количеством параметров и скоростью инференса.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Контекст производительности
Хотя RTDETRv2-x достигает наивысшего mAP, он также имеет наибольшее количество параметров и FLOPs. Меньшие варианты, такие как RTDETRv2-s, предлагают конкурентоспособную скорость на TensorRT, но пользователи, ориентированные на низкоэнергетические среды без выделенных GPU, должны тщательно оценивать возможности инференса на CPU.
Современное решение: Представляем YOLO26
Хотя RTDETRv2 и YOLOv7 сыграли ключевую роль в расширении границ приложений компьютерного зрения, ландшафт ИИ быстро развивается. Выпущенный в январе 2026 года, YOLO26 синтезирует лучшие аспекты как эффективности CNN, так и беc-NMS архитектур, подобных трансформерам.
Для разработчиков и исследователей, создающих новые системы, интегрированная Платформа Ultralytics и экосистема Python обеспечивают унифицированный опыт, что значительно сокращает технический долг.
Ключевые нововведения в YOLO26
- Сквозная архитектура без NMS: YOLO26 изначально является сквозной, исключая постобработку NMS для более быстрого и простого развертывания. Этот прорывной подход был впервые применен в YOLOv10, обеспечивая стабильную задержку независимо от плотности объектов.
- До 43% более быстрый инференс на CPU: Специально оптимизирован для периферийных вычислений и устройств без GPU, что делает его гораздо более универсальным для развертывания на местах, чем тяжелые трансформерные модели.
- Оптимизатор MuSGD: Гибрид SGD и Muon (вдохновленный Kimi K2 от Moonshot AI), переносящий инновации в обучении LLM в компьютерное зрение для более стабильного обучения и более быстрой сходимости.
- Удаление DFL: Distribution Focal Loss была удалена, что привело к упрощению вычислительного графа для более плавного экспорта во встроенные NPU и среды TensorRT.
- ProgLoss + STAL: Улучшенные функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что критически важно для робототехники, IoT и анализа аэрофотоснимков.
- Специализированные улучшения: YOLO26 предназначен не только для обнаружения. Он включает многомасштабные прототипы для сегментации, оценку остаточного логарифмического правдоподобия (RLE) для отслеживания позы и специализированную угловую функцию потерь, решающую проблемы с границами ориентированных ограничивающих рамок (OBB).
Оптимизированный опыт разработки
Истинное преимущество выбора модели Ultralytics, такой как YOLO26 (или очень популярной YOLO11), заключается в хорошо поддерживаемой экосистеме. Обучение на пользовательском наборе данных требует минимального шаблонного кода:
from ultralytics import YOLO
# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)
Идеальные варианты использования и применения
Выбор между этими архитектурами сильно зависит от целевого оборудования и конкретных эксплуатационных требований.
Когда следует рассмотреть RTDETRv2
RTDETRv2 высокоэффективен в средах серверной обработки, оснащенных мощными GPU. Его механизм глобального внимания делает его подходящим для понимания сложных сцен, таких как мониторинг массовых мероприятий или специализированная медицинская визуализация, где перекрывающиеся признаки требуют глубокого контекстуального анализа.
Когда стоит рассмотреть YOLOv7
YOLOv7 часто поддерживается в устаревших академических исследованиях в качестве базовой модели для сравнения. Он также встречается в старых промышленных развертываниях, где существующие конвейеры жестко привязаны к определенным версиям PyTorch и не требуют многозадачной гибкости новых фреймворков.
Почему YOLO26 — рекомендуемый стандарт
Для современной инфраструктуры умных городов, навигации дронов и высокоскоростного производства YOLO26 предлагает непревзойденный баланс. Его более низкие требования к памяти делают настройку гиперпараметров и обучение доступными на потребительском оборудовании, в то время как его инференс без NMS обеспечивает быстрое выполнение на ограниченных периферийных устройствах, таких как Raspberry Pi или NVIDIA Jetson.
Больше сравнений
Интересно, как эти модели соотносятся с другими архитектурами? Ознакомьтесь с нашими подробными руководствами по YOLO11 vs. RT-DETR и YOLOv8 vs. YOLOv7, чтобы найти идеальное решение для вашего проекта в области компьютерного зрения.