RTDETRv2 против YOLOv10: сравнение архитектур обнаружения в реальном времени
В быстро развивающейся области компьютерного зрения поиск оптимального баланса между точностью, скоростью и эффективностью продолжает стимулировать инновации. Две значимые архитектуры, которые стали предметом недавних дискуссий, — это RT-DETRv2 и YOLOv10. Обе модели направлены на решение давней проблемы обнаружения объектов в реальном времени, но подходят к ней с принципиально разных архитектурных точек зрения — трансформеры против инноваций на основе CNN.
В этом техническом сравнении рассматриваются их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь разработчикам и исследователям выбрать подходящий инструмент для своих конкретных приложений.
Сравнительная таблица
В следующей таблице представлены ключевые показатели эффективности на COCO . Жирным шрифтом выделены лучшие показатели в каждой категории.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2: Усовершенствование трансформера реального времени
RT-DETRv2 Real-Time Detection Transformer версия 2) основан на успехе оригинального RT-DETR, который был первым детектором на основе трансформатора, способным по-настоящему соперничать по скорости с моделями на основе CNN, такими как YOLOv8.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация:Baidu
- Дата: 17 апреля 2023 г. (оригинал), июль 2024 г. (v2)
- Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer
Архитектура и инновации
RT-DETRv2 основное преимущество трансформеров: способность моделировать глобальный контекст по всему изображению, что особенно полезно для обнаружения объектов в сложных, загроможденных сценах. В отличие от традиционных CNN, которые полагаются на локальные рецептивные поля, RT-DETRv2 гибридный кодер, который эффективно обрабатывает многомасштабные особенности.
Ключевой особенностью обновления v2 является внедрение механизма дискретной выборки, который позволяет более гибко выбирать сетку, что еще больше оптимизирует соотношение между скоростью и точностью. Модель устраняет необходимость в немаксимальном подавлении (NMS), напрямую прогнозируя набор объектов, что упрощает процесс постобработки.
Использование памяти Transformer
Хотя трансформеры превосходны в глобальном контексте, они обычно требуют значительно большего GPU во время обучения по сравнению с CNN. Пользователи с ограниченными аппаратными ресурсами могут столкнуться с трудностями при обучении RTDETRv2 по сравнению с более легкими YOLO .
Производительность
RT-DETRv2 исключительную точность, часто превосходя по COCO YOLO аналогичного размера. Он особенно эффективен в сценариях, требующих высокой точности и устойчивости к окклюзии. Однако такая точность часто достигается за счет более высоких вычислительных требований, что делает его менее подходящим для развертывания на периферии, CPU исключительно CPU, по сравнению сYOLO Ultralytics YOLO .
YOLOv10: эволюция сквозных CNN
YOLOv10 значительный сдвиг в YOLO , внедряя обучение NMS в традиционную архитектуру CNN. Это нововведение устраняет разрыв между простотой CNN и сквозными возможностями трансформеров.
- Авторы: Ao Wang, Hui Chen, Lihao Liu, и др.
- Организация:Университет Цинхуа
- Дата: 23 мая 2024 г.
- Arxiv:YOLOv10: Real-Time End-to-End Object Detection
Архитектура и инновации
YOLOv10 стратегию последовательных двойных назначений для обучения NMS. Во время обучения модель использует как назначения меток «один ко многим», так и «один к одному». Это позволяет модели использовать богатые сигналы контроля, обеспечивая при этом, что во время вывода она предсказывает только одну рамку на объект.
Кроме того, архитектура отличается целостным дизайном, ориентированным на эффективность и точность. Это включает в себя легкие классификационные головки и пространственно-канальное декуплированное понижающее дискретизирование, которые снижают вычислительную нагрузку (FLOP) и количество параметров.
Производительность
YOLOv10 низкой задержкой вывода. Благодаря удалению NMS достигается более низкая дисперсия задержки, что крайне важно для приложений реального времени, таких как автономное вождение. Более компактные варианты, такие как YOLOv10n и YOLOv10s, обеспечивают невероятную скорость на периферийных устройствах, что делает их чрезвычайно эффективными для сред с ограниченными ресурсами.
Критические различия и варианты использования
1. Архитектуры NMS
Обе модели заявляют о «сквозных» возможностях, но достигают этого по-разному. RT-DETRv2 встроенный механизм трансформаторов на основе запросов для прогнозирования уникальных объектов. YOLOv10 этого с помощью новой стратегии обучения, применяемой к базовой структуре CNN. Это делает YOLOv10 быстрее на стандартном оборудовании, оптимизированном для сверток, в то время как RT-DETRv2 на графических процессорах, где параллельные вычисления трансформаторов являются эффективными.
2. Эффективность обучения и память
Одна из областей, в которой Ultralytics исторически превосходят другие, — это эффективность обучения. Трансформеры, такие как RT-DETRv2 высокой потребностью в памяти и медленной конвергенцией. В отличие от них, модели на основе CNN, такие как YOLOv10 YOLO11 гораздо менее требовательны к аппаратным ресурсам.
YOLO Ultralytics YOLO сохраняют здесь явное преимущество:
- Меньший объем памяти: для обучения YOLO обычно требуется меньший объем видеопамяти, что позволяет использовать более крупные пакеты данных на потребительских графических процессорах.
- Более быстрая конвергенция: CNN обычно требуют меньше эпох для достижения конвергенции по сравнению с архитектурами на основе трансформаторов.
3. Универсальность и экосистема
Хотя RT-DETRv2 YOLOv10 мощными детекторами, они в первую очередь ориентированы на обнаружение ограничительных рамок. В отличие от них, Ultralytics предоставляет модели, которые из коробки поддерживают более широкий спектр задач.
Ultralytics гарантирует, что пользователи получают не просто модель, а полный рабочий процесс. Это включает в себя бесшовную интеграцию с Ultralytics для управления наборами данных и простой экспорт в такие форматы, как ONNX, TensorRT и OpenVINO.
Ultralytics : представление YOLO26
Несмотря на то, что RT-DETRv2 YOLOv10 привлекательные функции, в этой области продолжаются активные разработки. Для разработчиков, стремящихся к абсолютному максимуму производительности, эффективности и простоты использования, Ultralytics является лучшим выбором.
Выпущенный в январе 2026 года, YOLO26 объединяет лучшие инновации как трансформеров, так и CNN в единую архитектуру нового поколения.
Почему YOLO26 — рекомендуемый выбор
- Нативная сквозная архитектура: как и YOLOv10, YOLO26 отличается сквозной архитектурой NMS. Это устраняет задержки при постобработке, обеспечивая стабильную и предсказуемую скорость вывода, что крайне важно для систем, критичных с точки зрения безопасности.
- Оптимизировано для всего оборудования: YOLO26 устраняет распределенную фокальную потерю (DFL), значительно упрощая граф модели. Это приводит к лучшей совместимости с периферийными ускорителями искусственного интеллекта и ускоряет CPU до 43 % по сравнению с предыдущими поколениями.
- Усовершенствованная динамика обучения: благодаря использованию MuSGD Optimizer, гибрида SGD Muon (вдохновленного обучением LLM в Moonshot AI), YOLO26 обеспечивает стабильное обучение и более быструю конвергенцию, привнося инновации в области больших языковых моделей в компьютерное зрение.
- Универсальность задач: в отличие от RT-DETRv2, ориентированного на обнаружение, YOLO26 изначально поддерживает обнаружение объектов, сегментацию экземпляров, оценку позы, ориентированные ограничивающие рамки (OBB) и классификацию.
Беспроблемная миграция
Переход на YOLO26 не требует особых усилий с помощью Ultralytics . Просто измените название модели в своем Python :
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
model.train(data="coco8.yaml", epochs=100)
Заключение
Для фундаментальных исследований или сценариев, в которых GPU неограниченны и требуются специфические механизмы трансформаторного внимания, RT-DETRv2 является сильным конкурентом. Для пользователей, которые отдают приоритет низкой задержке на периферийных устройствах с архитектурой CNN NMS, YOLOv10 остается надежным академическим вариантом.
Однако для производственных внедрений, требующих баланса скорости, точности и надежных инструментов, Ultralytics является однозначной рекомендацией. Его интеграция в хорошо поддерживаемую экосистему, поддержка различных задач компьютерного зрения и революционные усовершенствования архитектуры делают его наиболее перспективным решением на 2026 год и далее.
См. также
- Ultralytics YOLO11 — надежный предшественник, широко используемый в отрасли.
- RT-DETR — оригинальный трансформатор для обнаружения в реальном времени.
- YOLOv8 — универсальная классическая модель из YOLO .