YOLOv10 против RTDETRv2: оценка real-time end-to-end детекторов объектов
Сфера computer vision развивается стремительными темпами, и новые архитектуры постоянно задают новые стандарты в области детектирования объектов в реальном времени. Двумя значимыми вехами в этой эволюции стали YOLOv10 и RTDETRv2. Обе модели нацелены на решение фундаментальной проблемы традиционных конвейеров детектирования — устранение необходимости в постобработке Non-Maximum Suppression (NMS), но они подходят к этой задаче с совершенно разных архитектурных позиций.
Этот технический обзор содержит глубокий анализ их архитектур, методологий обучения и идеальных сценариев развертывания, чтобы помочь тебе и другим разработчикам и исследователям выбрать подходящий инструмент для твоего следующего проекта в области vision AI.
YOLOv10: пионер без NMS
Разработанная исследователями из Университета Цинхуа, модель YOLOv10 делает основной упор на архитектурную эффективность и устранение узких мест при постобработке. Благодаря внедрению согласованных двойных назначений (consistent dual assignments) для обучения без NMS, модель достигает конкурентоспособной производительности при значительном снижении задержки вывода.
Технические характеристики
- Авторы: Ао Ван, Хуэй Чэнь, Лихао Лю и др.
- Организация: Университет Цинхуа
- Дата: 2024-05-23
- ArXiv: статья о YOLOv10
- GitHub: THU-MIG/yolov10
- Документация: документация YOLOv10
Архитектура и методологии
Главный прорыв YOLOv10 заключается в целостном дизайне модели, ориентированном на баланс эффективности и точности. Она оптимизирует различные компоненты с обеих точек зрения, значительно снижая вычислительные затраты. Стратегия согласованных двойных назначений позволяет модели обучаться, не полагаясь на NMS, что обеспечивает оптимизированный конвейер end-to-end развертывания. Это особенно полезно при экспорте моделей в граничные форматы, такие как ONNX или TensorRT, где операции постобработки могут вызывать неожиданные задержки.
Сильные и слабые стороны
Модель демонстрирует исключительный баланс между скоростью и точностью, особенно в младших версиях (N и S). Минимальная задержка делает её идеальной для высокоскоростных граничных сред. Однако, хотя YOLOv10 превосходна в чистом детектировании, она остается специализированной моделью только для этой задачи. Командам, которым требуется instance segmentation или pose estimation, нужно будет обратить внимание на более универсальные фреймворки.
RTDETRv2: совершенствование Detection Transformer
Развивая идеи оригинального Real-Time Detection Transformer, RTDETRv2 включает в себя «набор бесплатных улучшений» (bag of freebies) для совершенствования своей базовой версии, доказывая, что трансформеры могут конкурировать с CNN в сценариях реального времени.
Технические характеристики
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 2024-07-24
- ArXiv: статья о RTDETRv2
- GitHub: lyuwenyu/RT-DETR
- Документация: документация RTDETRv2
Архитектура и методологии
RTDETRv2 использует гибридную архитектуру, сочетая backbone на базе Convolutional Neural Network (CNN) для извлечения визуальных признаков с трансформерным энкодером-декодером для комплексного понимания сцены. Механизм self-attention трансформера позволяет модели видеть изображение глобально, что делает её высокоэффективной при работе со сложными сценами, перекрывающимися объектами и плотными толпами.
Сильные и слабые стороны
Архитектура трансформера обеспечивает превосходную точность, особенно на больших масштабах параметров, и выдает итоговые детекции без NMS. Однако за это приходится платить. Трансформерные модели традиционно требуют значительно больше памяти CUDA во время обучения и могут дольше сходиться по сравнению с чистыми архитектурами CNN. Хотя RTDETRv2 улучшила скорость вывода, она, как правило, потребляет больше памяти, чем облегченные версии YOLO.
Сравнение производительности
Оценка метрик производительности дает более четкое представление о том, где каждая модель проявляет себя лучше всего. В следующей таблице показаны их возможности на наборе данных COCO:
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Анализируя данные, YOLOv10 сохраняет явное преимущество в эффективности параметров и скорости вывода TensorRT для сопоставимых размеров моделей. RTDETRv2-x соответствует огромной YOLOv10x по точности, но требует почти на 20 миллионов параметров больше и значительно более высоких FLOPs.
Варианты использования и рекомендации
Выбор между YOLOv10 и RT-DETR зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.
Когда выбирать YOLOv10
YOLOv10 — хороший выбор для:
- Обнаружение в реальном времени без NMS: Приложения, которые выигрывают от комплексного обнаружения без Non-Maximum Suppression, что снижает сложность развертывания.
- Сбалансированные компромиссы скорости и точности: Проекты, требующие хорошего баланса между скоростью вывода и точностью обнаружения для моделей различных масштабов.
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
Когда стоит выбирать RT-DETR
RT-DETR рекомендуется для:
- Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
- Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Преимущество Ultralytics: экосистема и инновации
Хотя YOLOv10 и RTDETRv2 предлагают надежные возможности детектирования, выбор модели часто сводится к окружающему программному обеспечению. Платформа Ultralytics предоставляет удобный, унифицированный интерфейс, который абстрагирует сложности глубокого обучения.
Новый стандарт: Ultralytics YOLO26
Для разработчиков, стремящихся к максимальной производительности, Ultralytics YOLO26 представляет собой кульминацию недавних архитектурных достижений. Выпущенная в начале 2026 года, YOLO26 наследует End-to-End NMS-Free Design, впервые примененный в YOLOv10, полностью устраняя постобработку NMS для более быстрого и простого развертывания.
YOLO26 привносит инновации в обучении LLM в компьютерное зрение с помощью оптимизатора MuSGD (гибрид SGD и Muon), что приводит к более стабильному обучению и более быстрой сходимости. Она также может похвастаться увеличением скорости вывода на CPU до 43%, что делает её лучшим выбором для edge computing.
Более того, YOLO26 представляет ProgLoss + STAL для заметного улучшения распознавания мелких объектов, и в отличие от специализированной YOLOv10, она предлагает исключительную универсальность. Модель нативно поддерживает object detection, segmentation, pose и oriented bounding boxes (OBB) с улучшениями, специфичными для задач, такими как функция потерь для семантической сегментации и Residual Log-Likelihood Estimation (RLE) для pose. Кроме того, отказ от Distribution Focal Loss (DFL) обеспечивает упрощенный экспорт и лучшую совместимость с маломощными устройствами.
Простота использования и эффективность обучения
Независимо от того, экспериментируешь ли ты с моделями предыдущего поколения, такими как Ultralytics YOLO11, или с передовой YOLO26, оптимизированный Python API гарантирует меньшее использование памяти во время обучения и чрезвычайно быстрые рабочие процессы.
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")Хорошо поддерживаемая экосистема предоставляет инструменты для легкого настройки гиперпараметров и безупречно интегрируется с широкими решениями для отслеживания и опциями развертывания моделей.
Заключение
И YOLOv10, и RTDETRv2 представляют собой внушительные вехи в стремлении к детектированию объектов без NMS. RTDETRv2 доказывает, что трансформеры могут достигать задержки реального времени с отличным пониманием глобального контекста, хотя и с более высокими требованиями к памяти. YOLOv10 предоставляет высокоэффективную и быструю альтернативу на базе CNN, адаптированную для задач детектирования с ограниченными ресурсами.
Однако для сбалансированной производительности, универсальности в решении нескольких задач и использования самой зрелой экосистемы разработчикам настоятельно рекомендуется использовать Ultralytics YOLO26. Она прекрасно сочетает архитектурные инновации своих предшественников с надежным и удобным инструментарием, который превращает развертывание vision AI в бесшовную реальность.