YOLOv10 против RTDETRv2: оценка real-time end-to-end детекторов объектов

Сфера computer vision развивается стремительными темпами, и новые архитектуры постоянно задают новые стандарты в области детектирования объектов в реальном времени. Двумя значимыми вехами в этой эволюции стали YOLOv10 и RTDETRv2. Обе модели нацелены на решение фундаментальной проблемы традиционных конвейеров детектирования — устранение необходимости в постобработке Non-Maximum Suppression (NMS), но они подходят к этой задаче с совершенно разных архитектурных позиций.

Этот технический обзор содержит глубокий анализ их архитектур, методологий обучения и идеальных сценариев развертывания, чтобы помочь тебе и другим разработчикам и исследователям выбрать подходящий инструмент для твоего следующего проекта в области vision AI.

YOLOv10: пионер без NMS

Разработанная исследователями из Университета Цинхуа, модель YOLOv10 делает основной упор на архитектурную эффективность и устранение узких мест при постобработке. Благодаря внедрению согласованных двойных назначений (consistent dual assignments) для обучения без NMS, модель достигает конкурентоспособной производительности при значительном снижении задержки вывода.

Технические характеристики

Архитектура и методологии

Главный прорыв YOLOv10 заключается в целостном дизайне модели, ориентированном на баланс эффективности и точности. Она оптимизирует различные компоненты с обеих точек зрения, значительно снижая вычислительные затраты. Стратегия согласованных двойных назначений позволяет модели обучаться, не полагаясь на NMS, что обеспечивает оптимизированный конвейер end-to-end развертывания. Это особенно полезно при экспорте моделей в граничные форматы, такие как ONNX или TensorRT, где операции постобработки могут вызывать неожиданные задержки.

Сильные и слабые стороны

Модель демонстрирует исключительный баланс между скоростью и точностью, особенно в младших версиях (N и S). Минимальная задержка делает её идеальной для высокоскоростных граничных сред. Однако, хотя YOLOv10 превосходна в чистом детектировании, она остается специализированной моделью только для этой задачи. Командам, которым требуется instance segmentation или pose estimation, нужно будет обратить внимание на более универсальные фреймворки.

Узнать больше о YOLOv10

RTDETRv2: совершенствование Detection Transformer

Развивая идеи оригинального Real-Time Detection Transformer, RTDETRv2 включает в себя «набор бесплатных улучшений» (bag of freebies) для совершенствования своей базовой версии, доказывая, что трансформеры могут конкурировать с CNN в сценариях реального времени.

Технические характеристики

Архитектура и методологии

RTDETRv2 использует гибридную архитектуру, сочетая backbone на базе Convolutional Neural Network (CNN) для извлечения визуальных признаков с трансформерным энкодером-декодером для комплексного понимания сцены. Механизм self-attention трансформера позволяет модели видеть изображение глобально, что делает её высокоэффективной при работе со сложными сценами, перекрывающимися объектами и плотными толпами.

Сильные и слабые стороны

Архитектура трансформера обеспечивает превосходную точность, особенно на больших масштабах параметров, и выдает итоговые детекции без NMS. Однако за это приходится платить. Трансформерные модели традиционно требуют значительно больше памяти CUDA во время обучения и могут дольше сходиться по сравнению с чистыми архитектурами CNN. Хотя RTDETRv2 улучшила скорость вывода, она, как правило, потребляет больше памяти, чем облегченные версии YOLO.

Узнай больше о RTDETRv2

Сравнение производительности

Оценка метрик производительности дает более четкое представление о том, где каждая модель проявляет себя лучше всего. В следующей таблице показаны их возможности на наборе данных COCO:

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Анализируя данные, YOLOv10 сохраняет явное преимущество в эффективности параметров и скорости вывода TensorRT для сопоставимых размеров моделей. RTDETRv2-x соответствует огромной YOLOv10x по точности, но требует почти на 20 миллионов параметров больше и значительно более высоких FLOPs.

Варианты использования и рекомендации

Выбор между YOLOv10 и RT-DETR зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать YOLOv10

YOLOv10 — хороший выбор для:

  • Обнаружение в реальном времени без NMS: Приложения, которые выигрывают от комплексного обнаружения без Non-Maximum Suppression, что снижает сложность развертывания.
  • Сбалансированные компромиссы скорости и точности: Проекты, требующие хорошего баланса между скоростью вывода и точностью обнаружения для моделей различных масштабов.
  • Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.

Когда стоит выбирать RT-DETR

RT-DETR рекомендуется для:

  • Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
  • Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Преимущество Ultralytics: экосистема и инновации

Хотя YOLOv10 и RTDETRv2 предлагают надежные возможности детектирования, выбор модели часто сводится к окружающему программному обеспечению. Платформа Ultralytics предоставляет удобный, унифицированный интерфейс, который абстрагирует сложности глубокого обучения.

Новый стандарт: Ultralytics YOLO26

Для разработчиков, стремящихся к максимальной производительности, Ultralytics YOLO26 представляет собой кульминацию недавних архитектурных достижений. Выпущенная в начале 2026 года, YOLO26 наследует End-to-End NMS-Free Design, впервые примененный в YOLOv10, полностью устраняя постобработку NMS для более быстрого и простого развертывания.

Почему стоит выбрать YOLO26?

YOLO26 привносит инновации в обучении LLM в компьютерное зрение с помощью оптимизатора MuSGD (гибрид SGD и Muon), что приводит к более стабильному обучению и более быстрой сходимости. Она также может похвастаться увеличением скорости вывода на CPU до 43%, что делает её лучшим выбором для edge computing.

Более того, YOLO26 представляет ProgLoss + STAL для заметного улучшения распознавания мелких объектов, и в отличие от специализированной YOLOv10, она предлагает исключительную универсальность. Модель нативно поддерживает object detection, segmentation, pose и oriented bounding boxes (OBB) с улучшениями, специфичными для задач, такими как функция потерь для семантической сегментации и Residual Log-Likelihood Estimation (RLE) для pose. Кроме того, отказ от Distribution Focal Loss (DFL) обеспечивает упрощенный экспорт и лучшую совместимость с маломощными устройствами.

Узнай больше о YOLO26

Простота использования и эффективность обучения

Независимо от того, экспериментируешь ли ты с моделями предыдущего поколения, такими как Ultralytics YOLO11, или с передовой YOLO26, оптимизированный Python API гарантирует меньшее использование памяти во время обучения и чрезвычайно быстрые рабочие процессы.

from ultralytics import RTDETR, YOLO

# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

Хорошо поддерживаемая экосистема предоставляет инструменты для легкого настройки гиперпараметров и безупречно интегрируется с широкими решениями для отслеживания и опциями развертывания моделей.

Заключение

И YOLOv10, и RTDETRv2 представляют собой внушительные вехи в стремлении к детектированию объектов без NMS. RTDETRv2 доказывает, что трансформеры могут достигать задержки реального времени с отличным пониманием глобального контекста, хотя и с более высокими требованиями к памяти. YOLOv10 предоставляет высокоэффективную и быструю альтернативу на базе CNN, адаптированную для задач детектирования с ограниченными ресурсами.

Однако для сбалансированной производительности, универсальности в решении нескольких задач и использования самой зрелой экосистемы разработчикам настоятельно рекомендуется использовать Ultralytics YOLO26. Она прекрасно сочетает архитектурные инновации своих предшественников с надежным и удобным инструментарием, который превращает развертывание vision AI в бесшовную реальность.

Комментарии