Link to this sectionYOLOv10 против RTDETRv2: оценка детекторов объектов, работающих в режиме реального времени и использующих принцип end-to-end#
Ландшафт computer vision меняется стремительно, и новые архитектуры постоянно переопределяют стандарты в области детектирования объектов в реальном времени. Двумя значимыми вехами в этой эволюции стали YOLOv10 и RTDETRv2. Обе модели нацелены на решение фундаментального «узкого места» традиционных конвейеров детектирования за счет устранения необходимости в постпроцессинге NMS, однако они подходят к этой задаче с принципиально разных архитектурных позиций.
Это техническое сравнение предоставляет углубленный анализ их архитектур, методологий обучения и идеальных сценариев развертывания, чтобы помочь разработчикам и исследователям выбрать подходящий инструмент для твоего следующего проекта по vision AI.
Link to this sectionYOLOv10: первопроходец без NMS#
Разработанная исследователями из Университета Цинхуа, YOLOv10 делает основной акцент на архитектурной эффективности и устранении «узких мест» постпроцессинга. Внедряя последовательные двойные назначения (consistent dual assignments) для обучения без NMS, она достигает конкурентоспособной производительности при значительном снижении задержки вывода.
Link to this sectionТехнические характеристики#
- Авторы: Ао Ван, Хуэй Чен, Лихао Лю и др.
- Организация: Tsinghua University
- Дата: 2024-05-23
- ArXiv: YOLOv10 Paper
- GitHub: THU-MIG/yolov10
- Документация: YOLOv10 Documentation
Link to this sectionАрхитектура и методологии#
Главный прорыв YOLOv10 заключается в целостном дизайне модели, ориентированном на баланс эффективности и точности. Она оптимизирует различные компоненты с обеих точек зрения, значительно снижая вычислительные затраты. Стратегия последовательных двойных назначений позволяет модели обучаться, не полагаясь на NMS, что означает упрощенный, полностью end-to-end конвейер развертывания. Это особенно полезно при экспорте моделей в форматы для edge-устройств, такие как ONNX или TensorRT, где операции постпроцессинга могут вносить непредвиденные задержки.
Link to this sectionСильные и слабые стороны#
Модель демонстрирует исключительный баланс между скоростью и точностью, особенно в небольших вариантах (N и S). Минимальная задержка делает ее идеальной для высокоскоростных сред на edge-устройствах. Однако, несмотря на то что YOLOv10 превосходна в скорости детектирования, она остается специализированной моделью только для детекции. Командам, которым требуется instance segmentation или pose estimation, стоит присмотреться к более универсальным фреймворкам.
Link to this sectionRTDETRv2: совершенствование трансформера для детектирования#
Развивая идеи оригинального Real-Time Detection Transformer, RTDETRv2 включает в себя «набор бесплатных улучшений» (bag of freebies) для совершенствования своей базовой версии, доказывая, что трансформеры могут конкурировать с CNN в сценариях реального времени.
Link to this sectionТехнические характеристики#
- Авторы: Вэньюй Лю, Иань Чжао, Циньяо Чанг, Куй Хуан, Гуаньчжун Ван и И Лю
- Организация: Baidu
- Дата: 2024-07-24
- ArXiv: RTDETRv2 Paper
- GitHub: lyuwenyu/RT-DETR
- Документация: RTDETRv2 Documentation
Link to this sectionАрхитектура и методологии#
RTDETRv2 использует гибридную архитектуру, объединяющую бэкбон на базе сверточной нейронной сети (CNN) для извлечения визуальных признаков и трансформерный энкодер-декодер для глубокого понимания сцены. Механизм self-attention в трансформере позволяет модели видеть изображение глобально, что делает ее крайне эффективной при обработке сложных сцен, перекрывающихся объектов и плотных скоплений.
Link to this sectionСильные и слабые стороны#
Архитектура трансформера обеспечивает отличную точность, особенно при больших масштабах параметров, и нативно выдает финальные результаты детекции без NMS. Однако это имеет свою цену. Модели на основе трансформеров традиционно требуют значительно больше памяти CUDA при обучении и могут медленнее сходиться по сравнению с чистыми архитектурами CNN. Хотя RTDETRv2 улучшила скорость вывода, она, как правило, потребляет больше памяти, чем легкие варианты YOLO.
Link to this sectionСравнение производительности#
Оценка показателей производительности дает более ясное представление о том, в чем преуспевает каждая модель. В следующей таблице освещены их возможности на наборе данных COCO:
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Анализируя данные, можно заметить, что YOLOv10 сохраняет строгое преимущество в параметрической эффективности и скорости вывода TensorRT при сопоставимых размерах. RTDETRv2-x соответствует массивной YOLOv10x по точности, но требует почти на 20 миллионов параметров больше и значительно более высоких значений FLOPs.
Link to this sectionСценарии использования и рекомендации#
Выбор между YOLOv10 и RT-DETR зависит от твоих специфических требований проекта, ограничений развертывания и предпочтений в экосистеме.
Link to this sectionКогда стоит выбрать YOLOv10#
YOLOv10 — отличный выбор для:
- Детекции в реальном времени без NMS: Приложения, которым полезна сквозная (end-to-end) детекция без использования Non-Maximum Suppression, что снижает сложность развертывания.
- Сбалансированного соотношения скорости и точности: Проекты, требующие оптимального баланса между скоростью вывода и точностью детекции для различных масштабов моделей.
- Приложений с постоянной задержкой: Сценарии развертывания, где критически важна предсказуемость времени вывода, например, в робототехнике или автономных системах.
Link to this sectionКогда выбирать RT-DETR#
RT-DETR рекомендуется для:
- Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
- Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionПреимущество Ultralytics: экосистема и инновации#
Хотя YOLOv10 и RTDETRv2 предлагают мощные возможности детекции, выбор модели часто сводится к окружающей программной экосистеме. Платформа Ultralytics предоставляет бесшовный, унифицированный интерфейс, который абстрагирует сложности глубокого обучения.
Link to this sectionНовый стандарт: Ultralytics YOLO26#
Для разработчиков, стремящихся к абсолютно лучшей производительности, Ultralytics YOLO26 представляет собой кульминацию недавних архитектурных достижений. Выпущенная в начале 2026 года, YOLO26 наследует End-to-End NMS-Free Design, впервые реализованный в YOLOv10, полностью исключая постпроцессинг NMS для более быстрого и простого развертывания.
YOLO26 привносит инновации из обучения LLM в компьютерное зрение с помощью оптимизатора MuSGD (гибрид SGD и Muon), что приводит к более стабильному обучению и ускоренной сходимости. Она также может похвастаться увеличением скорости вывода на CPU до 43%, что делает ее первоклассным выбором для edge computing.
Более того, YOLO26 представляет ProgLoss + STAL для заметных улучшений в распознавании мелких объектов, и в отличие от специализированной YOLOv10, она предлагает чрезвычайную универсальность. Она нативно поддерживает детекцию объектов, сегментацию, позы и ориентированные ограничивающие рамки (OBB) с улучшениями, специфичными для задач, такими как функция потерь семантической сегментации и оценка остаточного логарифмического правдоподобия (RLE) для поз. Кроме того, удаление Distribution Focal Loss (DFL) обеспечивает упрощенный экспорт и лучшую совместимость с маломощными устройствами.
Link to this sectionПростота использования и эффективность обучения#
Независимо от того, экспериментируешь ли ты со старыми поколениями моделей, такими как Ultralytics YOLO11, или с передовой YOLO26, оптимизированный Python API обеспечивает меньшее использование памяти во время обучения и чрезвычайно быстрые рабочие процессы.
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")Хорошо поддерживаемая экосистема предоставляет инструменты для легкой настройки гиперпараметров и безупречно интегрируется с обширными решениями для отслеживания и вариантами развертывания моделей.
Link to this sectionЗаключение#
И YOLOv10, и RTDETRv2 представляют собой внушительные вехи в стремлении к детектированию объектов без NMS. RTDETRv2 доказывает, что трансформеры могут достигать задержек реального времени с отличным пониманием глобального контекста, хотя и с более высокими требованиями к памяти. YOLOv10 предоставляет высокоэффективную, быструю альтернативу на базе CNN, адаптированную для задач детекции с ограниченными ресурсами.
Однако для сбалансированной производительности, многозадачности и максимально зрелой экосистемы разработчикам настоятельно рекомендуется использовать Ultralytics YOLO26. Она прекрасно сочетает архитектурные инновации своих предшественников с надежным, удобным инструментарием, который превращает развертывание Vision AI в легкую реальность.