YOLOv10 против RTDETRv2: Оценка сквозных детекторов объектов реального времени
Ландшафт компьютерного зрения развивается стремительными темпами, с новыми архитектурами, постоянно переопределяющими передовой уровень в обнаружении объектов в реальном времени. Двумя важными вехами в этой эволюции являются YOLOv10 и RTDETRv2. Обе модели направлены на решение фундаментального узкого места в традиционных конвейерах обнаружения путем устранения необходимости в постобработке Non-Maximum Suppression (NMS), однако они подходят к этой задаче с совершенно разных архитектурных парадигм.
Это техническое сравнение предлагает углубленный анализ их архитектур, методологий обучения и идеальных сценариев развертывания, чтобы помочь разработчикам и исследователям выбрать подходящий инструмент для их следующего проекта в области vision AI.
YOLOv10: Пионер без NMS
Разработанный исследователями Университета Цинхуа, YOLOv10 уделяет большое внимание архитектурной эффективности и устранению узких мест постобработки. Вводя согласованные двойные назначения для обучения без NMS, он достигает конкурентоспособной производительности при значительном снижении задержки инференса.
Технические характеристики
- Авторы: Ao Wang, Hui Chen, Lihao Liu и др.
- Организация: Tsinghua University
- Дата: 2024-05-23
- ArXiv: Статья YOLOv10
- GitHub: THU-MIG/YOLOv10
- Документация: Документация YOLOv10
Архитектура и методологии
Основной прорыв YOLOv10 заключается в комплексном подходе к проектированию модели, ориентированном на эффективность и точность. Он оптимизирует различные компоненты с обеих точек зрения, значительно снижая вычислительные затраты. Стратегия согласованных двойных назначений (consistent dual assignments) позволяет модели обучаться без использования NMS, что приводит к упрощенному сквозному конвейеру развертывания. Это особенно выгодно при экспорте моделей в периферийные форматы, такие как ONNX или TensorRT, где операции постобработки могут вызывать непредвиденные задержки.
Сильные и слабые стороны
Модель демонстрирует исключительный компромисс между скоростью и точностью, особенно в меньших вариантах (N и S). Её минимальная задержка делает её идеальной для высокоскоростных периферийных сред. Однако, хотя YOLOv10 превосходит по чистой скорости detect, она остаётся специализированной моделью только для detect. Командам, которым требуется сегментация экземпляров или оценка позы, придётся рассмотреть более универсальные фреймворки.
RTDETRv2: совершенствование Transformer для detect
Основываясь на оригинальном Real-Time Detection Transformer, RTDETRv2 включает в себя «набор бесплатных улучшений» для повышения своей базовой производительности, демонстрируя, что трансформеры могут конкурировать с CNN в сценариях реального времени.
Технические характеристики
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 24.07.2024
- ArXiv: Статья RTDETRv2
- GitHub: lyuwenyu/RT-DETR
- Документация: Документация RTDETRv2
Архитектура и методологии
RTDETRv2 использует гибридную архитектуру, сочетающую опорную сеть сверточной нейронной сети (CNN) для извлечения визуальных признаков с энкодером-декодером трансформера для всестороннего понимания сцены. Механизм самовнимания трансформера позволяет модели рассматривать изображение глобально, что делает ее очень эффективной при работе со сложными сценами, перекрывающимися объектами и плотными скоплениями.
Сильные и слабые стороны
Архитектура трансформера обеспечивает отличную точность, особенно при больших масштабах параметров, и нативно выводит финальные detect без NMS. Однако это имеет свою цену. Модели-трансформеры традиционно требуют значительно больше памяти CUDA во время обучения и могут сходиться медленнее по сравнению с чистыми CNN-архитектурами. Хотя RTDETRv2 улучшил скорости инференса, он обычно потребляет больше памяти, чем легковесные варианты YOLO.
Сравнение производительности
Оценка метрик производительности дает более четкое представление о том, в чем превосходит каждая модель. В следующей таблице представлены их возможности на наборе данных COCO:
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
При анализе данных YOLOv10 сохраняет явное преимущество в эффективности использования параметров и скорости инференции с TensorRT для сопоставимых размеров. RTDETRv2-x соответствует по точности массивной YOLOv10x, но требует почти на 20 миллионов больше параметров и значительно более высоких FLOPs.
Сценарии использования и рекомендации
Выбор между YOLOv10 и RT-DETR зависит от ваших конкретных требований проекта, ограничений развертывания и предпочтений экосистемы.
Когда выбирать YOLOv10
YOLOv10 — отличный выбор для:
- Обнаружение в реальном времени без NMS: Приложения, выигрывающие от сквозного обнаружения без Non-Maximum Suppression, что снижает сложность развертывания.
- Сбалансированный компромисс между скоростью и точностью: Проекты, требующие оптимального баланса между скоростью инференса и точностью обнаружения для моделей различных масштабов.
- Приложения с предсказуемой задержкой: Сценарии развертывания, где критически важны предсказуемые времена инференса, например, в робототехнике или автономных системах.
Когда выбрать RT-DETR
RT-DETR рекомендуется для:
- Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
- Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
- Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Преимущества Ultralytics: Экосистема и инновации
Хотя YOLOv10 и RTDETRv2 предлагают надежные возможности обнаружения, выбор модели часто зависит от окружающей программной экосистемы. Платформа Ultralytics предоставляет бесшовный, унифицированный интерфейс, который абстрагирует сложности глубокого обучения.
Новый стандарт: Ultralytics YOLO26
Для разработчиков, стремящихся к абсолютно лучшей производительности, Ultralytics YOLO26 представляет собой кульминацию недавних архитектурных достижений. Выпущенная в начале 2026 года, YOLO26 наследует сквозной дизайн без NMS, впервые примененный в YOLOv10, полностью исключая постобработку NMS для более быстрого и простого развертывания.
Почему стоит выбрать YOLO26?
YOLO26 привносит инновации в обучение LLM в компьютерное зрение посредством оптимизатора MuSGD (гибрида SGD и Muon), что приводит к более стабильному обучению и более быстрой сходимости. Он также может похвастаться до 43% более быстрой инференцией на CPU, что делает его лучшим выбором для граничных вычислений.
Кроме того, YOLO26 представляет ProgLoss + STAL для заметных улучшений в распознавании мелких объектов, и в отличие от специализированного YOLOv10, он предлагает чрезвычайную универсальность. Он нативно поддерживает обнаружение объектов, сегментацию, оценку позы и ориентированные ограничивающие рамки (OBB) с улучшениями, специфичными для задач, такими как функция потерь для семантической сегментации и оценка остаточного логарифмического правдоподобия (RLE) для оценки позы. Кроме того, удаление Distribution Focal Loss (DFL) обеспечивает упрощенный экспорт и лучшую совместимость с устройствами с низким энергопотреблением.
Простота использования и эффективность обучения
Независимо от того, экспериментируете ли вы с моделями старого поколения, такими как Ultralytics YOLO11 или с передовым YOLO26, оптимизированный Python API обеспечивает меньшее использование памяти во время обучения и чрезвычайно быстрые рабочие процессы.
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
Хорошо поддерживаемая экосистема предоставляет инструменты для простой настройки гиперпараметров и безупречно интегрируется с обширными решениями для отслеживания и опциями развертывания моделей.
Заключение
Как YOLOv10, так и RTDETRv2 представляют собой значительные вехи в поиске NMS-free обнаружения объектов. RTDETRv2 доказывает, что трансформеры могут достигать задержки в реальном времени с отличным пониманием глобального контекста, хотя и с более высокими требованиями к памяти. YOLOv10 предлагает высокоэффективную, быструю альтернативу на основе CNN, адаптированную для задач обнаружения с ограниченными ресурсами.
Однако для сбалансированной производительности, многозадачной универсальности и наиболее зрелой экосистемы разработчикам настоятельно рекомендуется использовать Ultralytics YOLO26. Он прекрасно сочетает архитектурные инновации своих предшественников с надежным и удобным инструментарием, который делает развертывание ИИ-зрения беспроблемной реальностью.