Перейти к содержанию

YOLOv10 против RTDETRv2: Техническое сравнение для обнаружения объектов

Выбор оптимальной модели обнаружения объектов - важнейшее решение для проектов в области компьютерного зрения. Ultralytics предлагает набор моделей, отвечающих различным потребностям, начиная с эффективной серии Ultralytics YOLO и заканчивая высокоточной серией RT-DETR . На этой странице представлено подробное техническое сравнение YOLOv10 и RTDETRv2, двух передовых моделей для обнаружения объектов, чтобы помочь вам сделать осознанный выбор.

RTDETRv2: Высокоточное обнаружение в режиме реального времени

RTDETRv2(Real-Time Detection Transformer v2) - это передовая модель обнаружения объектов, в которой приоритетом является высокая точность и производительность в реальном времени. Разработанная компанией Baidu и подробно описанная в статье Arxiv, опубликованной в июле 2024 года, RTDETRv2 основана на архитектуре Vision Transformer (ViT) для достижения передовых результатов в сценариях, требующих точной локализации и классификации объектов.

Архитектура и ключевые особенности

Архитектура RTDETRv2 использует сильные стороны трансформаторов, позволяя улавливать глобальный контекст в изображениях с помощью механизмов самовнимания. Такой подход, основанный на трансформации, позволяет модели взвешивать важность различных областей изображения, что приводит к улучшению извлечения признаков и повышению точности, особенно в сложных сценах. В отличие от традиционных конволюционных нейронных сетей (CNN), RTDETRv2 лучше понимает более широкий контекст изображения, что способствует ее надежному обнаружению. Более подробную информацию о реализации RT-DETR можно найти в репозиторииRT-DETR на GitHub.

Показатели производительности

RTDETRv2 демонстрирует впечатляющие показатели mAP, в частности, более крупные варианты, такие как RTDETRv2-x, достигают mAPval50-95 на уровне 54,3. Скорость вычислений также конкурентоспособна, что делает его подходящим для приложений реального времени при использовании аппаратного ускорения, например, графических процессоров NVIDIA T4. В сравнительной таблице ниже приведена подробная разбивка показателей производительности различных вариантов RTDETRv2 и YOLO10.

Сильные и слабые стороны

Сильные стороны:

  • Превосходная точность: Трансформаторная архитектура обеспечивает высокую точность обнаружения объектов.
  • Возможность работы в режиме реального времени: Достижение конкурентоспособной скорости вычислений, особенно при использовании аппаратного ускорения с помощью таких движков вычислений, как TensorRT.
  • Эффективное извлечение характеристик: Преобразователи зрения умело улавливают глобальный контекст и мельчайшие детали на изображениях.

Слабые стороны:

  • Больший размер модели: Модели типа RTDETRv2-x имеют большее количество параметров и большее количество FLOP по сравнению с меньшими моделями YOLO , что требует больше вычислительных ресурсов.
  • Ограничения скорости вывода: Несмотря на возможность работы в реальном времени, скорость вывода может быть ниже, чем у самых быстрых моделей YOLO , особенно на устройствах с ограниченными ресурсами.

Идеальные варианты использования

RTDETRv2 идеально подходит для приложений, где точность имеет первостепенное значение, а вычислительные ресурсы достаточны. К ним относятся:

  • Автономные транспортные средства: Для надежного и точного восприятия окружающей среды, что крайне важно для обеспечения безопасности и навигации при использовании искусственного интеллекта в самоуправляемых автомобилях.
  • Робототехника: Обеспечение точного взаимодействия роботов с объектами в сложных условиях, расширение возможностей ИИ в робототехнике.
  • Медицинская визуализация: Для точного обнаружения аномалий на медицинских изображениях, помощи в диагностике и повышения эффективности ИИ в здравоохранении.
  • Анализ изображений высокого разрешения: Приложения, требующие детального анализа больших изображений, например, спутниковые снимки или промышленные инспекции, аналогично использованию компьютерного зрения для анализа спутниковых снимков.

Узнайте больше о RTDETRv2

YOLOv10: эффективное и универсальное обнаружение объектов

YOLOv10(You Only Look Once 10) - это последняя итерация серииYOLO от Ultralytics , известной своей скоростью и эффективностью в обнаружении объектов. YOLOv10, представленный в мае 2024 года авторами из Университета Цинхуа, как подробно описано в их статье в Arxiv, развивает предыдущие версии YOLO , повышая точность и производительность, сохраняя при этом преимущество реального времени. Официальный репозиторий GitHub содержит официальную реализацию PyTorch .

Архитектура и ключевые особенности

YOLOv10 продолжает традицию YOLO по одноэтапному обнаружению объектов, уделяя особое внимание эффективности и скорости. В нем реализованы архитектурные инновации и оптимизации для снижения избыточности вычислений и повышения точности. Ключевой особенностью является подход без использования NMS, обеспечивающий сквозное развертывание и сокращение задержек в выводах. Это делает YOLOv10 особенно выгодным для приложений реального времени и развертывания на устройствах с ограниченными ресурсами.

Показатели производительности

YOLOv10 достигает баланса между скоростью и точностью, предлагая различные размеры моделей от YOLOv10n до YOLOv10x. Хотя по точности RTDETRv2 немного уступает RTDETR2, YOLOv10 превосходит его по скорости и эффективности выводов. Например, YOLOv10n достигает скорости вычислений 1,56 мс на TensorRT, что делает его идеальным для приложений, чувствительных к задержкам. Более подробная информация об этих показателях содержится в руководствеYOLO Performance Metrics.

Сильные и слабые стороны

Сильные стороны:

  • Высокая эффективность и скорость: Оптимизированы для быстрого вывода, что очень важно для приложений реального времени и пограничного развертывания.
  • Универсальность: Доступны различные размеры (n, s, m, b, l, x), обеспечивающие масштабируемую производительность и использование ресурсов.
  • Обучение без использования NMS: Обеспечивает сквозное развертывание и сокращает время ожидания вывода.
  • Меньший размер модели: Меньшее количество параметров и FLOPs по сравнению с RTDETRv2, что делает ее подходящей для сред с ограниченными ресурсами.

Слабые стороны:

  • Более низкая точность по сравнению с RTDETRv2: Несмотря на высокую точность, в сложных сценариях он может не дотягивать до точности RTDETRv2.
  • Возможный компромисс: достижение экстремальной скорости может привести к небольшому снижению точности по сравнению с более крупными моделями, требующими больших вычислительных затрат.

Идеальные варианты использования

Эффективность и скорость работы YOLOv10 делают его отличным выбором для приложений, требующих обнаружения объектов в реальном времени, особенно на устройствах с ограниченными ресурсами. К ним относятся:

Узнайте больше о YOLO10

Сравнительная таблица моделей

Модель размер
(пикселей)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4TensorRT10
(мс)
params
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Заключение

RTDETRv2 и YOLOv10 - это мощные модели обнаружения объектов, каждая из которых предназначена для решения различных задач. RTDETRv2 превосходит все остальные модели, когда требуется точность высочайшего уровня и доступны вычислительные ресурсы, что делает ее подходящей для сложных и критически важных приложений. YOLOv10, напротив, является предпочтительным выбором, когда важны производительность в реальном времени, эффективность и развертывание на платформах с ограниченными ресурсами.

Для пользователей, изучающих другие варианты, Ultralytics предлагает разнообразный модельный зоопарк, включая модели с различным компромиссом между скоростью и точностью:

В конечном итоге выбор между RTDETRv2 и YOLOv10 или другими моделями Ultralytics зависит от конкретных потребностей вашего проекта по компьютерному зрению, тщательно сбалансированного по точности, скорости и ограничениям на ресурсы. Обратитесь к документацииUltralytics и репозиторию GitHub для получения исчерпывающей информации и руководств по внедрению.

📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии