YOLOv10 против RTDETRv2: Техническое сравнение для обнаружения объектов
Выбор оптимальной модели обнаружения объектов - важнейшее решение для проектов в области компьютерного зрения. Ultralytics предлагает набор моделей, отвечающих различным потребностям, начиная с эффективной серии Ultralytics YOLO и заканчивая высокоточной серией RT-DETR . На этой странице представлено подробное техническое сравнение YOLOv10 и RTDETRv2, двух передовых моделей для обнаружения объектов, чтобы помочь вам сделать осознанный выбор.
RTDETRv2: Высокоточное обнаружение в режиме реального времени
RTDETRv2(Real-Time Detection Transformer v2) - это передовая модель обнаружения объектов, в которой приоритетом является высокая точность и производительность в реальном времени. Разработанная компанией Baidu и подробно описанная в статье Arxiv, опубликованной в июле 2024 года, RTDETRv2 основана на архитектуре Vision Transformer (ViT) для достижения передовых результатов в сценариях, требующих точной локализации и классификации объектов.
Архитектура и ключевые особенности
Архитектура RTDETRv2 использует сильные стороны трансформаторов, позволяя улавливать глобальный контекст в изображениях с помощью механизмов самовнимания. Такой подход, основанный на трансформации, позволяет модели взвешивать важность различных областей изображения, что приводит к улучшению извлечения признаков и повышению точности, особенно в сложных сценах. В отличие от традиционных конволюционных нейронных сетей (CNN), RTDETRv2 лучше понимает более широкий контекст изображения, что способствует ее надежному обнаружению. Более подробную информацию о реализации RT-DETR можно найти в репозиторииRT-DETR на GitHub.
Показатели производительности
RTDETRv2 демонстрирует впечатляющие показатели mAP, в частности, более крупные варианты, такие как RTDETRv2-x, достигают mAPval50-95 на уровне 54,3. Скорость вычислений также конкурентоспособна, что делает его подходящим для приложений реального времени при использовании аппаратного ускорения, например, графических процессоров NVIDIA T4. В сравнительной таблице ниже приведена подробная разбивка показателей производительности различных вариантов RTDETRv2 и YOLO10.
Сильные и слабые стороны
Сильные стороны:
- Превосходная точность: Трансформаторная архитектура обеспечивает высокую точность обнаружения объектов.
- Возможность работы в режиме реального времени: Достижение конкурентоспособной скорости вычислений, особенно при использовании аппаратного ускорения с помощью таких движков вычислений, как TensorRT.
- Эффективное извлечение характеристик: Преобразователи зрения умело улавливают глобальный контекст и мельчайшие детали на изображениях.
Слабые стороны:
- Больший размер модели: Модели типа RTDETRv2-x имеют большее количество параметров и большее количество FLOP по сравнению с меньшими моделями YOLO , что требует больше вычислительных ресурсов.
- Ограничения скорости вывода: Несмотря на возможность работы в реальном времени, скорость вывода может быть ниже, чем у самых быстрых моделей YOLO , особенно на устройствах с ограниченными ресурсами.
Идеальные варианты использования
RTDETRv2 идеально подходит для приложений, где точность имеет первостепенное значение, а вычислительные ресурсы достаточны. К ним относятся:
- Автономные транспортные средства: Для надежного и точного восприятия окружающей среды, что крайне важно для обеспечения безопасности и навигации при использовании искусственного интеллекта в самоуправляемых автомобилях.
- Робототехника: Обеспечение точного взаимодействия роботов с объектами в сложных условиях, расширение возможностей ИИ в робототехнике.
- Медицинская визуализация: Для точного обнаружения аномалий на медицинских изображениях, помощи в диагностике и повышения эффективности ИИ в здравоохранении.
- Анализ изображений высокого разрешения: Приложения, требующие детального анализа больших изображений, например, спутниковые снимки или промышленные инспекции, аналогично использованию компьютерного зрения для анализа спутниковых снимков.
YOLOv10: эффективное и универсальное обнаружение объектов
YOLOv10(You Only Look Once 10) - это последняя итерация серииYOLO от Ultralytics , известной своей скоростью и эффективностью в обнаружении объектов. YOLOv10, представленный в мае 2024 года авторами из Университета Цинхуа, как подробно описано в их статье в Arxiv, развивает предыдущие версии YOLO , повышая точность и производительность, сохраняя при этом преимущество реального времени. Официальный репозиторий GitHub содержит официальную реализацию PyTorch .
Архитектура и ключевые особенности
YOLOv10 продолжает традицию YOLO по одноэтапному обнаружению объектов, уделяя особое внимание эффективности и скорости. В нем реализованы архитектурные инновации и оптимизации для снижения избыточности вычислений и повышения точности. Ключевой особенностью является подход без использования NMS, обеспечивающий сквозное развертывание и сокращение задержек в выводах. Это делает YOLOv10 особенно выгодным для приложений реального времени и развертывания на устройствах с ограниченными ресурсами.
Показатели производительности
YOLOv10 достигает баланса между скоростью и точностью, предлагая различные размеры моделей от YOLOv10n до YOLOv10x. Хотя по точности RTDETRv2 немного уступает RTDETR2, YOLOv10 превосходит его по скорости и эффективности выводов. Например, YOLOv10n достигает скорости вычислений 1,56 мс на TensorRT, что делает его идеальным для приложений, чувствительных к задержкам. Более подробная информация об этих показателях содержится в руководствеYOLO Performance Metrics.
Сильные и слабые стороны
Сильные стороны:
- Высокая эффективность и скорость: Оптимизированы для быстрого вывода, что очень важно для приложений реального времени и пограничного развертывания.
- Универсальность: Доступны различные размеры (n, s, m, b, l, x), обеспечивающие масштабируемую производительность и использование ресурсов.
- Обучение без использования NMS: Обеспечивает сквозное развертывание и сокращает время ожидания вывода.
- Меньший размер модели: Меньшее количество параметров и FLOPs по сравнению с RTDETRv2, что делает ее подходящей для сред с ограниченными ресурсами.
Слабые стороны:
- Более низкая точность по сравнению с RTDETRv2: Несмотря на высокую точность, в сложных сценариях он может не дотягивать до точности RTDETRv2.
- Возможный компромисс: достижение экстремальной скорости может привести к небольшому снижению точности по сравнению с более крупными моделями, требующими больших вычислительных затрат.
Идеальные варианты использования
Эффективность и скорость работы YOLOv10 делают его отличным выбором для приложений, требующих обнаружения объектов в реальном времени, особенно на устройствах с ограниченными ресурсами. К ним относятся:
- Пограничные вычисления: Развертывание на пограничных устройствах, таких как NVIDIA Jetson и Raspberry Pi, для обработки данных на устройстве.
- Видеонаблюдение в реальном времени: Для эффективного мониторинга и быстрого реагирования в системах охранной сигнализации.
- Робототехника и беспилотники: Приложения, в которых низкая задержка и быстрая обработка данных критически важны для навигации и взаимодействия, например, приложения компьютерного зрения в беспилотных системах искусственного интеллекта.
- Промышленная автоматизация: Для быстрого обнаружения объектов в производственных процессах, повышения эффективности искусственного интеллекта в производстве.
Сравнительная таблица моделей
Модель | размер (пикселей) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4TensorRT10 (мс) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Заключение
RTDETRv2 и YOLOv10 - это мощные модели обнаружения объектов, каждая из которых предназначена для решения различных задач. RTDETRv2 превосходит все остальные модели, когда требуется точность высочайшего уровня и доступны вычислительные ресурсы, что делает ее подходящей для сложных и критически важных приложений. YOLOv10, напротив, является предпочтительным выбором, когда важны производительность в реальном времени, эффективность и развертывание на платформах с ограниченными ресурсами.
Для пользователей, изучающих другие варианты, Ultralytics предлагает разнообразный модельный зоопарк, включая модели с различным компромиссом между скоростью и точностью:
- YOLOv8 и YOLOv9: предыдущие поколения моделей YOLO , обеспечивающие баланс скорости и точности, о чем говорится в документации Ultralytics YOLOv8 Turns One: A Year of Breakthroughs and Innovations и YOLOv9.
- YOLO: Модели, разработанные с использованием нейронной архитектуры для оптимальной производительности, подробно описаны в документацииYOLO by Deci AI .
- FastSAM и MobileSAM: для задач сегментации экземпляров в реальном времени, предлагая эффективные решения, как показано в документации поFastSAM и MobileSAM .
В конечном итоге выбор между RTDETRv2 и YOLOv10 или другими моделями Ultralytics зависит от конкретных потребностей вашего проекта по компьютерному зрению, тщательно сбалансированного по точности, скорости и ограничениям на ресурсы. Обратитесь к документацииUltralytics и репозиторию GitHub для получения исчерпывающей информации и руководств по внедрению.