RTDETRv2 против YOLOv9: техническое сравнение для обнаружения объектов
Выбор оптимальной модели обнаружения объектов — критически важное решение для любого проекта компьютерного зрения. Выбор часто включает в себя компромисс между точностью, скоростью вывода и вычислительными затратами. На этой странице представлено подробное техническое сравнение двух мощных моделей: RTDETRv2, модели на основе transformer, известной своей высокой точностью, и YOLOv9, модели на основе CNN, известной своим исключительным балансом скорости и эффективности. Этот анализ поможет вам выбрать лучшую модель для ваших конкретных требований.
RTDETRv2: Высокая точность на основе трансформеров
RTDETRv2 (Real-Time Detection Transformer v2) — это современная модель обнаружения объектов, разработанная Baidu. Она использует архитектуру transformer для достижения исключительной точности, особенно в сложных сценах.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация: Baidu
- Дата: 17.04.2023 (Оригинальный RT-DETR), 24.07.2024 (статья RTDETRv2)
- Arxiv: https://arxiv.org/abs/2304.08069 (Original), https://arxiv.org/abs/2407.17140 (v2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Документация: https://docs.ultralytics.com/models/rtdetr/
Архитектура и ключевые особенности
RTDETRv2 построен на базе архитектуры Vision Transformer (ViT), которая существенно отличается от традиционных сверточных нейронных сетей (CNN). Используя механизмы самовнимания, он может захватывать глобальный контекст и долгосрочные зависимости внутри изображения. Это обеспечивает более надежное извлечение признаков, что приводит к более высокой точности, особенно в сценариях с окклюдированными или многочисленными объектами. RTDETRv2 также использует механизм обнаружения без привязки к якорям, упрощая процесс обнаружения.
Сильные и слабые стороны
Преимущества:
- Высокая точность: Архитектура transformer отлично справляется с захватом сложных деталей и взаимосвязей, что приводит к высоким показателям mAP.
- Понимание глобального контекста: Его способность обрабатывать весь контекст изображения является основным преимуществом в сложных средах.
- Возможность работы в реальном времени: При достаточном аппаратном ускорении, таком как TensorRT, он может достигать скорости инференса в реальном времени.
Слабые стороны:
- Более высокий спрос на ресурсы: Модели RTDETRv2 имеют большее количество параметров и более высокие FLOPs, что требует значительной вычислительной мощности.
- Высокое потребление памяти: Модели на основе трансформеров, как известно, интенсивно используют память, особенно во время обучения, требуя большого объема памяти CUDA и затрудняя их обучение без высокопроизводительных GPU.
- Более медленный инференс на CPU: Производительность значительно снижается на CPU или устройствах с ограниченными ресурсами по сравнению с оптимизированными CNN.
- Сложность: Архитектура может быть более сложной для понимания, настройки и развертывания, чем более оптимизированные модели.
Идеальные варианты использования
RTDETRv2 лучше всего подходит для приложений, где точность является главным приоритетом, а вычислительные ресурсы не являются основным ограничением.
- Анализ медицинских изображений: Обнаружение незначительных аномалий на медицинских сканах высокого разрешения.
- Анализ спутниковых снимков: Идентификация небольших объектов или признаков на больших спутниковых снимках.
- Высококачественный промышленный контроль: Выполнение детального контроля качества, где точность имеет первостепенное значение.
YOLOv9: Современная эффективность и производительность
YOLOv9 — это революционная модель в семействе Ultralytics YOLO, разработанная исследователями из Academia Sinica, Тайвань. Она представляет новые методы для повышения эффективности и устранения потерь информации в глубоких сетях.
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 21.02.2024
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Документация: https://docs.ultralytics.com/models/yolov9/
Архитектура и ключевые особенности
YOLOv9 представляет две ключевые инновации: Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI помогает смягчить потерю информации, поскольку данные проходят через глубокие нейронные сети, гарантируя, что модель эффективно обучается. GELAN — это высокоэффективная архитектура, которая оптимизирует использование параметров и вычислительную скорость.
Хотя оригинальное исследование является исключительным, интеграция YOLOv9 в экосистему Ultralytics раскрывает весь ее потенциал. Это предоставляет пользователям:
- Простота использования: Удобный и оптимизированный Python API и подробная документация упрощают обучение, валидацию и развертывание моделей.
- Хорошо поддерживаемая экосистема: Пользователи получают выгоду от активной разработки, мощной поддержки сообщества и бесшовной интеграции с такими инструментами, как Ultralytics HUB, для обучения и MLOps без кода.
- Эффективность обучения: Ultralytics предоставляет готовые предварительно обученные веса и эффективные процессы обучения. Что особенно важно, YOLOv9 имеет значительно более низкие требования к памяти во время обучения по сравнению с моделями-трансформерами, такими как RTDETRv2, что делает его доступным для пользователей с менее мощным оборудованием.
- Универсальность: В отличие от RTDETRv2, которая в основном предназначена для обнаружения, архитектура YOLOv9 более универсальна, с реализациями, поддерживающими такие задачи, как сегментация экземпляров, и демонстрирующими потенциал для большего.
Сильные и слабые стороны
Преимущества:
- Превосходная эффективность: Обеспечивает современную точность с меньшим количеством параметров и более низкой вычислительной стоимостью, чем у конкурентов.
- Превосходный баланс производительности: Достигает выдающегося компромисса между скоростью и точностью, что делает его подходящим для широкого спектра приложений.
- Сохранение информации: PGI эффективно решает проблему потери информации в глубоких сетях.
- Масштабируемость: Предлагаются различные размеры моделей, от легкой YOLOv9t до высокопроизводительной YOLOv9e, отвечающие различным потребностям.
Слабые стороны:
- Новизна: Будучи более новой моделью, количество примеров развертывания, предоставленных сообществом, все еще растет, хотя ее внедрение быстро ускоряется благодаря экосистеме Ultralytics.
Идеальные варианты использования
YOLOv9 превосходно подходит для приложений, требующих как высокой точности, так и производительности в реальном времени.
- Edge Computing: Его эффективность делает его идеальным для развертывания на устройствах с ограниченными ресурсами, таких как NVIDIA Jetson.
- Наблюдение в реальном времени: Эффективный мониторинг видеопотоков для систем безопасности.
- Робототехника и дроны: Обеспечение быстрого и точного восприятия для автономной навигации.
- Мобильные приложения: Интеграция мощного обнаружения объектов в мобильные приложения без истощения ресурсов.
Прямое сравнение производительности: точность, скорость и эффективность
При сравнении показателей производительности становятся очевидными компромиссы между YOLOv9 и RTDETRv2. YOLOv9 последовательно демонстрирует лучший баланс производительности и эффективности.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Как показывает таблица, самая большая модель YOLOv9, YOLOv9e, достигает более высокого mAP в 55,6% по сравнению с 54,3% у RTDETRv2-x, при этом используя значительно меньше FLOPs (189,0B против 259B). С другой стороны, меньшие модели, такие как YOLOv9s, предлагают сопоставимую точность с RTDETRv2-s (46,8% против 48,1%), но с гораздо меньшим количеством параметров и FLOPs, что делает их намного быстрее и более подходящими для периферийных AI устройств.
Заключение: какая модель подходит именно вам?
Хотя RTDETRv2 обеспечивает высокую точность благодаря своей архитектуре на основе трансформеров, это достигается за счет высоких вычислительных и требований к памяти, что делает его нишевым выбором для специализированных приложений с большими ресурсами.
Для подавляющего большинства разработчиков и исследователей YOLOv9 — превосходный выбор. Он не только обеспечивает современную точность, но и делает это с замечательной эффективностью. Его более низкие требования к ресурсам, более высокая скорость логического вывода и масштабируемость делают его очень практичным для развертывания в реальных условиях. Самое главное, надежная экосистема Ultralytics обеспечивает беспрецедентное удобство использования благодаря простым в использовании инструментам, всесторонней поддержке и эффективным рабочим процессам, которые ускоряют разработку от концепции до производства.
Изучите другие современные модели
Если вы изучаете различные варианты, рассмотрите другие модели в экосистеме Ultralytics:
- Ultralytics YOLOv8: Очень популярная и универсальная модель, известная своей отличной производительностью в широком спектре задач компьютерного зрения, включая обнаружение, сегментацию, оценку позы и отслеживание. См. сравнение YOLOv8 и RT-DETR.
- Ultralytics YOLO11: Новейшая модель от Ultralytics, еще больше расширяющая границы скорости и эффективности. Она разработана для передовой производительности в приложениях реального времени. Ознакомьтесь со сравнением YOLO11 и YOLOv9.