YOLOv9 vs. RT-DETR v2: техническое сравнение для обнаружения объектов
Выбор оптимальной модели обнаружения объектов — критически важное решение для любого проекта компьютерного зрения, требующее тщательного баланса между точностью, скоростью вывода и вычислительными затратами. На этой странице представлено подробное техническое сравнение двух мощных моделей: YOLOv9, современной модели, известной своей эффективностью и точностью, и RTDETRv2, модели на основе transformer, получившей высокую оценку за свою высокую точность. Этот анализ поможет вам определить, какая модель лучше всего соответствует конкретным требованиям вашего проекта.
YOLOv9: Продвижение обнаружения в реальном времени с эффективностью
YOLOv9 — это значительный шаг вперед в серии YOLO, представляющий новаторские методы для повышения производительности и эффективности. Разработанный ведущими исследователями, он решает ключевые проблемы в глубоком обучении для достижения превосходных результатов.
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 21.02.2024
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Документация: https://docs.ultralytics.com/models/yolov9/
Архитектура и ключевые особенности
Архитектура YOLOv9 представляет два основных нововведения: Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI предназначен для борьбы с проблемой потери информации при передаче данных через глубокие нейронные сети, гарантируя, что модель получает надежную информацию о градиенте для точных обновлений. GELAN — это новая сетевая архитектура, которая оптимизирует использование параметров и вычислительную эффективность, позволяя YOLOv9 достигать высокой точности без огромного количества параметров.
При интеграции в экосистему Ultralytics мощность YOLOv9 возрастает. Разработчики получают оптимизированный пользовательский интерфейс с простым Python API и обширной документацией. Эта экосистема обеспечивает эффективное обучение с легкодоступными предварительно обученными весами и выигрывает от активной разработки и сильной поддержки сообщества.
Сильные и слабые стороны
Преимущества:
- Современная точность: Достигает лидирующих показателей mAP на таких бенчмарках, как COCO, часто превосходя модели с большим количеством параметров.
- Высокая эффективность: GELAN и PGI обеспечивают исключительную производительность с меньшим количеством параметров и FLOPs, что делает их идеальными для развертывания на периферийных AI устройствах.
- Сохранение информации: PGI эффективно смягчает потерю информации, что приводит к более надежному обучению и лучшему представлению признаков.
- Хорошо поддерживаемая экосистема: Преимущества активной разработки, всесторонних ресурсов, интеграции Ultralytics HUB для MLOps и сильной поддержки сообщества.
- Меньшие требования к памяти: По сравнению с моделями на основе трансформеров, YOLOv9 обычно требует значительно меньше памяти во время обучения и инференса, что делает его более доступным для пользователей с ограниченным оборудованием.
- Универсальность: Хотя в оригинальной статье основное внимание уделяется обнаружению объектов, архитектура поддерживает несколько задач, таких как сегментация экземпляров, что соответствует многозадачным возможностям других моделей Ultralytics, таких как YOLOv8.
Слабые стороны:
- Новизна: Будучи более новой моделью, количество примеров развертывания, разработанных сообществом, может быть меньше, чем для давно зарекомендовавших себя моделей, хотя ее интеграция в Ultralytics быстро ускоряет внедрение.
Идеальные варианты использования
YOLOv9 идеально подходит для приложений, где первостепенное значение имеют как высокая точность, так и эффективность в реальном времени:
- Автономные системы: Идеально подходит для автономных транспортных средств и дронов, которым требуется быстрое и точное восприятие.
- Передовая безопасность: Обеспечивает работу сложных систем безопасности с обнаружением угроз в реальном времени.
- Промышленная автоматизация: Отлично подходит для контроля качества в производстве и сложных роботизированных задач.
- Edge Computing: Его эффективная конструкция делает его подходящим для развертывания в средах с ограниченными ресурсами.
RTDETRv2: Обнаружение в реальном времени с акцентом на точность
RTDETRv2 (Real-Time Detection Transformer v2) — это модель, разработанная для приложений, требующих высокой точности обнаружения объектов в реальном времени, использующая возможности архитектур transformer.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация: Baidu
- Дата: 17.04.2023 (Оригинальный RT-DETR), 24.07.2024 (статья RTDETRv2)
- Arxiv: https://arxiv.org/abs/2304.08069 (Original), https://arxiv.org/abs/2407.17140 (v2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Документация: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Архитектура и ключевые особенности
Архитектура RTDETRv2 построена на основе Vision Transformers (ViT), что позволяет ей захватывать глобальный контекст внутри изображений с помощью механизмов самовнимания. Этот подход, основанный на трансформерах, обеспечивает превосходное извлечение признаков по сравнению с традиционными сверточными нейронными сетями (CNN), что приводит к более высокой точности, особенно в сложных сценах со сложными взаимосвязями объектов.
Сильные и слабые стороны
Преимущества:
- Высокая точность: Архитектура transformer обеспечивает отличную точность обнаружения объектов, что делает ее отличным выбором для задач, ориентированных на точность.
- Надежное извлечение признаков: Эффективно захватывает глобальный контекст и зависимости на большом расстоянии в изображениях.
- Возможность работы в реальном времени: Достигает конкурентоспособной скорости вывода, подходящей для приложений реального времени, при условии наличия адекватного оборудования.
Слабые стороны:
- Более высокий спрос на ресурсы: Модели RTDETRv2 имеют значительно большее количество параметров и FLOPs, что требует большей вычислительной мощности и памяти.
- Более медленный инференс: Как правило, медленнее, чем YOLOv9, особенно на оборудовании без GPU или менее мощных устройствах.
- Высокое потребление памяти: Трансформерные архитектуры, как известно, интенсивно используют память, особенно во время обучения, что часто требует большого объема памяти CUDA и может быть барьером для многих пользователей.
- Менее универсальна: В основном ориентирована на обнаружение объектов, ей не хватает встроенной многозадачности моделей в экосистеме Ultralytics.
- Сложность: Может быть сложнее в обучении, настройке и развертывании по сравнению с оптимизированными и удобными для пользователя моделями Ultralytics YOLO.
Идеальные варианты использования
RTDETRv2 лучше всего подходит для сценариев, где достижение максимально возможной точности является основной целью, а вычислительные ресурсы не являются основным ограничением:
- Медицинская визуализация: Анализ сложных медицинских сканов, где точность имеет решающее значение для диагностики.
- Спутниковые снимки: Обнаружение небольших или скрытых объектов на спутниковых снимках высокого разрешения.
- Научные исследования: Используется в исследовательских средах, где производительность модели является приоритетом по сравнению с эффективностью развертывания.
Прямое сравнение производительности: YOLOv9 против RTDETRv2
В следующей таблице представлено подробное сравнение производительности различных размеров моделей YOLOv9 и RTDETRv2 на наборе данных COCO val.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Из данных вытекает несколько ключевых выводов:
- Пиковая точность: YOLOv9-E достигает самого высокого mAP, равного 55,6%, превосходя все остальные модели в сравнении.
- Эффективность: При сравнении моделей с аналогичной точностью, YOLOv9 последовательно демонстрирует превосходную эффективность. Например, YOLOv9-C (53.0 mAP) работает быстрее и требует значительно меньше параметров (25.3M против 42M) и FLOPs (102.1B против 136B), чем RTDETRv2-L (53.4 mAP).
- Скорость: Модели YOLOv9 обычно обеспечивают более высокую скорость инференса на GPU с TensorRT. Модель YOLOv9-C заметно быстрее, чем сопоставимая RTDETRv2-L.
Заключение: какую модель вам следует выбрать?
Для подавляющего большинства реальных приложений YOLOv9 является рекомендуемым выбором. Он предлагает превосходное сочетание точности, скорости и эффективности. Его инновационная архитектура обеспечивает современную производительность, учитывая при этом вычислительные ресурсы. Ключевыми преимуществами выбора YOLOv9, особенно в рамках Ultralytics, являются простота использования, более низкие требования к памяти, универсальность для различных задач и надежная поддержка хорошо поддерживаемой экосистемы.
RTDETRv2 — это мощная модель для нишевых приложений, где точность является абсолютным приоритетом и более высокие вычислительные затраты и затраты памяти приемлемы. Однако его сложность и ресурсоемкий характер делают его менее практичным для широкого развертывания по сравнению с высокооптимизированным и удобным для пользователя YOLOv9.
Другие модели для рассмотрения
Если вы изучаете различные варианты, вас также могут заинтересовать другие современные модели, доступные в экосистеме Ultralytics:
- Ultralytics YOLO11: Новейшая и самая продвинутая модель от Ultralytics, еще больше расширяющая границы скорости и точности.
- Ultralytics YOLOv8: Зрелая и очень популярная модель, известная своим исключительным балансом производительности и универсальности в широком спектре задач компьютерного зрения.
- YOLOv5: Промышленный стандарт, известный своей надежностью, скоростью и простотой развертывания, особенно на периферийных устройствах.