RTDETRv2 против YOLOv7: подробное сравнение моделей
Выбор подходящей модели обнаружения объектов — критически важное решение для любого проекта в области компьютерного зрения. На этой странице представлено углубленное техническое сравнение RTDETRv2, модели на основе трансформера, и YOLOv7, высокоэффективной модели на основе CNN. Мы рассмотрим их архитектурные различия, показатели производительности и идеальные варианты использования, чтобы помочь вам сделать осознанный выбор.
RTDETRv2: Детектор-трансформер в реальном времени v2
RT-DETRv2 (Детектор-трансформер реального времени v2) — это современный детектор объектов от Baidu, который использует архитектуру Transformer для достижения высокой точности при сохранении производительности в реальном времени. Он основан на принципах DETR (DEtection TRansformer) и предлагает сквозной конвейер обнаружения.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация: Baidu
- Дата: 17.04.2023
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Документация: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Архитектура и ключевые особенности
RTDETRv2 использует гибридную архитектуру, которая сочетает в себе CNN backbone для эффективного извлечения признаков с трансформером encoder-decoder для обработки этих признаков. Эта конструкция позволяет модели захватывать глобальный контекст внутри изображения, что является ключевым преимуществом механизма внимания в трансформерах. Важной особенностью является его конструкция без привязок, которая упрощает процесс обнаружения, напрямую предсказывая местоположения объектов, не полагаясь на предопределенные ограничивающие рамки. Однако этот подход на основе трансформеров имеет компромисс: он обычно требует значительно больше памяти CUDA и более длительного времени обучения по сравнению с чистыми CNN моделями, такими как YOLOv7.
Сильные и слабые стороны
Преимущества:
- Высокая точность: Архитектура transformer отлично справляется с пониманием сложных сцен и взаимосвязей между объектами, что часто приводит к превосходной средней точности (mAP).
- Надёжное представление признаков: Эффективно захватывает как локальные, так и глобальные признаки, что делает его устойчивым в загроможденных средах.
- Сквозной конвейер: Упрощает процесс обнаружения, устраняя необходимость в компонентах, разработанных вручную, таких как Non-Maximum Suppression (NMS) в некоторых конфигурациях.
Слабые стороны:
- Высокая вычислительная стоимость: Transformer-модели, как известно, требуют больших ресурсов, значительного объема памяти GPU и более длительных циклов обучения.
- Сложность: Внутренняя работа декодера-трансформера может быть менее интуитивной, чем традиционные детекторы CNN.
Идеальные варианты использования
RTDETRv2 лучше всего подходит для приложений, где достижение максимально возможной точности является основной целью, и вычислительные ресурсы легко доступны.
- Автономные транспортные средства: Для надежного восприятия в ИИ в самоуправляемых автомобилях.
- Медицинская визуализация: Для точного обнаружения аномалий в ИИ в здравоохранении.
- Спутниковые снимки высокого разрешения: Для детального анализа, где контекст имеет решающее значение, как показано в использовании компьютерного зрения для анализа спутниковых снимков.
YOLOv7: Эффективное и точное обнаружение объектов
YOLOv7, разработанный Чен-Яо Вангом и др., стал важной вехой в серии YOLO, установив новый стандарт для детекторов объектов в реальном времени за счет оптимизации эффективности обучения и скорости вывода.
- Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 06.07.2022
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Документация: https://docs.ultralytics.com/models/yolov7/
Архитектура и ключевые особенности
YOLOv7 построен на чистой CNN-архитектуре, представляя несколько ключевых инноваций для максимизации производительности. Он использует Extended Efficient Layer Aggregation Network (E-ELAN) в своей backbone-части для повышения способности сети к обучению без разрушения исходного градиентного пути. Важным вкладом стала концепция "trainable bag-of-freebies", которая применяет передовые методы оптимизации во время обучения для повышения точности без увеличения затрат на inference. В отличие от RTDETRv2, YOLOv7 является детектором на основе anchor-ов, который может быть очень эффективным, но может потребовать тщательной настройки конфигураций anchor-ов для пользовательских наборов данных.
Сильные и слабые стороны
Преимущества:
- Превосходный баланс скорости и точности: Предлагает фантастический компромисс между скоростью инференса и mAP, что делает его идеальным для инференса в реальном времени.
- Эффективность обучения: Подход "bag-of-freebies" повышает точность без добавления вычислительных затрат во время развертывания.
- Проверенная и зарекомендовавшая себя: Как популярная модель, она имеет широкую базу пользователей и множество доступных ресурсов.
Слабые стороны:
- Ограниченная универсальность: В первую очередь предназначен для обнаружения объектов. Расширение его на другие задачи, такие как сегментация или оценка позы, требует отдельных реализаций, в отличие от интегрированных моделей, таких как Ultralytics YOLOv8.
- Менее современная экосистема: Будучи мощной, ей не хватает оптимизированной, удобной для пользователя экосистемы и активной поддержки новых моделей от Ultralytics.
Идеальные варианты использования
YOLOv7 превосходно подходит для сценариев, требующих высокоскоростного обнаружения на оборудовании GPU без ущерба для точности.
- Робототехника: Для быстрого восприятия и взаимодействия в робототехнических системах.
- Безопасность и наблюдение: Эффективная обработка видеопотоков для таких приложений, как системы предотвращения краж.
- Промышленная автоматизация: Для высокоскоростных визуальных проверок на производственных линиях, что способствует повышению эффективности производства.
Прямое сравнение производительности: RTDETRv2 против YOLOv7
В таблице ниже представлено прямое сравнение метрик производительности для различных вариантов RTDETRv2 и YOLOv7 на наборе данных COCO.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Из данных видно, что RTDETRv2-x достигает наивысшего mAP, демонстрируя потенциал точности своей transformer-архитектуры. Однако меньшая модель RTDETRv2-s исключительно быстрая и эффективная с точки зрения параметров и FLOPs. Модели YOLOv7 представляют собой прочную золотую середину, при этом YOLOv7l предлагает убедительный баланс скорости и точности, который конкурирует с RTDETRv2-m.
Почему стоит выбрать модели Ultralytics YOLO?
Несмотря на то, что RTDETRv2 и YOLOv7 являются мощными моделями, новые модели Ultralytics YOLO, такие как YOLOv8 и новейшая Ultralytics YOLO11, предлагают более целостное и выгодное решение для большинства разработчиков и исследователей.
- Простота использования: Модели Ultralytics разработаны с простым Python API и обширной документацией, что упрощает обучение, проверку и развертывание моделей.
- Развитая экосистема: Воспользуйтесь преимуществами активной разработки, сильного сообщества открытого исходного кода и бесшовной интеграции с такими инструментами, как Ultralytics HUB для сквозного MLOps.
- Эффективность памяти и обучения: Модели Ultralytics YOLO высоко оптимизированы для использования памяти, часто требуя значительно меньше памяти CUDA для обучения, чем модели на основе трансформеров, такие как RTDETRv2. Это делает их более доступными и быстрыми в обучении.
- Универсальность: Такие модели, как YOLOv8 и YOLO11, — это многозадачные фреймворки, которые «из коробки» поддерживают обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированное обнаружение объектов (OBB).
- Баланс производительности: Модели Ultralytics стабильно обеспечивают современный компромисс между скоростью и точностью, что делает их подходящими для широкого спектра применений, от периферийных устройств до облачных серверов.
Заключение
Выбор между RTDETRv2 и YOLOv7 во многом зависит от приоритетов проекта. RTDETRv2 — превосходный вариант, когда максимальная точность является обязательным условием и доступны достаточные вычислительные ресурсы, особенно для сложных сцен, которым выгодно понимание глобального контекста. YOLOv7 остается надежным выбором для приложений, требующих проверенного баланса скорости в реальном времени и высокой точности на оборудовании с GPU.
Однако, для разработчиков, ищущих современный, универсальный и удобный фреймворк, модели Ultralytics, такие как YOLOv8 и YOLO11, часто являются наиболее привлекательным выбором. Они предлагают отличный баланс производительности, превосходную простоту использования, более низкие требования к памяти и всестороннюю экосистему, которая поддерживает множество задач компьютерного зрения, оптимизируя путь от исследований до производства.
Сравнения с другими моделями
Для получения дополнительной информации изучите эти сравнения с другими современными моделями:
- RT-DETR против YOLOv8
- YOLOv7 против YOLOv8
- YOLOv7 против YOLOX
- YOLOv10 vs RT-DETR
- YOLO11 против RT-DETR