RTDETRv2 против YOLO: техническое сравнение для обнаружения объектов
Выбор оптимальной модели обнаружения объектов имеет решающее значение для успешной работы приложений компьютерного зрения. Ultralytics предлагает широкий выбор моделей, и на этой странице представлено подробное техническое сравнение RTDETRv2 и YOLO, двух передовых моделей в области обнаружения объектов. Этот анализ поможет вам принять обоснованное решение, исходя из требований вашего проекта.
RTDETRv2: Высокоточное обнаружение на основе трансформатора
RTDETRv2(Real-Time Detection Transformer v2) - это современная модель обнаружения объектов, разработанная компанией Baidu и известная своей высокой точностью и эффективной работой в режиме реального времени. Представленная 2023-04-17 в статье"DETRs Beat YOLOs on Real-time Object Detection" авторов Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu, RTDETRv2 использует архитектуру Vision Transformer (ViT) для достижения надежного извлечения признаков и глобального понимания контекста.
Архитектура и особенности
RTDETRv2 отличается архитектурой на основе трансформаторов, что позволяет ему улавливать глобальный контекст в изображениях более эффективно, чем традиционные детекторы на основе CNN. Такая архитектура позволяет добиться более высокой точности, особенно в сложных сценах, где понимание широкого контекста имеет решающее значение. Модель реализована на PyTorch и доступна на GitHub.
Производительность
RTDETRv2 демонстрирует впечатляющие показатели производительности, достигая mAPval50-95 на уровне 54,3 для своего самого большого варианта, RTDETRv2-x. Скорость вычислений также конкурентоспособна, что делает его подходящим для приложений реального времени при использовании мощного оборудования.
Сильные и слабые стороны
Сильные стороны:
- Высокая точность: Трансформаторная архитектура обеспечивает превосходную точность обнаружения объектов.
- Возможность работы в режиме реального времени: Обеспечивает высокую скорость вычислений, особенно при использовании ускорения TensorRT .
- Эффективное контекстное обучение: Трансформаторы видения отлично справляются с передачей глобального контекста в образах.
Слабые стороны:
- Больший размер модели: Модели RTDETRv2, особенно большие варианты, имеют значительное количество параметров и FLOP, что требует больше вычислительных ресурсов.
- Требовательность к вычислениям: Несмотря на оптимизацию скорости, эта модель может оказаться не такой легкой, как некоторые другие, для развертывания на устройствах с очень ограниченными ресурсами.
Примеры использования
RTDETRv2 идеально подходит для приложений, для которых важна высокая точность и которые имеют доступ к значительным вычислительным ресурсам:
- Автономные транспортные средства: Для надежного и точного восприятия окружающей среды, необходимого для искусственного интеллекта в самоуправляемых автомобилях.
- Робототехника: Позволяет роботам точно воспринимать объекты и взаимодействовать с ними в сложных условиях, расширяя возможности применения от алгоритмов до автоматизации: Роль ИИ в робототехнике.
- Медицинская визуализация: Для точного обнаружения аномалий на медицинских изображениях, помогающих в диагностике, как показано в статье "ИИ в здравоохранении".
- Детальный анализ изображений: Подходит для анализа изображений с высоким разрешением, таких как использование компьютерного зрения для анализа спутниковых снимков или промышленного контроля.
YOLO: эффективное и быстрое обнаружение объектов
YOLO(DAMO серии YOLO), разработанный компанией Alibaba Group и представленный 2022-11-23 в статье"YOLO: переосмысление масштабируемого и точного обнаружения объектов", авторами которой являются Сянчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илун Хуан, Юань Чжан и Сюйюй Сунь, разработан для обеспечения скорости и эффективности при сохранении конкурентоспособной точности. YOLO ориентирован на производительность в реальном времени и доступен на GitHub.
Архитектура и особенности
В YOLO используется несколько инновационных технологий для повышения эффективности, в том числе нейронная архитектура поиска (NAS), эффективный RepGFPN и ZeroHead. Эти архитектурные решения способствуют повышению скорости и снижению требований к вычислениям, что делает его отличным выбором для приложений реального времени и пограничных развертываний.
Производительность
YOLO превосходит по скорости вычислений, предлагая очень высокую производительность на различных аппаратных платформах. Хотя его точность несколько ниже, чем у RTDETRv2, он обеспечивает оптимальный баланс между скоростью и точностью, особенно для приложений, требующих быстрой обработки.
Сильные и слабые стороны
Сильные стороны:
- Высокая скорость: Оптимизирован для чрезвычайно быстрого вывода, идеально подходит для систем реального времени.
- Эффективность: Меньшие размеры моделей и низкие требования к вычислениям делают их пригодными для использования в краевых устройствах.
- Масштабируемость: Разработана для масштабирования и адаптации к различным сценариям развертывания.
Слабые стороны:
- Точность: Несмотря на свою точность, он может не достичь таких же высоких показателей mAP, как RTDETRv2, особенно в сценариях, требующих высокой точности.
- Контекстное понимание: Будучи ориентированной на CNN, она может не так эффективно улавливать глобальный контекст, как модели на основе трансформаторов в очень сложных сценах.
Примеры использования
YOLO хорошо подходит для приложений, где скорость и эффективность имеют первостепенное значение, и где необходимо развертывание на менее мощном оборудовании:
- Видеонаблюдение в реальном времени: Идеально подходит для таких приложений, как системы охранной сигнализации, требующие немедленного обнаружения.
- Пограничные вычисления: Идеально подходит для развертывания на пограничных устройствах, таких как Raspberry Pi и NVIDIA Jetson.
- Приложения для быстрой обработки данных: Подходит для робототехники(ROS Quickstart) и других приложений, требующих быстрого принятия решений.
- Мобильные развертывания: Достаточно эффективно для мобильных приложений и сред с ограниченными ресурсами.
Сравнительная таблица моделей
Модель | размер(пиксели) | mAPval 50-95 |
CPU ONNX (мс) |
SpeedT4TensorRT10 (мс) |
params(M) | FLOPs(B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Заключение
RTDETRv2 и YOLO - мощные модели обнаружения объектов, каждая из которых имеет свои преимущества. RTDETRv2 выигрывает в тех случаях, когда приоритетом является максимальная точность, а вычислительные ресурсы доступны. YOLO - предпочтительный выбор для приложений, требующих обработки в реальном времени и эффективного развертывания, особенно на пограничных устройствах.
Для пользователей, рассматривающих другие варианты, Ultralytics предлагает широкий выбор моделей, включая:
- YOLO11: Новейшая серия YOLO , балансирующая между скоростью и точностью. Узнать больше о YOLO11.
- YOLOv8 и YOLOv9: предыдущие поколения, предлагающие различные компромиссы между скоростью и точностью, подробно описанные в статьеUltralytics YOLOv8 Turns One: A Year of Breakthroughs and Innovations" и YOLOv9.
- YOLO: модели, разработанные на основе нейронной архитектуры, обеспечивают оптимальную производительность. Смотрите YOLO от Deci AI - современная модель обнаружения объектов.
- FastSAM и MobileSAM: сегментация экземпляров в реальном времени. FastSAM и MobileSAM.
Выбор между RTDETRv2, YOLO или другими моделями Ultralytics должен основываться на конкретных потребностях вашего проекта по компьютерному зрению, тщательно учитывая баланс между точностью, скоростью и доступными ресурсами. Более подробную информацию и руководства по применению можно найти в документацииUltralytics и в репозиторииUltralytics на GitHub.