YOLO11 vs RTDETRv2: Техническое сравнение
Выбор подходящей модели обнаружения объектов предполагает компромисс между точностью, скоростью и простотой использования. На этой странице представлено подробное техническое сравнение Ultralytics YOLO11, современной системы обнаружения объектов в реальном времени, и RTDETRv2, высокоточной модели, основанной на архитектуре Transformer. Хотя обе модели представляют собой значительные достижения, YOLO11 предлагает превосходный баланс производительности, универсальности и удобства для разработчиков, что делает ее идеальным выбором для широкого спектра приложений, от исследований до производства.
Ultralytics YOLO11: Передовой уровень обнаружения в реальном времени
Ultralytics YOLO11 – это последняя эволюция в известной серии YOLO, разработанная Ultralytics, чтобы расширить границы обнаружения объектов в реальном времени и других задач компьютерного зрения. Она опирается на успех своих предшественников, таких как YOLOv8, с архитектурными усовершенствованиями, которые повышают как точность, так и эффективность.
- Авторы: Гленн Джохер, Цзин Цю
- Организация: Ultralytics
- Дата: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Документация: https://docs.ultralytics.com/models/yolo11/
Архитектура и ключевые особенности
В YOLO11 используется высокооптимизированная одноэтапная безанкерная архитектура. Эта конструкция сводит к минимуму вычислительные издержки, максимально увеличивая возможности извлечения признаков, что приводит к исключительной скорости и точности. Ключевым преимуществом YOLO11 является его интеграция в комплексную экосистему Ultralytics. Это обеспечивает оптимизированный пользовательский интерфейс с простым Python API и CLI, обширной документацией и активной поддержкой сообщества.
Кроме того, YOLO11 невероятно универсальна, поддерживая несколько задач в рамках единой унифицированной платформы, включая обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированные ограничивающие рамки (OBB). Эта многозадачность является значительным преимуществом перед более специализированными моделями.
Сильные стороны
- Баланс производительности: Обеспечивает выдающийся компромисс между скоростью и точностью, что делает ее подходящей для различных реальных сценариев.
- Простота использования: Отличается удобным API, исчерпывающей документацией и множеством учебных пособий, что обеспечивает быстрое прототипирование и развертывание.
- Хорошо поддерживаемая экосистема: Преимущества непрерывной разработки, частых обновлений и бесшовной интеграции с такими инструментами, как Ultralytics HUB, для MLOps.
- Эффективность обучения: Предлагает эффективные и быстрые процессы обучения с легкодоступными предварительно обученными весами. Обычно требует меньше памяти CUDA и сходится быстрее, чем модели на основе трансформеров.
- Deployment Flexibility (Гибкость развертывания): Оптимизировано для различного оборудования, от периферийных устройств, таких как NVIDIA Jetson, до мощных облачных серверов.
Слабые стороны
- Как одностадийный детектор, он может столкнуться с проблемами при работе с очень плотными или небольшими кластерами объектов по сравнению с некоторыми специализированными двухстадийными детекторами, хотя он по-прежнему исключительно хорошо работает в большинстве случаев.
- Самые крупные модели, такие как YOLO11x, требуют значительных вычислительных ресурсов для достижения максимальной точности.
Идеальные варианты использования
Сочетание скорости, точности и универсальности YOLO11 делает ее идеальной для:
- Промышленная автоматизация: Для контроля качества и обнаружения дефектов на производственных линиях.
- Умные города: Поддержка таких приложений, как управление дорожным движением и мониторинг общественной безопасности.
- Аналитика розничной торговли: Обеспечение управления запасами и анализа поведения клиентов.
- Здравоохранение: Помощь в анализе медицинских изображений, например, в обнаружении опухолей.
RTDETRv2: Высокоточное обнаружение на основе Transformer
RTDETRv2, разработанный исследователями из Baidu, представляет собой детектор объектов реального времени, который использует Vision Transformer (ViT) для достижения высокой точности. Он представляет собой альтернативный архитектурный подход к семейству YOLO на основе CNN.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация: Baidu
- Дата: 17.04.2023
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Документация: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Архитектура и ключевые особенности
RTDETRv2 использует гибридную архитектуру, сочетающую в себе CNN backbone для извлечения признаков с кодировщиком-декодировщиком на основе transformer. Механизм самовнимания transformer позволяет модели захватывать глобальные взаимосвязи между объектами на изображении, что может повысить точность в сложных сценах с окклюзиями или плотными объектами.
Сильные стороны
- Высокая точность: Архитектура transformer позволяет RTDETRv2 достигать конкурентоспособных показателей mAP, особенно на сложных академических бенчмарках.
- Понимание глобального контекста: Отлично справляется с пониманием взаимосвязей между удаленными объектами на изображении.
Слабые стороны
- Вычислительные затраты: Модели на основе Transformer, такие как RTDETRv2, обычно имеют большее количество параметров и FLOPs, что требует более значительных вычислительных ресурсов (память GPU и вычислительная мощность), чем YOLO11.
- Сложность обучения: Обучение часто происходит медленнее и является более ресурсоемким, требуя гораздо больше памяти CUDA и более длительного времени обучения по сравнению с YOLO11.
- Более медленный инференс: Будучи оптимизированным для реального времени, он, как правило, медленнее, чем сопоставимые модели YOLO11, особенно на CPU и периферийных устройствах с ограниченными ресурсами.
- Ограниченная экосистема: Отсутствует обширная, унифицированная и удобная для пользователя экосистема, предоставляемая Ultralytics. Документация, учебные пособия и поддержка сообщества менее полные.
- Недостаток универсальности: В основном предназначенный для обнаружения объектов, он не имеет встроенной поддержки сегментации, классификации и оценки позы, что делает YOLO11 более универсальным инструментом.
Идеальные варианты использования
RTDETRv2 хорошо подходит для:
- Академические исследования: Когда достижение максимально возможного mAP на конкретном бенчмарке является основной целью, и вычислительные ресурсы не являются серьезным ограничением.
- Специализированные приложения: Сценарии с мощным, специализированным оборудованием, где способность модели обрабатывать сложные взаимосвязи объектов имеет решающее значение.
Анализ производительности: YOLO11 против RTDETRv2
При сравнении производительности становится ясно, что Ultralytics YOLO11 предлагает более практичное и эффективное решение для большинства реальных приложений. Таблица ниже показывает, что модели YOLO11 стабильно достигают лучшего баланса между скоростью и точностью.
Например, YOLO11m достигает более высокого mAP (51.5), чем RTDETRv2-s (48.1), при этом работает быстрее на T4 GPU (4.7 мс против 5.03 мс). В более высоком диапазоне YOLO11x не только превосходит RTDETRv2-x по точности (54.7 против 54.3 mAP), но и значительно быстрее (11.3 мс против 15.03 мс) с меньшим количеством параметров и FLOPs. Важно отметить, что модели YOLO11 хорошо оптимизированы для CPU-инференса, области, в которой модели на основе трансформеров часто испытывают трудности.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Заключение: почему YOLO11 является предпочтительным выбором
Хотя RTDETRv2 является сильной академической моделью, демонстрирующей возможности трансформеров для обнаружения объектов, Ultralytics YOLO11 выделяется как превосходный выбор для разработчиков и исследователей, которым нужно практичное, высокопроизводительное и универсальное решение.
Ключевыми преимуществами YOLO11 являются исключительный баланс скорости и точности, замечательная эффективность как на CPU, так и на GPU, а также многозадачность. Самое главное, она поддерживается зрелой, хорошо документированной и удобной экосистемой, которая значительно упрощает весь жизненный цикл MLOps, от обучения и валидации до развертывания и мониторинга. Для проектов, требующих производительности в реальном времени, эффективности использования ресурсов и простоты разработки, YOLO11 — явный победитель.
Изучите другие модели
Если вам интересно, как YOLO11 и RT-DETRv2 соотносятся с другими ведущими моделями, ознакомьтесь с этими дополнительными сравнениями:
- YOLO11 против YOLOv8
- YOLO11 против YOLOv10
- RT-DETR против YOLOv8
- YOLOv5 против RT-DETR
- Изучите все сравнения моделей