Перейти к содержанию

RTDETRv2 против YOLO11: техническое сравнение

Выбор подходящей модели обнаружения объектов — это критически важное решение, которое напрямую влияет на производительность, эффективность и масштабируемость любого проекта в области компьютерного зрения. На этой странице представлено подробное техническое сравнение двух мощных архитектур: RTDETRv2, модели на основе Transformer от Baidu, и Ultralytics YOLO11, новейшей современной модели в известной серии YOLO. Мы углубимся в их архитектурные различия, показатели производительности и идеальные варианты использования, чтобы помочь вам определить, какая модель лучше всего соответствует вашим потребностям.

RTDETRv2: Детектор-трансформер в реальном времени v2

RT-DETRv2 (Детектор-трансформер реального времени v2) — это детектор объектов, разработанный исследователями Baidu. Он использует архитектуру Vision Transformer (ViT) для достижения высокой точности, особенно в сложных сценах. Он представляет собой значительный шаг в обеспечении жизнеспособности моделей на основе Transformer для приложений реального времени.

Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu
Дата: 2023-04-17 (Initial RT-DETR), 2024-07-24 (RTDETRv2 improvements)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Документация: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Архитектура и ключевые особенности

RTDETRv2 использует гибридную конструкцию, сочетающую в себе традиционный CNN backbone для эффективного извлечения признаков с Transformer-based encoder-decoder. Основная инновация заключается в использовании механизмов самовнимания, которые позволяют модели захватывать глобальные взаимосвязи между различными частями изображения. Это глобальное понимание контекста помогает повысить точность обнаружения, особенно для окклюдированных или плотно упакованных объектов. Как детектор без привязок, он упрощает конвейер обнаружения, устраняя необходимость в предопределенных ограничивающих рамках.

Сильные стороны

  • Высокая точность: Архитектура Transformer позволяет RTDETRv2 достигать отличных показателей средней точности (mAP), часто превосходя на сложных академических бенчмарках.
  • Понимание глобального контекста: Его способность обрабатывать весь контекст изображения приводит к надежной работе в сценах со сложными взаимодействиями объектов.
  • Реальное время на GPU: При оптимизации с помощью таких инструментов, как NVIDIA TensorRT, RTDETRv2 может достигать скорости реального времени на высокопроизводительных GPU.

Слабые стороны

  • Высокая вычислительная стоимость: Transformer-модели, как известно, требуют больших ресурсов. RTDETRv2 имеет большое количество параметров и FLOPs, что требует мощных GPU как для обучения, так и для инференса.
  • Интенсивное использование памяти: Обучение RTDETRv2 требует значительно больше памяти CUDA по сравнению с моделями на основе CNN, такими как YOLO11, что делает его недоступным для пользователей с ограниченным оборудованием.
  • Более медленное обучение: Сложность архитектуры Transformer приводит к увеличению времени обучения.
  • Ограниченная экосистема: Несмотря на значительный вклад в исследования, ему не хватает всеобъемлющей, удобной для пользователя экосистемы, обширной документации и активной поддержки сообщества, предоставляемой Ultralytics.

Идеальные варианты использования

RTDETRv2 лучше всего подходит для приложений, где достижение максимально возможной точности является основной целью, и вычислительные ресурсы не являются ограничением.

  • Автономное вождение: Для систем восприятия в автомобилях с автоматическим управлением, где точность имеет первостепенное значение.
  • Продвинутая робототехника: Позволяет роботам перемещаться и взаимодействовать со сложными, динамическими средами, что является ключевым аспектом роли ИИ в робототехнике.
  • Анализ спутниковых изображений: Анализ изображений с высоким разрешением, где понимание глобального контекста имеет решающее значение для точного обнаружения.

Узнайте больше о RTDETR

Ultralytics YOLO11: Вершина скорости и универсальности

Ultralytics YOLO11 — это последняя эволюция в самой популярной в мире серии обнаружения объектов. Разработанный Гленном Джохером и Цзин Цю в Ultralytics, он опирается на наследие своих предшественников, таких как YOLOv8, чтобы обеспечить беспрецедентное сочетание скорости, точности и простоты использования.

Авторы: Гленн Джокер, Цзин Цю
Организация: Ultralytics
Дата: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Документация: https://docs.ultralytics.com/models/yolo11/

Архитектура и ключевые особенности

YOLO11 имеет высокооптимизированную одноэтапную архитектуру CNN. Его конструкция ориентирована на эффективность, с оптимизированной сетью, которая уменьшает количество параметров и вычислительную нагрузку без ущерба для точности. Это делает YOLO11 исключительно быстрым и подходящим для широкого спектра оборудования, от периферийных устройств с ограниченными ресурсами до мощных облачных серверов.

Истинная сила YOLO11 заключается в ее универсальности и надежной экосистеме, в которой она существует. Это многозадачная модель, способная выполнять обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение ориентированных ограничивающих рамок (OBB) в рамках единой унифицированной структуры.

Сильные стороны

  • Исключительный баланс производительности: YOLO11 предлагает современный компромисс между скоростью и точностью, что делает его очень практичным для реальных приложений.
  • Простота использования: Благодаря простому Python API и CLI, обширной документации и бесчисленным руководствам, начать работу с YOLO11 невероятно просто.
  • Хорошо поддерживаемая экосистема: YOLO11 поддерживается активной разработкой Ultralytics, мощной поддержкой сообщества и бесшовной интеграцией с такими инструментами, как Ultralytics HUB, для комплексного MLOps.
  • Эффективность обучения и памяти: YOLO11 обучается значительно быстрее и требует гораздо меньше памяти, чем модели на основе трансформеров, такие как RTDETRv2, что делает его доступным для более широкой аудитории разработчиков и исследователей.
  • Универсальность: Его способность обрабатывать несколько задач компьютерного зрения в одной модели предоставляет комплексное решение, которое не могут предложить конкуренты, такие как RTDETRv2, ориентированный исключительно на обнаружение.
  • Гибкость развертывания: YOLO11 оптимизирована для экспорта в различные форматы, такие как ONNX и TensorRT, что обеспечивает плавное развертывание на платформах CPU, GPU и периферийных платформах.

Слабые стороны

  • Несмотря на высокую точность, самые большие модели YOLO11 могут незначительно уступать самым большим моделям RTDETRv2 по mAP на определенных академических тестах, хотя это часто достигается за счет значительных затрат скорости и ресурсов.

Идеальные варианты использования

YOLO11 отлично подходит практически для любого приложения, требующего быстрой, точной и надежной модели машинного зрения.

Узнайте больше о YOLO11

Прямое сравнение производительности: точность и скорость

При сравнении производительности становится ясно, что обе модели обладают большими возможностями, но они служат разным приоритетам. RTDETRv2 стремится к максимальной точности, но это достигается за счет более высокой задержки и требований к ресурсам. В отличие от этого, Ultralytics YOLO11 разработан для оптимального баланса.

В таблице ниже показано, что, хотя RTDETRv2-x достигает конкурентоспособного mAP, модель YOLO11x превосходит ее, имея меньше параметров и FLOPs. Что еще более важно, модели YOLO11 демонстрируют значительно более высокую скорость логического вывода, особенно на CPU, и значительно быстрее на GPU для всех размеров моделей. Например, YOLO11l соответствует точности RTDETRv2-l, но более чем в 1,5 раза быстрее на GPU T4. Эта эффективность делает YOLO11 гораздо более практичным выбором для производственных сред.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9

Обучение, удобство использования и экосистема

Помимо производительности, опыт разработчика является решающим фактором. Обучение такой модели, как RTDETRv2, может быть сложной и ресурсоемкой задачей, часто требующей глубоких знаний и мощного оборудования. Ее экосистема в основном сосредоточена вокруг ее репозитория GitHub, который, хотя и ценен для исследований, не имеет всесторонней поддержки полноценной платформы.

В резком контрасте, Ultralytics YOLO11 предлагает исключительно оптимизированный и доступный опыт. Процесс обучения эффективен, хорошо документирован и требует значительно меньше памяти, открывая двери для пользователей со скромным оборудованием. Экосистема Ultralytics предоставляет комплексное решение, от простой настройки и обучения до проверки, развертывания и управления MLOps с помощью Ultralytics HUB. Этот целостный подход ускоряет циклы разработки и снижает барьер для входа при создании мощных решений на основе искусственного интеллекта.

Заключение: какую модель вам следует выбрать?

RTDETRv2 — это впечатляющее академическое достижение, демонстрирующее потенциал трансформеров для высокоточного обнаружения объектов. Это подходящий выбор для исследовательских проектов, где вычислительные затраты вторичны по отношению к достижению максимально возможного mAP на конкретных сложных наборах данных.

Однако, для подавляющего большинства реальных приложений Ultralytics YOLO11 является явным победителем. Он обеспечивает превосходное сочетание скорости, точности и эффективности, которое не имеет себе равных в этой области. Его универсальность в различных задачах в сочетании с простой в использовании и хорошо поддерживаемой экосистемой делает его наиболее практичным, продуктивным и мощным выбором для разработчиков, исследователей и предприятий. Независимо от того, создаете ли вы решение для периферии или облака, YOLO11 обеспечивает современную производительность без накладных расходов и сложности архитектур на основе Transformer.

Изучите другие сравнения моделей

Если вам интересно, как YOLO11 и RT-DETR соотносятся с другими ведущими моделями, ознакомьтесь с этими другими сравнениями:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии