Перейти к содержанию

YOLOv9 vs. RT-DETR v2: техническое сравнение для обнаружения объектов

Выбор оптимальной модели обнаружения объектов — критически важное решение для любого проекта компьютерного зрения, требующее тщательного баланса между точностью, скоростью вывода и вычислительными затратами. На этой странице представлено подробное техническое сравнение двух мощных моделей: YOLOv9, современной модели, известной своей эффективностью и точностью, и RTDETRv2, модели на основе transformer, получившей высокую оценку за свою высокую точность. Этот анализ поможет вам определить, какая модель лучше всего соответствует конкретным требованиям вашего проекта.

YOLOv9: Продвижение обнаружения в реальном времени с эффективностью

YOLOv9 — это значительный шаг вперед в серии YOLO, представляющий новаторские методы для повышения производительности и эффективности. Разработанный ведущими исследователями, он решает ключевые проблемы в глубоком обучении для достижения превосходных результатов.

Архитектура и ключевые особенности

Архитектура YOLOv9 представляет два основных нововведения: Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). PGI предназначен для борьбы с проблемой потери информации при передаче данных через глубокие нейронные сети, гарантируя, что модель получает надежную информацию о градиенте для точных обновлений. GELAN — это новая сетевая архитектура, которая оптимизирует использование параметров и вычислительную эффективность, позволяя YOLOv9 достигать высокой точности без огромного количества параметров.

При интеграции в экосистему Ultralytics мощность YOLOv9 возрастает. Разработчики получают оптимизированный пользовательский интерфейс с простым Python API и обширной документацией. Эта экосистема обеспечивает эффективное обучение с легкодоступными предварительно обученными весами и выигрывает от активной разработки и сильной поддержки сообщества.

Сильные и слабые стороны

Преимущества:

  • Современная точность: Достигает лидирующих показателей mAP на таких бенчмарках, как COCO, часто превосходя модели с большим количеством параметров.
  • Высокая эффективность: GELAN и PGI обеспечивают исключительную производительность с меньшим количеством параметров и FLOPs, что делает их идеальными для развертывания на периферийных AI устройствах.
  • Сохранение информации: PGI эффективно смягчает потерю информации, что приводит к более надежному обучению и лучшему представлению признаков.
  • Хорошо поддерживаемая экосистема: Преимущества активной разработки, всесторонних ресурсов, интеграции Ultralytics HUB для MLOps и сильной поддержки сообщества.
  • Меньшие требования к памяти: По сравнению с моделями на основе трансформеров, YOLOv9 обычно требует значительно меньше памяти во время обучения и инференса, что делает его более доступным для пользователей с ограниченным оборудованием.
  • Универсальность: Хотя в оригинальной статье основное внимание уделяется обнаружению объектов, архитектура поддерживает несколько задач, таких как сегментация экземпляров, что соответствует многозадачным возможностям других моделей Ultralytics, таких как YOLOv8.

Слабые стороны:

  • Новизна: Будучи более новой моделью, количество примеров развертывания, разработанных сообществом, может быть меньше, чем для давно зарекомендовавших себя моделей, хотя ее интеграция в Ultralytics быстро ускоряет внедрение.

Идеальные варианты использования

YOLOv9 идеально подходит для приложений, где первостепенное значение имеют как высокая точность, так и эффективность в реальном времени:

Узнайте больше о YOLOv9

RTDETRv2: Обнаружение в реальном времени с акцентом на точность

RTDETRv2 (Real-Time Detection Transformer v2) — это модель, разработанная для приложений, требующих высокой точности обнаружения объектов в реальном времени, использующая возможности архитектур transformer.

Архитектура и ключевые особенности

Архитектура RTDETRv2 построена на основе Vision Transformers (ViT), что позволяет ей захватывать глобальный контекст внутри изображений с помощью механизмов самовнимания. Этот подход, основанный на трансформерах, обеспечивает превосходное извлечение признаков по сравнению с традиционными сверточными нейронными сетями (CNN), что приводит к более высокой точности, особенно в сложных сценах со сложными взаимосвязями объектов.

Сильные и слабые стороны

Преимущества:

  • Высокая точность: Архитектура transformer обеспечивает отличную точность обнаружения объектов, что делает ее отличным выбором для задач, ориентированных на точность.
  • Надежное извлечение признаков: Эффективно захватывает глобальный контекст и зависимости на большом расстоянии в изображениях.
  • Возможность работы в реальном времени: Достигает конкурентоспособной скорости вывода, подходящей для приложений реального времени, при условии наличия адекватного оборудования.

Слабые стороны:

  • Более высокий спрос на ресурсы: Модели RTDETRv2 имеют значительно большее количество параметров и FLOPs, что требует большей вычислительной мощности и памяти.
  • Более медленный инференс: Как правило, медленнее, чем YOLOv9, особенно на оборудовании без GPU или менее мощных устройствах.
  • Высокое потребление памяти: Трансформерные архитектуры, как известно, интенсивно используют память, особенно во время обучения, что часто требует большого объема памяти CUDA и может быть барьером для многих пользователей.
  • Менее универсальна: В основном ориентирована на обнаружение объектов, ей не хватает встроенной многозадачности моделей в экосистеме Ultralytics.
  • Сложность: Может быть сложнее в обучении, настройке и развертывании по сравнению с оптимизированными и удобными для пользователя моделями Ultralytics YOLO.

Идеальные варианты использования

RTDETRv2 лучше всего подходит для сценариев, где достижение максимально возможной точности является основной целью, а вычислительные ресурсы не являются основным ограничением:

  • Медицинская визуализация: Анализ сложных медицинских сканов, где точность имеет решающее значение для диагностики.
  • Спутниковые снимки: Обнаружение небольших или скрытых объектов на спутниковых снимках высокого разрешения.
  • Научные исследования: Используется в исследовательских средах, где производительность модели является приоритетом по сравнению с эффективностью развертывания.

Узнайте больше о RT-DETR

Прямое сравнение производительности: YOLOv9 против RTDETRv2

В следующей таблице представлено подробное сравнение производительности различных размеров моделей YOLOv9 и RTDETRv2 на наборе данных COCO val.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Из данных вытекает несколько ключевых выводов:

  • Пиковая точность: YOLOv9-E достигает самого высокого mAP, равного 55,6%, превосходя все остальные модели в сравнении.
  • Эффективность: При сравнении моделей с аналогичной точностью, YOLOv9 последовательно демонстрирует превосходную эффективность. Например, YOLOv9-C (53.0 mAP) работает быстрее и требует значительно меньше параметров (25.3M против 42M) и FLOPs (102.1B против 136B), чем RTDETRv2-L (53.4 mAP).
  • Скорость: Модели YOLOv9 обычно обеспечивают более высокую скорость инференса на GPU с TensorRT. Модель YOLOv9-C заметно быстрее, чем сопоставимая RTDETRv2-L.

Заключение: какую модель вам следует выбрать?

Для подавляющего большинства реальных приложений YOLOv9 является рекомендуемым выбором. Он предлагает превосходное сочетание точности, скорости и эффективности. Его инновационная архитектура обеспечивает современную производительность, учитывая при этом вычислительные ресурсы. Ключевыми преимуществами выбора YOLOv9, особенно в рамках Ultralytics, являются простота использования, более низкие требования к памяти, универсальность для различных задач и надежная поддержка хорошо поддерживаемой экосистемы.

RTDETRv2 — это мощная модель для нишевых приложений, где точность является абсолютным приоритетом и более высокие вычислительные затраты и затраты памяти приемлемы. Однако его сложность и ресурсоемкий характер делают его менее практичным для широкого развертывания по сравнению с высокооптимизированным и удобным для пользователя YOLOv9.

Другие модели для рассмотрения

Если вы изучаете различные варианты, вас также могут заинтересовать другие современные модели, доступные в экосистеме Ultralytics:

  • Ultralytics YOLO11: Новейшая и самая продвинутая модель от Ultralytics, еще больше расширяющая границы скорости и точности.
  • Ultralytics YOLOv8: Зрелая и очень популярная модель, известная своим исключительным балансом производительности и универсальности в широком спектре задач компьютерного зрения.
  • YOLOv5: Промышленный стандарт, известный своей надежностью, скоростью и простотой развертывания, особенно на периферийных устройствах.


📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии