Перейти к содержанию

RTDETRv2 против YOLOv9: техническое сравнение для обнаружения объектов

Выбор оптимальной модели обнаружения объектов - важнейшее решение для проектов по компьютерному зрению. Ultralytics предлагает широкий выбор моделей, включая серию YOLO , известную своей скоростью и эффективностью, и серию RT-DETR , отличающуюся высокой точностью. На этой странице представлено подробное техническое сравнение RTDETRv2 и YOLOv9, двух современных моделей обнаружения объектов, чтобы помочь вам сделать осознанный выбор.

RTDETRv2: Высокая точность с трансформаторным питанием

RTDETRv2(Real-Time Detection Transformer v2) - это современная модель обнаружения объектов, разработанная компанией Baidu и известная своей исключительной точностью и производительностью в реальном времени. Авторство RTDETRv2, опубликованной на arXiv 2023-04-17 и доступной в виде кода на GitHub, принадлежит Венью Льву, Яну Чжао, Циньяо Чангу, Куи Хуангу, Гуаньжун Вангу и И Лю. Она использует архитектуру Vision Transformer (ViT) для достижения точной локализации и классификации объектов, что делает ее подходящей для сложных приложений.

Архитектура и ключевые особенности

Архитектура RTDETRv2 построена на основе Vision Transformers, что позволяет ей улавливать глобальный контекст в изображениях с помощью механизмов самовнимания. Это значительно отличается от традиционных конволюционных нейронных сетей (CNN) и позволяет RTDETRv2 оценивать важность различных областей изображения, что приводит к улучшению извлечения признаков и повышению точности, особенно в сложных сценах. Конструкция на основе трансформаторов позволяет обнаруживать объекты без якорей, что упрощает процесс обнаружения и потенциально улучшает обобщение.

Показатели производительности

RTDETRv2 демонстрирует высокие показатели, особенно в mAP. Как показано в сравнительной таблице, вариант RTDETRv2-x достигает показателя mAPval50-95, равного 54,3. Скорость вычислений также конкурентоспособна: RTDETRv2-s достигает 5,03 мс на TensorRT, что делает его пригодным для приложений реального времени при использовании такого мощного оборудования, как графические процессоры NVIDIA T4. Для более глубокого понимания оценки производительности обратитесь к нашему руководству по метрикам производительностиYOLO .

Сильные и слабые стороны

Сильные стороны:

  • Высокая точность: Трансформаторная архитектура обеспечивает превосходную точность обнаружения объектов, что очень важно для приложений, требующих точности.
  • Возможность работы в реальном времени: Достигает конкурентоспособной скорости вычислений, особенно при оптимизации с помощью TensorRT и работе на подходящем оборудовании.
  • Понимание глобального контекста: Трансформаторы зрения эффективно улавливают глобальный контекст, что обеспечивает надежное обнаружение в сложных условиях.

Слабые стороны:

  • Больший размер модели: Модели RTDETRv2, особенно такие крупные варианты, как RTDETRv2-x, имеют значительное количество параметров и FLOP, что требует больше вычислительных ресурсов.
  • Ограничения скорости вывода: Несмотря на возможность работы в реальном времени, скорость вывода может быть ниже, чем у высоко оптимизированных моделей на основе CNN, таких как YOLOv9, особенно на устройствах с ограниченными ресурсами.

Идеальные варианты использования

RTDETRv2 идеально подходит для приложений, где точность имеет первостепенное значение, а вычислительные ресурсы легкодоступны. К ним относятся:

Узнайте больше о RTDETRv2

YOLOv9: программируемая информация о градиенте для эффективности и точности

YOLOv9(You Only Look Once 9) - это передовая модель обнаружения объектов из знаменитого семейства Ultralytics YOLO . Авторство YOLOv9, представленной на arXiv 2024-02-21, принадлежит Чиен-Яо Вангу и Хонг-Юану Марку Ляо из Института информационных наук, Academia Sinica, Тайвань, а код доступен на GitHub. В YOLOv9 внедрены технологии программируемого градиента (PGI) и GELAN, повышающие точность и эффективность обучения по сравнению с предыдущими версиями YOLO .

Архитектура и ключевые особенности

YOLOv9 развивает эффективность предыдущих моделей YOLO и включает в себя новые архитектурные усовершенствования. В ней используется GELAN (Generalized Efficient Layer Aggregation Network) для оптимизации архитектуры сети и PGI для поддержания целостности градиентной информации, что решает проблему потери информации при глубоком распространении сети. Эти инновации позволяют повысить точность и эффективность обучения. YOLOv9 сохраняет безъякорную головку обнаружения и оптимизированную одноступенчатую конструкцию, ориентированную на производительность в реальном времени.

Показатели производительности

В YOLOv9 достигнут убедительный баланс скорости и точности. Модель YOLOv9-e достигает mAPval50-95 на уровне 55,6, превосходя по точности даже более крупные модели RTDETRv2 и сохраняя при этом конкурентоспособную скорость вычислений. Меньший вариант YOLOv9-t отличается исключительной скоростью, достигая 2,3 мс на TensorRT, что делает его подходящим для приложений, чувствительных к задержкам.

Сильные и слабые стороны

Сильные стороны:

  • Высокая точность и эффективность: PGI и GELAN способствуют повышению точности и эффективности использования параметров.
  • Высокая скорость вывода: Оптимизирована для работы в режиме реального времени, особенно в небольших вариантах, подходящих для пограничного развертывания.
  • Эффективное обучение: PGI способствует более стабильным и эффективным процессам обучения.

Слабые стороны:

  • Более низкий глобальный контекст: Архитектура на основе CNN может быть менее эффективна для улавливания дальних зависимостей по сравнению с моделями на основе трансформаторов в очень сложных сценах.
  • Компромисс между точностью и скоростью: Несмотря на высокую точность, достижение максимальной скорости вывода может быть связано с использованием небольших моделей с несколько сниженной точностью по сравнению с самыми большими моделями.

Идеальные варианты использования

YOLOv9 хорошо подходит для приложений, требующих баланса высокой точности и производительности в реальном времени, особенно в условиях ограниченных ресурсов:

Узнайте больше о YOLOv9

Сравнительная таблица моделей

Модель размер
(пикселей)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4TensorRT10
(мс)
params
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Заключение

RTDETRv2 и YOLOv9 - это мощные модели обнаружения объектов, каждая из которых обладает уникальными преимуществами. RTDETRv2 отлично работает в сценариях, где приоритетом является максимальная точность и использование архитектуры трансформаторов для надежного извлечения признаков, что подходит для приложений с достаточными вычислительными ресурсами. YOLOv9, с другой стороны, идеальна, когда производительность и эффективность в реальном времени имеют первостепенное значение, предлагая привлекательное сочетание точности и скорости, что особенно полезно для развертывания на пограничных устройствах и системах, чувствительных к задержкам.

Для пользователей, заинтересованных в изучении других моделей, Ultralytics предлагает широкий спектр вариантов, включая:

  • YOLOv8: предыдущее поколение Ultralytics YOLOv8 модель, обеспечивающая баланс скорости и точности.
  • YOLO11: Для повышения эффективности и скорости работы рассмотрите YOLO11.
  • FastSAM и MobileSAM: для задач сегментации экземпляров в реальном времени изучите FastSAM и MobileSAM.

Выбор между RTDETRv2, YOLOv9 и другими моделями Ultralytics зависит от конкретных потребностей вашего проекта, при этом тщательно учитывается баланс между точностью, скоростью и доступными ресурсами. За подробной информацией и руководствами по внедрению обращайтесь к документацииUltralytics и репозиториюUltralytics на GitHub.

Комментарии

📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии