RTDETRv2 против YOLOv9: техническое сравнение для обнаружения объектов
Выбор оптимальной модели обнаружения объектов - важнейшее решение для проектов по компьютерному зрению. Ultralytics предлагает широкий выбор моделей, включая серию YOLO , известную своей скоростью и эффективностью, и серию RT-DETR , отличающуюся высокой точностью. На этой странице представлено подробное техническое сравнение RTDETRv2 и YOLOv9, двух современных моделей обнаружения объектов, чтобы помочь вам сделать осознанный выбор.
RTDETRv2: Высокая точность с трансформаторным питанием
RTDETRv2(Real-Time Detection Transformer v2) - это современная модель обнаружения объектов, разработанная компанией Baidu и известная своей исключительной точностью и производительностью в реальном времени. Авторство RTDETRv2, опубликованной на arXiv 2023-04-17 и доступной в виде кода на GitHub, принадлежит Венью Льву, Яну Чжао, Циньяо Чангу, Куи Хуангу, Гуаньжун Вангу и И Лю. Она использует архитектуру Vision Transformer (ViT) для достижения точной локализации и классификации объектов, что делает ее подходящей для сложных приложений.
Архитектура и ключевые особенности
Архитектура RTDETRv2 построена на основе Vision Transformers, что позволяет ей улавливать глобальный контекст в изображениях с помощью механизмов самовнимания. Это значительно отличается от традиционных конволюционных нейронных сетей (CNN) и позволяет RTDETRv2 оценивать важность различных областей изображения, что приводит к улучшению извлечения признаков и повышению точности, особенно в сложных сценах. Конструкция на основе трансформаторов позволяет обнаруживать объекты без якорей, что упрощает процесс обнаружения и потенциально улучшает обобщение.
Показатели производительности
RTDETRv2 демонстрирует высокие показатели, особенно в mAP. Как показано в сравнительной таблице, вариант RTDETRv2-x достигает показателя mAPval50-95, равного 54,3. Скорость вычислений также конкурентоспособна: RTDETRv2-s достигает 5,03 мс на TensorRT, что делает его пригодным для приложений реального времени при использовании такого мощного оборудования, как графические процессоры NVIDIA T4. Для более глубокого понимания оценки производительности обратитесь к нашему руководству по метрикам производительностиYOLO .
Сильные и слабые стороны
Сильные стороны:
- Высокая точность: Трансформаторная архитектура обеспечивает превосходную точность обнаружения объектов, что очень важно для приложений, требующих точности.
- Возможность работы в реальном времени: Достигает конкурентоспособной скорости вычислений, особенно при оптимизации с помощью TensorRT и работе на подходящем оборудовании.
- Понимание глобального контекста: Трансформаторы зрения эффективно улавливают глобальный контекст, что обеспечивает надежное обнаружение в сложных условиях.
Слабые стороны:
- Больший размер модели: Модели RTDETRv2, особенно такие крупные варианты, как RTDETRv2-x, имеют значительное количество параметров и FLOP, что требует больше вычислительных ресурсов.
- Ограничения скорости вывода: Несмотря на возможность работы в реальном времени, скорость вывода может быть ниже, чем у высоко оптимизированных моделей на основе CNN, таких как YOLOv9, особенно на устройствах с ограниченными ресурсами.
Идеальные варианты использования
RTDETRv2 идеально подходит для приложений, где точность имеет первостепенное значение, а вычислительные ресурсы легкодоступны. К ним относятся:
- Автономные транспортные средства: Для точного и надежного восприятия окружающей среды. Узнайте больше об искусственном интеллекте в самоуправляемых автомобилях.
- Медицинская визуализация: Для точного обнаружения аномалий на медицинских изображениях, что помогает в диагностике. Узнайте об искусственном интеллекте в здравоохранении.
- Робототехника: Обеспечить роботам возможность точно взаимодействовать с объектами в сложных средах и манипулировать ими. Понять роль ИИ в робототехнике.
- Анализ изображений высокого разрешения: Для детального анализа больших изображений, например, при съемке со спутника или промышленной инспекции. Посмотрите, как анализировать спутниковые снимки с помощью компьютерного зрения.
YOLOv9: программируемая информация о градиенте для эффективности и точности
YOLOv9(You Only Look Once 9) - это передовая модель обнаружения объектов из знаменитого семейства Ultralytics YOLO . Авторство YOLOv9, представленной на arXiv 2024-02-21, принадлежит Чиен-Яо Вангу и Хонг-Юану Марку Ляо из Института информационных наук, Academia Sinica, Тайвань, а код доступен на GitHub. В YOLOv9 внедрены технологии программируемого градиента (PGI) и GELAN, повышающие точность и эффективность обучения по сравнению с предыдущими версиями YOLO .
Архитектура и ключевые особенности
YOLOv9 развивает эффективность предыдущих моделей YOLO и включает в себя новые архитектурные усовершенствования. В ней используется GELAN (Generalized Efficient Layer Aggregation Network) для оптимизации архитектуры сети и PGI для поддержания целостности градиентной информации, что решает проблему потери информации при глубоком распространении сети. Эти инновации позволяют повысить точность и эффективность обучения. YOLOv9 сохраняет безъякорную головку обнаружения и оптимизированную одноступенчатую конструкцию, ориентированную на производительность в реальном времени.
Показатели производительности
В YOLOv9 достигнут убедительный баланс скорости и точности. Модель YOLOv9-e достигает mAPval50-95 на уровне 55,6, превосходя по точности даже более крупные модели RTDETRv2 и сохраняя при этом конкурентоспособную скорость вычислений. Меньший вариант YOLOv9-t отличается исключительной скоростью, достигая 2,3 мс на TensorRT, что делает его подходящим для приложений, чувствительных к задержкам.
Сильные и слабые стороны
Сильные стороны:
- Высокая точность и эффективность: PGI и GELAN способствуют повышению точности и эффективности использования параметров.
- Высокая скорость вывода: Оптимизирована для работы в режиме реального времени, особенно в небольших вариантах, подходящих для пограничного развертывания.
- Эффективное обучение: PGI способствует более стабильным и эффективным процессам обучения.
Слабые стороны:
- Более низкий глобальный контекст: Архитектура на основе CNN может быть менее эффективна для улавливания дальних зависимостей по сравнению с моделями на основе трансформаторов в очень сложных сценах.
- Компромисс между точностью и скоростью: Несмотря на высокую точность, достижение максимальной скорости вывода может быть связано с использованием небольших моделей с несколько сниженной точностью по сравнению с самыми большими моделями.
Идеальные варианты использования
YOLOv9 хорошо подходит для приложений, требующих баланса высокой точности и производительности в реальном времени, особенно в условиях ограниченных ресурсов:
- Наблюдение в реальном времени: Для эффективного и точного мониторинга в системах безопасности. Изучите компьютерное зрение для предотвращения краж.
- Пограничные вычисления: Развертывание на граничных устройствах с ограниченными вычислительными ресурсами. Узнайте о краевом искусственном интеллекте.
- Робототехника: Для быстрого и точного восприятия в роботизированных системах. См. роль ИИ в робототехнике.
- Промышленная автоматизация: Для применения в производстве, где требуется обнаружение объектов в реальном времени для контроля качества и оптимизации процессов. Узнайте об искусственном интеллекте в производстве.
Сравнительная таблица моделей
Модель | размер (пикселей) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4TensorRT10 (мс) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Заключение
RTDETRv2 и YOLOv9 - это мощные модели обнаружения объектов, каждая из которых обладает уникальными преимуществами. RTDETRv2 отлично работает в сценариях, где приоритетом является максимальная точность и использование архитектуры трансформаторов для надежного извлечения признаков, что подходит для приложений с достаточными вычислительными ресурсами. YOLOv9, с другой стороны, идеальна, когда производительность и эффективность в реальном времени имеют первостепенное значение, предлагая привлекательное сочетание точности и скорости, что особенно полезно для развертывания на пограничных устройствах и системах, чувствительных к задержкам.
Для пользователей, заинтересованных в изучении других моделей, Ultralytics предлагает широкий спектр вариантов, включая:
- YOLOv8: предыдущее поколение Ultralytics YOLOv8 модель, обеспечивающая баланс скорости и точности.
- YOLO11: Для повышения эффективности и скорости работы рассмотрите YOLO11.
- FastSAM и MobileSAM: для задач сегментации экземпляров в реальном времени изучите FastSAM и MobileSAM.
Выбор между RTDETRv2, YOLOv9 и другими моделями Ultralytics зависит от конкретных потребностей вашего проекта, при этом тщательно учитывается баланс между точностью, скоростью и доступными ресурсами. За подробной информацией и руководствами по внедрению обращайтесь к документацииUltralytics и репозиториюUltralytics на GitHub.