RTDETRv2 против EfficientDet: техническое сравнение для обнаружения объектов
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое может значительно повлиять на производительность и эффективность проекта в области компьютерного зрения. На этой странице представлено подробное техническое сравнение RTDETRv2 и EfficientDet, двух влиятельных архитектур в этой области. Мы рассмотрим их архитектурные различия, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для ваших конкретных потребностей.
RTDETRv2: Детектор-трансформер в реальном времени v2
RTDETRv2 — это современный детектор объектов реального времени, который основан на фреймворке DETR (DEtection TRansformer). Он представляет собой значительный шаг вперед в объединении высокой точности моделей на основе трансформеров со скоростью, необходимой для приложений реального времени.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация: Baidu
- Дата: 17.04.2023
- Arxiv: https://arxiv.org/abs/2304.08069 (Original RT-DETR), https://arxiv.org/abs/2407.17140 (RT-DETRv2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Документация: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Архитектура и ключевые особенности
RTDETRv2 использует гибридную архитектуру, которая использует CNN backbone для эффективного извлечения признаков и Transformer encoder-decoder для обработки этих признаков. Ключевая инновация заключается в его способности использовать механизмы самовнимания для захвата глобального контекста по всему изображению. Это позволяет модели лучше понимать сложные сцены и взаимосвязи между удаленными объектами, что приводит к превосходной точности обнаружения. Как детектор без привязок, он упрощает конвейер обнаружения, устраняя необходимость в предопределенных ограничивающих рамках.
Сильные и слабые стороны
Преимущества:
- Высокая точность: Архитектура transformer обеспечивает глубокое понимание контекста изображения, что приводит к отличным показателям mAP, особенно в сценариях с перекрытыми или плотно упакованными объектами.
- Производительность в реальном времени: Оптимизирован для быстрого вывода, особенно при ускорении с помощью таких инструментов, как NVIDIA TensorRT, что делает его подходящим для приложений с высокой пропускной способностью.
- Надёжное представление признаков: Отлично захватывает долгосрочные зависимости, что является распространенным ограничением в моделях, основанных исключительно на CNN.
Слабые стороны:
- Высокая вычислительная стоимость: Transformer-модели, как известно, требуют больших ресурсов. RTDETRv2 обычно имеет большее количество параметров и FLOPs по сравнению с эффективными CNN-моделями, такими как серия YOLO.
- Сложность обучения: Обучение трансформеров требует значительных вычислительных ресурсов, особенно памяти GPU, и может быть медленнее, чем обучение многих архитектур на основе CNN.
Идеальные варианты использования
RTDETRv2 — предпочтительный выбор для приложений, где максимальная точность имеет первостепенное значение и доступны достаточные вычислительные ресурсы.
- Автономное вождение: Необходим для высокоточных систем восприятия в автомобилях с автоматическим управлением.
- Продвинутая робототехника: Позволяет роботам перемещаться и взаимодействовать со сложными, динамическими средами, что является ключевым аспектом роли ИИ в робототехнике.
- Высокоточная система видеонаблюдения: Обеспечивает работу передовых систем безопасности, требующих точного обнаружения в людных местах.
EfficientDet: Масштабируемое и эффективное обнаружение объектов
EfficientDet, разработанный Google Research, представляет собой семейство моделей обнаружения объектов, разработанных для обеспечения надежного баланса между эффективностью и точностью в широком диапазоне вычислительных ресурсов.
- Авторы: Мингксинг Тан, Руоминг Панг и Куок В. Ле
- Организация: Google
- Дата: 20.11.2019
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- Документация: https://github.com/google/automl/tree/master/efficientdet#readme
Архитектура и ключевые особенности
Архитектура EfficientDet построена на трех основных компонентах:
- EfficientNet Backbone: Использует высокоэффективную сеть EfficientNet в качестве основы для извлечения признаков.
- BiFPN (Bi-directional Feature Pyramid Network): Новая сеть слияния признаков, которая обеспечивает эффективную и действенную многомасштабную агрегацию признаков.
- Комплексное масштабирование (Compound Scaling): Уникальный метод масштабирования, который равномерно масштабирует глубину, ширину и разрешение входных данных модели, позволяя адаптировать ее для различных аппаратных ограничений, от мобильных устройств до облачных серверов.
Сильные и слабые стороны
Преимущества:
- Высокая эффективность: Достигает превосходной точности со значительно меньшим количеством параметров и FLOPs по сравнению с другими моделями в своем классе производительности.
- Масштабируемость: Семейство моделей (от D0 до D7) предлагает четкий компромисс, позволяющий легко выбрать модель, соответствующую конкретным ограничениям ресурсов.
- Высокая производительность на периферийных устройствах: Меньшие варианты хорошо подходят для развертывания на платформах с ограниченными ресурсами, таких как мобильные телефоны и периферийное AI оборудование.
Слабые стороны:
- Более медленный инференс на GPU: Будучи эффективными по параметрам, более крупные модели EfficientDet могут иметь более высокую задержку на GPU по сравнению с высокооптимизированными моделями, такими как серия Ultralytics YOLO.
- Потолок точности: Может не достигать той же пиковой точности, что и более крупные, более сложные модели, такие как RTDETRv2, на сложных наборах данных.
Идеальные варианты использования
EfficientDet превосходен в сценариях, где вычислительная эффективность и масштабируемость являются основными соображениями.
- Мобильные и веб-приложения: Легковесные модели идеально подходят для инференса на устройстве.
- Edge Computing: Идеально подходит для развертывания на таких устройствах, как Raspberry Pi или другом оборудовании IoT.
- Облачные сервисы: Масштабируемая архитектура обеспечивает экономически эффективное развертывание в облачных средах, где использование ресурсов имеет значение.
Узнайте больше об EfficientDet
Анализ производительности: RTDETRv2 против EfficientDet
Сравнение RTDETRv2 и EfficientDet подчеркивает фундаментальный компромисс между пиковой точностью и вычислительной эффективностью. RTDETRv2 расширяет границы точности, используя мощную, но ресурсоемкую архитектуру transformer. В отличие от этого, EfficientDet фокусируется на максимизации производительности на параметр, предлагая масштабируемое решение для широкого спектра оборудования.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Как показывает таблица, модели RTDETRv2 достигают более высоких показателей mAP, но с большим количеством параметров и FLOPs. Модели EfficientDet, особенно меньшие варианты, исключительно легкие, что делает их быстрее на CPU и некоторых конфигурациях GPU, но они жертвуют некоторой точностью ради этой эффективности.
Почему стоит выбрать модели Ultralytics YOLO?
Несмотря на то, что RTDETRv2 и EfficientDet являются мощными моделями, модели Ultralytics YOLO, такие как YOLOv8 и новейшая YOLO11, часто предоставляют более практичное и выгодное решение для разработчиков и исследователей.
- Простота использования: Модели Ultralytics разработаны для оптимизации работы пользователей благодаря простому Python API, обширной документации и понятным командам CLI.
- Хорошо поддерживаемая экосистема: Экосистема Ultralytics активно разрабатывается и поддерживается сильным сообществом с открытым исходным кодом. Она включает такие инструменты, как Ultralytics HUB, для простого управления набором данных и MLOps.
- Баланс производительности: Модели Ultralytics YOLO известны своим превосходным компромиссом между скоростью и точностью, что делает их подходящими для широкого спектра реальных приложений.
- Эффективность использования памяти: Модели YOLO обычно более эффективно используют память во время обучения по сравнению с моделями на основе трансформеров, такими как RTDETRv2, которые часто требуют значительно больше памяти CUDA.
- Универсальность: Такие модели, как YOLO11, поддерживают несколько задач, помимо обнаружения объектов, включая сегментацию экземпляров, классификацию, оценку позы и обнаружение ориентированных объектов (OBB), предлагая унифицированную структуру для различных потребностей компьютерного зрения.
- Эффективность обучения: Воспользуйтесь преимуществами быстрого времени обучения, готовых предварительно обученных весов на наборах данных, таких как COCO, и более быстрой сходимости.
Заключение: какая модель подходит именно вам?
Выбор между RTDETRv2 и EfficientDet зависит от приоритетов вашего проекта.
- Выбирайте RTDETRv2, если ваше приложение требует максимально возможной точности и у вас есть доступ к мощному оборудованию GPU как для обучения, так и для развертывания.
- Выбирайте EfficientDet, если ваши основные ограничения — вычислительные ресурсы, размер модели и энергопотребление, особенно для развертывания на периферийных или мобильных устройствах.
Однако, для большинства разработчиков, ищущих высокопроизводительное, универсальное и удобное решение, модели Ultralytics YOLO представляют собой убедительную альтернативу. Они предлагают превосходный баланс скорости, точности и простоты использования, и все это в рамках надежной и хорошо поддерживаемой экосистемы, которая ускоряет разработку от исследований до производства.
Изучите другие сравнения моделей
Чтобы помочь вам принять решение, изучите эти и другие сравнения:
- RTDETRv2 против YOLOv8
- EfficientDet в сравнении с YOLOv8
- YOLO11 против RTDETRv2
- YOLO11 против EfficientDet
- RTDETRv2 против YOLOX
- EfficientDet в сравнении с YOLOX