RTDETRv2 против EfficientDet: Анализ архитектур обнаружения в реальном времени
Выбор оптимальной архитектуры нейронной сети является определяющим для любого проекта компьютерного зрения. Это всестороннее техническое сравнение анализирует две влиятельные модели обнаружения объектов: RT-DETRv2, современный детектор на основе трансформеров, и EfficientDet, высокомасштабируемую сверточную нейронную сеть. Мы оценим их различные архитектуры, метрики производительности, методологии обучения и идеальные сценарии развертывания, чтобы помочь вам принимать решения, основанные на данных, для ваших конвейеров ИИ.
RTDETRv2: Трансформер обнаружения в реальном времени
Основываясь на успехе оригинального RT-DETR, RTDETRv2 совершенствует парадигму обнаружения объектов на основе трансформеров. Оптимизируя структуры энкодера и декодера, он обеспечивает высокую точность при сохранении скорости инференса в реальном времени, эффективно устраняя разрыв между традиционными CNN и визуальными трансформерами.
Сведения о модели
Авторы: Вэньюй Лю, Иань Чжао, Циняо Чан, Куй Хуан, Гуаньчжун Ван и И Лю
Организация: Baidu
Дата: 2024-07-24
Ссылки: Arxiv, GitHub, Документация
Архитектура и основные сильные стороны
RTDETRv2 использует гибридную архитектуру, которая сочетает мощную опорную сеть CNN (часто ResNet или HGNet) с эффективным декодером трансформера. Наиболее определяющей характеристикой RTDETRv2 является его встроенная способность обходить Non-Maximum Suppression (NMS). Традиционные детекторы требуют NMS для отфильтровывания дублирующихся ограничивающих рамок, добавляя переменную задержку инференса во время постобработки. RTDETRv2 формулирует обнаружение как задачу прямого предсказания множества, используя двудольное сопоставление для вывода уникальных предсказаний.
Эта модель превосходно работает в серверных развертываниях, где память GPU в изобилии. Ее механизм глобального внимания обеспечивает исключительную контекстную осведомленность, что делает ее очень искусной в разделении перекрывающихся объектов в плотных, загроможденных средах, таких как автоматизированные системы охранной сигнализации или мониторинг плотных скоплений людей.
Ограничения
Хотя архитектуры-трансформеры мощны, они по своей природе требуют больше памяти CUDA во время обучения по сравнению со стандартными CNN. Кроме того, тонкая настройка RTDETRv2 может потребовать увеличенного времени сходимости обучающих данных, что делает быстрое прототипирование немного более ресурсоемким.
EfficientDet: Масштабируемые и эффективные CNN
EfficientDet представил семейство моделей обнаружения объектов, оптимизированных как по точности, так и по эффективности в широком диапазоне ресурсных ограничений. Он остается классическим примером масштабируемого дизайна в машинном зрении.
Сведения о модели
Авторы: Минсин Тан, Руомин Пан и Куок В. Ле
Организация: Google
Дата: 2019-11-20
Ссылки: Arxiv, GitHub, Документация
Архитектура и основные сильные стороны
Инновация EfficientDet заключается в двух ключевых областях: двунаправленной пирамиде признаков (BiFPN) и методе составного масштабирования. BiFPN обеспечивает простое и быстрое многомасштабное извлечение признаков за счет введения обучаемых весов для изучения важности различных входных признаков, при этом многократно применяя нисходящее и восходящее слияние многомасштабных признаков. Метод составного масштабирования одновременно равномерно масштабирует разрешение, глубину и ширину сети.
Модели EfficientDet варьируются от сверхлегкой D0 до массивной D7. Это делает их очень универсальными для развертываний граничного ИИ, где разработчикам необходимо балансировать между жесткими вычислительными ограничениями и требованиями к точности, например, в ранних мобильных приложениях дополненной реальности.
Ограничения
EfficientDet — это более старая архитектура, которая сильно зависит от якорных боксов и традиционного конвейера постобработки NMS. Процесс генерации якорей требует тщательной настройки гиперпараметров, а шаг NMS может стать узким местом при развертывании на встроенном оборудовании, таком как Raspberry Pi. Ему также не хватает нативной поддержки для современных задач, таких как оценка позы или ориентированные ограничивающие рамки (OBB).
Узнайте больше об EfficientDet
Сравнение производительности и метрик
Для понимания точных компромиссов между этими моделями требуется анализ их пропускной способности и эффективности параметров. В таблице ниже показано, как современная серия RTDETRv2 сравнивается с масштабируемым семейством EfficientDet.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Как показано выше, RTDETRv2 достигает значительно более высокой средней точности (mAP) при сопоставимом количестве параметров по сравнению с моделями EfficientDet среднего уровня, активно используя свою архитектуру трансформера для повышения точности.
Сценарии использования и рекомендации
Выбор между RT-DETR и EfficientDet зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда выбрать RT-DETR
RT-DETR — отличный выбор для:
- Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
- Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
- Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.
Когда следует выбирать EfficientDet
EfficientDet рекомендуется для:
- Конвейеры Google Cloud и TPU: Системы, глубоко интегрированные с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
- Исследование составного масштабирования: Академическое бенчмаркинг, сфокусированное на изучении влияния сбалансированного масштабирования глубины, ширины и разрешения сети.
- Мобильное развертывание через TFLite: Проекты, которые специально требуют экспорта TensorFlow Lite для Android или встраиваемых устройств на Linux.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Альтернатива Ultralytics: Продвижение передовых технологий
Хотя RTDETRv2 и EfficientDet имеют значительные достоинства, современная разработка ИИ требует фреймворков, которые предлагают бесшовный опыт разработчика наряду с передовой производительностью. Экосистема Ultralytics обеспечивает значительно более оптимизированный подход к задачам компьютерного зрения.
Если вы изучаете передовые методы обнаружения, недавно выпущенная Ultralytics YOLO26 синтезирует лучшие аспекты как CNN, так и трансформеров.
Почему стоит выбрать YOLO26?
YOLO26 реализует сквозную архитектуру без NMS, привнося простоту развертывания RTDETRv2 в сверхэффективную архитектуру YOLO. Кроме того, он представляет оптимизатор MuSGD — вдохновленный инновациями в обучении LLM — для превосходной стабильности обучения. Благодаря исключению DFL (Distribution Focal Loss удален для упрощенного экспорта и лучшей совместимости с периферийными/маломощными устройствами), YOLO26 обеспечивает до 43% более быструю инференцию на CPU, чем предыдущие поколения, что делает его исключительным выбором для периферийных вычислений по сравнению с более тяжелыми моделями. Кроме того, ProgLoss + STAL предлагает улучшенные функции потерь с заметными улучшениями в распознавании мелких объектов, что критически важно для IoT, робототехники и аэрофотосъемки.
Простота использования, обеспечиваемая пакетом Ultralytics Python, непревзойденна. Разработчики могут обучать, проверять и экспортировать модели, используя интуитивно понятный API, который абстрагирует шаблонный код, обычно требуемый исследовательскими репозиториями.
from ultralytics import RTDETR
# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized inference on TensorRT
model.export(format="engine")
Модели Ultralytics нативно поддерживают множество задач, включая сегментацию экземпляров и классификацию изображений, предоставляя универсальный инструментарий для различных отраслевых потребностей. Кроме того, удаление функции потерь Distribution Focal Loss (DFL) в современных моделях Ultralytics упрощает вычислительный граф, гарантируя более плавный экспорт на встроенные NPU и TPU.
Для бесшовной разметки данных и управления моделями платформа Ultralytics предоставляет комплексную облачную среду для надзора за всем жизненным циклом машинного обучения, утверждая ее в качестве лучшего выбора для развертывания надежных решений компьютерного зрения в производстве.