RTDETRv2 vs. EfficientDet: анализ архитектур детектирования в реальном времени
Выбор оптимальной архитектуры нейронной сети — это определяющий шаг для любого проекта в области компьютерного зрения. В этом подробном техническом сравнении мы разберем две влиятельные модели детектирования объектов: RTDETRv2, современный детектор на базе Transformer, и EfficientDet, высокомасштабируемую сверточную нейронную сеть. Мы оценим их уникальные архитектуры, метрики производительности, методологии обучения и идеальные сценарии развертывания, чтобы помочь тебе принимать обоснованные решения для своих AI-пайплайнов.
RTDETRv2: Transformer для детектирования в реальном времени
Основываясь на успехе оригинального RT-DETR, RTDETRv2 совершенствует парадигму детектирования объектов на базе Transformer. Оптимизируя структуры энкодера и декодера, модель обеспечивает высокую точность при сохранении скорости инференса в реальном времени, эффективно стирая границы между традиционными CNN и трансформерами для зрения.
Информация о модели
Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu
Дата: 2024-07-24
Ссылки: Arxiv, GitHub, Docs
Архитектура и ключевые преимущества
RTDETRv2 utilizes a hybrid architecture that pairs a potent CNN backbone (often ResNet or HGNet) with an efficient transformer decoder. The most defining characteristic of RTDETRv2 is its native ability to bypass non-maximum suppression (NMS). Traditional detectors require NMS to filter out duplicate bounding boxes, adding variable inference latency during post-processing. RTDETRv2 formulates detection as a direct set prediction problem, utilizing bipartite matching to output unique predictions.
Эта модель отлично подходит для серверных развертываний, где много видеопамяти GPU. Механизм глобального внимания обеспечивает исключительное понимание контекста, что делает ее крайне эффективной при разделении перекрывающихся объектов в плотных, загроможденных средах, таких как автоматизированные системы охранной сигнализации или мониторинг плотных толп.
Ограничения
While powerful, transformer architectures inherently require more CUDA memory during training compared to standard CNNs. Furthermore, fine-tuning RTDETRv2 can require extended training data convergence times, making rapid prototyping slightly more resource-intensive.
EfficientDet: масштабируемые и эффективные CNN
EfficientDet introduced a family of object detection models optimized for both accuracy and efficiency across a wide spectrum of resource constraints. It remains a classic example of scalable machine vision design.
Информация о модели
Авторы: Mingxing Tan, Ruoming Pang и Quoc V. Le
Организация: Google
Дата: 2019-11-20
Ссылки: Arxiv, GitHub, Docs
Архитектура и ключевые преимущества
The innovation behind EfficientDet lies in two key areas: the Bi-directional Feature Pyramid Network (BiFPN) and a compound scaling method. BiFPN allows for simple and fast multi-scale feature extraction by introducing learnable weights to learn the importance of different input features, while repeatedly applying top-down and bottom-up multi-scale feature fusion. The compound scaling method uniformly scales the resolution, depth, and width of the network simultaneously.
EfficientDet models range from the ultra-lightweight D0 to the massive D7. This makes them highly versatile for edge AI deployments where developers must balance tight computational budgets with accuracy requirements, such as early mobile augmented reality applications.
Ограничения
EfficientDet — это устаревшая архитектура, которая сильно зависит от анкорных рамок и традиционного пайплайна постобработки NMS. Процесс генерации анкоров требует тщательной настройки гиперпараметров, а шаг NMS может стать узким местом при развертывании на встроенном оборудовании, таком как Raspberry Pi. Ей также не хватает встроенной поддержки современных задач, таких как оценка позы или ориентированные ограничивающие рамки (OBB).
Сравнение производительности и метрик
Понимание точных компромиссов между этими моделями требует анализа их пропускной способности и эффективности параметров. В таблице ниже показано, как современная серия RTDETRv2 сравнивается с масштабируемым семейством EfficientDet.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
As seen above, RTDETRv2 achieves significantly higher mean Average Precision (mAP) at comparable parameter counts to the mid-tier EfficientDet models, heavily utilizing its transformer architecture to boost accuracy.
Варианты использования и рекомендации
Выбор между RT-DETR и EfficientDet зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.
Когда стоит выбирать RT-DETR
RT-DETR — сильный выбор для:
- Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
- Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.
Когда выбирать EfficientDet
EfficientDet рекомендуется для:
- Конвейеров Google Cloud и TPU: Систем, глубоко интегрированных с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
- Исследований в области составного масштабирования: Академических бенчмарков, сфокусированных на изучении эффектов сбалансированного масштабирования глубины, ширины и разрешения сети.
- Развертывания на мобильных устройствах через TFLite: Проектов, которые специально требуют экспорта в TensorFlow Lite для Android или встроенных Linux-устройств.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Альтернатива от Ultralytics: продвижение на передний край технологий
Хотя как RTDETRv2, так и EfficientDet имеют свои сильные стороны, современная разработка AI требует фреймворков, которые предлагают бесшовный пользовательский опыт для разработчиков наряду с передовой производительностью. Экосистема Ultralytics предоставляет значительно более оптимизированный подход к задачам компьютерного зрения.
Если ты изучаешь передовые методы детектирования, выпущенный недавно Ultralytics YOLO26 объединяет лучшие аспекты как CNN, так и трансформеров.
YOLO26 implements an End-to-End NMS-Free Design, bringing the deployment simplicity of RTDETRv2 to the ultra-efficient YOLO architecture. Furthermore, it introduces the MuSGD Optimizer—inspired by LLM training innovations—for superior training stability. With DFL Removal (Distribution Focal Loss removed for simplified export and better edge/low-power device compatibility), YOLO26 boasts up to 43% faster CPU inference than previous generations, making it an exceptional choice for edge computing over heavier models. Additionally, ProgLoss + STAL delivers improved loss functions with notable improvements in small-object recognition, critical for IoT, robotics, and aerial imagery.
Простота использования, предоставляемая пакетом Ultralytics Python, не имеет аналогов. Разработчики могут обучать, проверять и экспортировать модели, используя интуитивно понятный API, который абстрагирует шаблонный код, обычно требуемый в исследовательских репозиториях.
from ultralytics import RTDETR
# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized inference on TensorRT
model.export(format="engine")Модели Ultralytics изначально поддерживают несколько задач, включая сегментацию экземпляров и классификацию изображений, предоставляя универсальный инструментарий для различных отраслевых нужд. Более того, удаление Distribution Focal Loss (DFL) в современных моделях Ultralytics упрощает вычислительный граф, гарантируя более плавный экспорт на встроенные NPU и TPU.
Для бесшовной разметки данных и управления моделями платформа Ultralytics предоставляет комплексную облачную среду для контроля всего жизненного цикла машинного обучения, утверждая себя как лучший выбор для развертывания надежных решений компьютерного зрения в продакшене.