Link to this sectionRTDETRv2 против EfficientDet#
Выбор оптимальной архитектуры нейронной сети — определяющее решение для любого проекта по компьютерному зрению. В этом подробном техническом сравнении мы разберем две влиятельные модели детектирования объектов: RTDETRv2, современный детектор на базе трансформеров, и EfficientDet, высокомасштабируемую сверточную нейронную сеть. Мы оценим их архитектурные различия, метрики производительности, методологии обучения и идеальные сценарии развертывания, чтобы помочь тебе принять обоснованные решения для твоих AI-конвейеров.
Link to this sectionRTDETRv2: Трансформер для детектирования в реальном времени#
Основываясь на успехе оригинального RT-DETR, RTDETRv2 совершенствует парадигму детектирования объектов на базе трансформеров. Оптимизируя структуры энкодера и декодера, модель обеспечивает высокую точность при сохранении скорости инференса в реальном времени, эффективно стирая границы между традиционными CNN и vision трансформерами.
Информация о модели
Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu
Дата: 2024-07-24
Ссылки: Arxiv, GitHub, Docs
Link to this sectionАрхитектура и ключевые преимущества#
RTDETRv2 использует гибридную архитектуру, которая сочетает мощный CNN-бэкбон (часто ResNet или HGNet) с эффективным Transformer-декодером. Самая характерная черта RTDETRv2 — это встроенная способность обходиться без подавления немаксимумов (NMS). Традиционным детекторам требуется NMS для фильтрации дублирующихся ограничивающих рамок, что добавляет переменную задержку вывода во время постобработки. RTDETRv2 формулирует обнаружение как задачу прямого прогнозирования множества, используя двудольное сопоставление для получения уникальных предсказаний.
Эта модель отлично подходит для серверных развертываний, где много GPU-памяти. Ее механизм глобального внимания обеспечивает исключительное понимание контекста, что делает ее крайне эффективной в разделении перекрывающихся объектов в плотных, загроможденных средах, таких как автоматизированные системы охранной сигнализации или мониторинг плотных толп.
Link to this sectionОграничения#
Хотя архитектуры Transformer мощны, они по своей сути требуют больше памяти CUDA во время обучения по сравнению со стандартными CNN. Кроме того, тонкая настройка RTDETRv2 может потребовать увеличенного времени сходимости обучающих данных, что делает быстрое прототипирование немного более ресурсоемким.
Link to this sectionEfficientDet: Масштабируемые и эффективные CNN#
EfficientDet представил семейство моделей обнаружения объектов, оптимизированных как по точности, так и по эффективности для широкого спектра ограничений ресурсов. Он остается классическим примером масштабируемого дизайна машинного зрения.
Информация о модели
Авторы: Mingxing Tan, Ruoming Pang и Quoc V. Le
Организация: Google
Дата: 2019-11-20
Ссылки: Arxiv, GitHub, Docs
Link to this sectionАрхитектура и ключевые преимущества#
Инновации в основе EfficientDet лежат в двух ключевых областях: двунаправленной сети признаков пирамиды (BiFPN) и методе составного масштабирования. BiFPN обеспечивает простое и быстрое многомасштабное извлечение признаков за счет введения обучаемых весов для оценки важности различных входных признаков, при этом многократно применяя нисходящее и восходящее слияние признаков разных уровней. Метод составного масштабирования равномерно масштабирует разрешение, глубину и ширину сети одновременно.
Модели EfficientDet варьируются от сверхлегкой D0 до массивной D7. Это делает их очень универсальными для развертывания edge AI, где тебе приходится балансировать между жесткими вычислительными бюджетами и требованиями к точности, например, в ранних мобильных приложениях дополненной реальности.
Link to this sectionОграничения#
EfficientDet — это более старая архитектура, которая сильно зависит от anchor-боксов и традиционного конвейера пост-обработки NMS. Процесс генерации анкоров требует тщательной настройки гиперпараметров, а шаг NMS может стать узким местом при развертывании на встроенном оборудовании, таком как Raspberry Pi. Ей также не хватает встроенной поддержки современных задач, таких как оценка позы или ориентированные ограничивающие рамки (OBB).
Link to this sectionСравнение производительности и метрик#
Понимание точных компромиссов между этими моделями требует анализа их пропускной способности и эффективности параметров. В таблице ниже показано, как современная серия RTDETRv2 сравнивается с масштабируемым семейством EfficientDet.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Как видно выше, RTDETRv2 достигает значительно более высокого mean Average Precision (mAP) при сопоставимом количестве параметров с моделями EfficientDet среднего уровня, активно используя свою архитектуру Transformer для повышения точности.
Link to this sectionСценарии использования и рекомендации#
Выбор между RT-DETR и EfficientDet зависит от конкретных требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.
Link to this sectionКогда выбирать RT-DETR#
RT-DETR — отличный выбор для:
- Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
- Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.
Link to this sectionКогда стоит выбрать EfficientDet#
EfficientDet рекомендуется для:
- Конвейеры Google Cloud и TPU: Системы с глубокой интеграцией в Google Cloud Vision API или инфраструктуру TPU, где EfficientDet имеет встроенную оптимизацию.
- Исследования составного масштабирования: Академическое тестирование, сфокусированное на изучении эффектов сбалансированного масштабирования глубины, ширины и разрешения сети.
- Мобильного развертывания через TFLite: Проектов, которые требуют экспорта в TensorFlow Lite специально для Android или встраиваемых устройств на базе Linux.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionАльтернатива от Ultralytics: Продвижение современных технологий#
Хотя RTDETRv2 и EfficientDet обладают сильными сторонами, современная AI-разработка требует фреймворков, которые предлагают бесшовный пользовательский опыт разработчика наряду с передовой производительностью. Экосистема Ultralytics обеспечивает значительно более оптимизированный подход к задачам компьютерного зрения.
Если ты изучаешь современные методы детектирования, недавно выпущенная Ultralytics YOLO26 объединяет лучшие аспекты CNN и трансформеров.
YOLO26 реализует End-to-End NMS-Free Design, привнося простоту развертывания RTDETRv2 в сверхэффективную архитектуру YOLO. Кроме того, он внедряет MuSGD Optimizer — вдохновленный инновациями в обучении LLM — для превосходной стабильности обучения. Благодаря DFL Removal (Distribution Focal Loss удален для упрощенного экспорта и лучшей совместимости с Edge/маломощными устройствами), YOLO26 обеспечивает до 43% более быстрое выполнение вывода на CPU, чем предыдущие поколения, что делает его исключительным выбором для edge computing по сравнению с более тяжелыми моделями. Кроме того, ProgLoss + STAL предоставляет улучшенные функции потерь с заметными улучшениями в распознавании малых объектов, что критически важно для IoT, робототехники и аэрофотосъемки.
Простота использования, предоставляемая пакетом Ultralytics Python, не имеет аналогов. Разработчики могут обучать, валидировать и экспортировать модели, используя интуитивно понятный API, который избавляет от необходимости писать шаблонный код, обычно требуемый исследовательскими репозиториями.
from ultralytics import RTDETR
# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized inference on TensorRT
model.export(format="engine")Модели Ultralytics нативно поддерживают несколько задач, включая сегментацию экземпляров и классификацию изображений, предоставляя универсальный инструментарий для разнообразных нужд индустрии. Более того, удаление Distribution Focal Loss (DFL) в современных моделях Ultralytics упрощает вычислительный граф, гарантируя более плавный экспорт на встроенные NPU и TPU.
Для бесшовной разметки данных и управления моделями платформа Ultralytics предоставляет комплексную облачную среду для контроля полного жизненного цикла машинного обучения, утверждая себя как лучший выбор для развертывания надежных решений компьютерного зрения в производстве.