RTDETRv2 против EfficientDet: Техническое сравнение для обнаружения объектов
Выбор оптимальной архитектуры для обнаружения объектов — это ключевое решение, которое влияет на все: от затрат на обучение до задержки развертывания. В этом техническом обзоре мы анализируем два различных подхода: RTDETRv2, передовую модель на основе трансформатора, разработанную для приложений реального времени, и EfficientDet, высокомасштабируемую архитектуру CNN, которая внедрила в эту область составное масштабирование.
Хотя EfficientDet установил важные ориентиры в 2019 году, ситуация значительно изменилась с появлением трансформеров реального времени. В этом сравнении рассматриваются их архитектуры, показатели производительности и пригодность для современных задач компьютерного зрения.
Сравнение метрик производительности
В следующей таблице представлено прямое сравнение ключевых показателей. Обратите внимание на разницу в скорости и эффективности параметров, в частности на то, как современные архитектуры, такие как RTDETRv2, оптимизируют задержку вывода на аппаратных ускорителях, таких как TensorRT.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
RTDETRv2: усовершенствованные трансформеры реального времени
RTDETRv2 (Real-Time DEtection TRansformer v2) представляет собой значительный скачок в применении архитектур трансформаторов к практическим задачам машинного зрения. В то время как оригинальные модели DETR страдали от медленной конвергенции и высоких вычислительных затрат, RTDETRv2 специально разработан, чтобы превзойти CNN как по скорости, так и по точности.
RTDETRv2 Подробная информация:
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация:Baidu
- Дата: 2023-04-17
- Arxiv:2304.08069
- GitHub:lyuwenyu/RT-DETR
Архитектура и ключевые особенности
RTDETRv2 использует гибридный кодировщик, который обрабатывает многомасштабные особенности, устраняя общий недостаток ранних трансформеров в отношении обнаружения мелких объектов. Основной инновацией является выбор запросовIoU, который отфильтровывает запросы низкого качества до того, как они достигнут декодера, позволяя модели сосредоточить вычислительные ресурсы на наиболее релевантных частях изображения.
Отличительной особенностью RTDETRv2 является его сквозной дизайн NMS. Традиционные детекторы требуют использования не максимального подавления (NMS) для удаления дублирующихся ограничительных рамок, что является этапом постобработки, который влечет за собой изменчивость задержки. RTDETRv2 напрямую прогнозирует фиксированный набор объектов, обеспечивая детерминированное время вывода, которое имеет решающее значение для промышленной автоматизации.
EfficientDet: Наследие масштабируемости
EfficientDet был представлен Google в качестве демонстрации «Compound Scaling» — метода одновременного увеличения ширины, глубины и разрешения сети. Он основан на базовой структуре EfficientNet и использует BiFPN (Bidirectional Feature Pyramid Network).
Подробности EfficientDet:
- Авторы: Мингксинг Тан, Руоминг Панг и Куок В. Ле
- Организация: Google
- Дата: 2019-11-20
- Архив:1911.09070
- GitHub:google/automl
Архитектура и ограничения
Сердцем EfficientDet является BiFPN, который позволяет легко и быстро объединять многомасштабные характеристики. Используя взвешенное объединение характеристик, модель учится определять важность различных входных характеристик. Несмотря на свою теоретическую эффективность с точки зрения FLOP, EfficientDet часто сталкивается с проблемой задержки на GPU в реальных условиях. Сложные/нерегулярные шаблоны доступа к памяти слоя BiFPN не так легко оптимизировать с помощью аппаратных ускорителей, таких как TensorRT по сравнению со стандартными свертками, встречающимися в YOLO .
Критический анализ: архитектура и использование
1. Эффективность обучения и конвергенция
Одно из наиболее существенных различий заключается в динамике обучения. EfficientDet, опираясь на традиционные парадигмы CNN, обучается относительно стабильно, но требует тщательной настройки анкерных рамок (хотя и стремится автоматизировать этот процесс). RTDETRv2, будучи трансформатором, с самого начала использует преимущества глобального рецептивного поля, но исторически требовал более длительных графиков обучения. Однако современные оптимизации в RTDETRv2 значительно сократили это время сходимости.
Вопросы памяти
Модели на основе трансформаторов, такие как RTDETRv2, обычно потребляют больше VRAM во время обучения, чем чистые CNN, из-за механизма самовнимания. Если вы проводите обучение на ограниченном оборудовании (например, на одном потребительском GPU), рассмотрите возможность использования Ultralytics , который требует меньше памяти, сохраняя при этом высочайшую точность.
2. Скорость вывода и развертывание
Хотя EfficientDet-d0 является легким, его более крупные варианты (d4-d7) демонстрируют значительное снижение скорости. Как показано в сравнительной таблице, EfficientDet-d7 работает со скоростью примерно 128 мс на GPU T4, тогда как RTDETRv2-x достигает более высокого показателя mAP54,3 %) всего за 15 мс. Это почти 10-кратное преимущество в скорости делает RTDETRv2 (и YOLO26) гораздо более предпочтительными для анализа видео в реальном времени или автономных транспортных средств.
3. Преимущества Ultralytics
Реализация исследовательских работ часто сопряжена с необходимостью преодолевать сложные зависимости и работать со сложными конфигурационными файлами. Ultralytics экосистема решает эту проблему путем стандартизации интерфейса. Вы можете переключаться между Transformer (RT-DETR) и CNN (YOLO) с помощью одной строки кода, упрощая конвейер операций машинного обучения (MLOps).
from ultralytics import RTDETR, YOLO
# Load RTDETRv2 (Transformer)
model_transformer = RTDETR("rtdetr-l.pt")
# Load YOLO26 (The new standard)
model_yolo = YOLO("yolo26l.pt")
# Training is identical
model_yolo.train(data="coco8.yaml", epochs=100)
Лучший выбор: Ultralytics
В то время как RTDETRv2 предлагает отличную производительность, YOLO26 представляет собой вершину эффективности и точности. Выпущенная в январе 2026 года, она объединяет лучшие характеристики трансформаторов и CNN в единую архитектуру.
YOLO26 использует сквозную конструкцию NMS, впервые примененную в YOLOv10 усовершенствованную в RTDETRv2, но дополнительно оптимизированную для периферийного развертывания. Ключевые инновации включают:
- Удаление DFL: благодаря удалению Distribution Focal Loss (распределение фокальной потери) структура модели упрощается, что упрощает экспорт в ONNX и CoreML улучшает совместимость с периферийными устройствами с низким энергопотреблением.
- MuSGD Optimizer: гибрид SGD Muon (вдохновленный обучением LLM), этот оптимизатор обеспечивает стабильное обучение и более быструю конвергенцию, привнося стабильность Large Language Model в задачи визуального восприятия.
- Скорость: YOLO26 обеспечивает до 43% более быстрое CPU , устраняя критический недостаток для таких устройств, как Raspberry Pi, где графические процессоры недоступны.
- Усовершенствованные функции потери: интеграция ProgLoss и STAL обеспечивает значительное улучшение распознавания небольших объектов, что имеет решающее значение для таких секторов, как сельское хозяйство и воздушное наблюдение.
Для разработчиков, которые ищут оптимальный баланс между универсальностью развертывания и высокой производительностью, рекомендуется выбрать YOLO26.
Рекомендации по вариантам использования
Когда следует выбирать RTDETRv2
- Оборудование с Tensor : если вы развертываете систему исключительно на NVIDIA (Server или Jetson), RTDETRv2 эффективно использует Tensor .
- Сцены с большим скоплением людей: глобальный механизм внимания помогает в сценах с сильной окклюзией, таких как анализ скопления людей или мониторинг розничной торговли.
Когда следует выбирать EfficientDet
- Поддержка устаревшего ПО: если ваша существующая инфраструктура в значительной степени построена на TensorFlow .x/2.x и экосистеме AutoML Google.
- Академический бенчмаркинг: полезен в качестве базового показателя для изучения конкретных эффектов масштабирования соединений в отрыве от других архитектурных изменений.
Когда выбирать YOLO26
- Edge AI: удаление DFL и CPU делают его бесспорным лидером для мобильных устройств и устройств IoT.
- Ограничения в реальном времени: для приложений, требующих высокой частоты кадров в секунду (FPS) наряду с высокой точностью, таких как спортивная аналитика.
- Простота использования: когда вам нужен готовый к использованию продукт с поддержкой оценки позы и сегментации.
Заключение
Как RTDETRv2, так и EfficientDet внесли значительный вклад в развитие компьютерного зрения. EfficientDet доказал, что масштабирование может быть научным и структурированным, а RTDETRv2 доказал, что трансформеры могут быть быстрыми. Однако для большинства практиков в 2026 году Ultralytics предлагает наиболее привлекательный пакет: скорость CNN, удобство трансформера NMS и надежную поддержку Ultralytics .
Дополнительная литература
- Модели: Исследуйте YOLO11 для других высокопроизводительных вариантов или YOLOv10 для истоков обучения NMS.
- Наборы данных: найдите идеальные данные для вашего проекта в нашем браузере наборов данных.
- Руководства: узнайте, как оптимизировать модели для TensorRT, чтобы максимально эффективно использовать ваше оборудование.