Перейти к содержанию

RTDETRv2 и EfficientDet: всестороннее техническое сравнение

В развивающемся ландшафте компьютерного зрения выбор правильной архитектуры detect объектов имеет решающее значение для успеха проекта. В этом сравнении рассматривается RTDETRv2, передовая модель на основе transformer, разработанная для работы в режиме реального времени, и EfficientDet, масштабируемое семейство сверточных нейронных сетей (CNN), оптимизированных для эффективности. Мы анализируем их архитектурные инновации, показатели производительности и идеальные сценарии развертывания, чтобы помочь разработчикам принимать обоснованные решения.

Обзоры моделей

Выбор между этими двумя моделями часто сводится к конкретным ограничениям целевого оборудования и требованиям к точности приложения.

RTDETRv2

RTDETRv2 (Real-Time Detection Transformer v2) представляет собой значительный шаг вперед в применении архитектур transformer для обнаружения объектов в реальном времени. Разработанный исследователями из Baidu, он основывается на успехе оригинальной RT-DETR, оптимизируя гибридный энкодер и механизмы выбора запросов для достижения современной точности с конкурентоспособной скоростью вывода на оборудовании GPU.

Узнайте больше о RTDETR

EfficientDet

EfficientDet, разработанный Google Brain, произвел революцию в этой области после своего выпуска, представив систематический способ масштабирования размеров модели. Объединив backbone EfficientNet со взвешенной двунаправленной пирамидальной сетью признаков (BiFPN), он предлагает спектр моделей (D0-D7), которые уравновешивают вычислительные затраты и точность, что делает его очень универсальным для различных ограничений ресурсов.

Узнайте больше об EfficientDet

Архитектурный анализ

Принципиальное различие заключается в их основных строительных блоках: один использует глобальный контекст transformers, а другой совершенствует эффективность convolutions.

RTDETRv2: Мощь Transformer

RTDETRv2 использует гибридный энкодер, который эффективно обрабатывает многомасштабные признаки. В отличие от традиционных CNN, он использует механизм выбора запросов, учитывающий IoU, чтобы сосредоточить внимание на наиболее релевантных частях изображения. Это позволяет модели эффективно обрабатывать сложные сцены с окклюзией и различными масштабами объектов. Архитектура разделяет взаимодействие внутри масштаба и слияние между масштабами, снижая вычислительные затраты, обычно связанные с Vision Transformers (ViTs).

Преимущества Transformer

Механизм внимания в RTDETRv2 обеспечивает глобальные рецептивные поля, позволяя модели лучше понимать взаимосвязи между удаленными объектами в сцене, чем типичные CNN.

EfficientDet: Масштабируемая эффективность

EfficientDet построен на основе EfficientNet и представляет BiFPN. BiFPN обеспечивает простое и быстрое многомасштабное слияние признаков, изучая важность различных входных признаков. Кроме того, EfficientDet использует метод составного масштабирования, который равномерно масштабирует разрешение, глубину и ширину сети. Это гарантирует, что модель может быть адаптирована — от легкой D0 для мобильных приложений до тяжелой D7 для высокоточных серверных задач.

Сравнение производительности

Эталонные показатели производительности подчеркивают четкое различие в философии проектирования. RTDETRv2 нацелен на максимальную accuracy на мощном оборудовании, тогда как EfficientDet предлагает гранулированный градиент эффективности.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Как указано в таблице, RT-DETRv2-x достигает превосходного mAP 54.3, превосходя даже самый большой EfficientDet-d7 (53.7 mAP), при этом значительно быстрее на TensorRT (15.03ms против 128.07ms). Однако для крайне ограниченных сред EfficientDet-d0 остается невероятно легким вариантом с минимальными параметрами (3.9M) и FLOPs.

Сильные и слабые стороны

Преимущества RTDETRv2:

  • Высокая точность: Обеспечивает первоклассную производительность detect, особенно на сложном наборе данных COCO.
  • Оптимизация GPU: Архитектура хорошо поддается распараллеливанию, что делает ее идеальной для развертывания TensorRT на NVIDIA GPU.
  • Без привязки к якорям: Устраняет необходимость настройки anchor box, упрощая конвейер обучения.

Сильные стороны EfficientDet:

  • Масштабируемость: Диапазон D0-D7 позволяет точно подобрать размер модели к возможностям оборудования.
  • Низкие вычислительные требования: Меньшие варианты (D0-D2) отлично подходят для инференса только на CPU или мобильных периферийных устройствах.
  • Устоявшийся: Зрелая архитектура с широкой поддержкой в различных инструментах преобразования.

Слабые стороны:

  • RTDETRv2: Требует значительный объем памяти CUDA для обучения и, как правило, работает медленнее на CPU из-за операций transformer.
  • EfficientDet: Более высокая задержка на высокоточной стороне (D7) по сравнению с современными детекторами; обучение может сходиться медленнее.

Идеальные варианты использования

Выбор правильной модели во многом зависит от конкретной среды приложения.

Преимущества Ultralytics YOLO

Несмотря на то, что RTDETRv2 и EfficientDet имеют свои достоинства, Ultralytics YOLO11 предлагает убедительный синтез их лучших функций, заключенный в удобную для разработчиков экосистему.

Почему разработчики предпочитают Ultralytics

Модели Ultralytics разработаны не только для бенчмарков, но и для реального удобства использования.

  1. Простота использования: Python API и CLI от Ultralytics значительно снижают сложность обучения и развертывания. Пользователи могут перейти от установки к обучению на пользовательском наборе данных за считанные минуты.
  2. Хорошо поддерживаемая экосистема: Поддерживаемый процветающим сообществом и частыми обновлениями, фреймворк Ultralytics легко интегрируется с инструментами MLOps, такими как Weights & Biases, MLFlow и Ultralytics HUB для управления данными.
  3. Баланс производительности: YOLO11 достигает современных компромиссов между скоростью и точностью. Он часто соответствует или превосходит точность моделей-трансформеров, таких как RTDETRv2, сохраняя при этом скорость инференса, характерную для CNN.
  4. Эффективность использования памяти: В отличие от высоких требований к памяти при обучении на основе transformer, модели YOLO оптимизированы для эффективного использования GPU, что позволяет использовать большие размеры пакетов на оборудовании потребительского класса.
  5. Универсальность: Единый фреймворк поддерживает Object Detection, Сегментацию экземпляров, Оценку позы, Классификацию и Detection ориентированных объектов (OBB).

Эффективность обучения

Ultralytics предоставляет предварительно обученные веса, которые облегчают перенос обучения, что значительно сокращает время обучения. Вот как просто начать обучение модели YOLO11:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Упрощенное развертывание

Модели Ultralytics можно экспортировать в многочисленные форматы, такие как ONNX, TensorRT, CoreML и OpenVINO, с помощью одной команды, что упрощает путь от исследований до производства. Узнайте больше о режимах экспорта.

Заключение

В сравнении RTDETRv2 и EfficientDet победитель зависит от ваших ограничений. RTDETRv2 превосходит в средах с высокой точностью и ускорением на GPU, доказывая, что transformers могут быть быстрыми. EfficientDet остается надежным выбором для сред с высокой степенью ограничений и низким энергопотреблением.

Однако, для большинства разработчиков, ищущих универсальное, простое в использовании и высокопроизводительное решение, Ultralytics YOLO11 выделяется. Его способность обрабатывать несколько задач компьютерного зрения в рамках единой, целостной экосистемы в сочетании с превосходной эффективностью памяти и скоростью обучения делает его оптимальным выбором для современных приложений компьютерного зрения.

Изучите другие сравнения

Чтобы расширить свое понимание доступных моделей detect объектов, рассмотрите возможность изучения этих связанных сравнений:


Комментарии