EfficientDet vs RTDETRv2: Глубокое сравнение архитектур детектирования объектов

Выбор оптимальной архитектуры для проектов в области компьютерного зрения требует ориентации в разнообразном ландшафте нейронных сетей. Это руководство содержит детальное техническое сравнение двух принципиально разных подходов: EfficientDet, высокомасштабируемого семейства сверточных нейронных сетей (CNN), и RTDETRv2, современной модели трансформера реального времени. Мы оцениваем их структурные различия, методологии обучения и пригодность для развертывания на различных аппаратных платформах.

Понимая компромиссы между эффективностью классических моделей и современными возможностями трансформеров, ты сможешь принимать взвешенные решения. Кроме того, мы изучим, как современные альтернативы, такие как новый Ultralytics YOLO26, заполняют этот пробел, предлагая непревзойденную скорость, точность и простоту использования.

Понимание EfficientDet

EfficientDet совершил революцию в детектировании объектов, внедрив принципиальный подход к масштабированию моделей.

Архитектура и ключевые концепции

В своей основе EfficientDet использует EfficientNet в качестве бэкбона и внедряет двунаправленную пирамидальную сеть признаков (BiFPN). BiFPN обеспечивает быстрое и легкое слияние признаков на разных масштабах за счет применения обучаемых весов для определения важности различных входных данных. Это сочетается с методом составного масштабирования, который одновременно равномерно масштабирует разрешение, глубину и ширину всех сетей бэкбона, сети признаков и сетей предсказания ограничивающих рамок/классов.

Сильные и слабые стороны

Главная сила EfficientDet заключается в эффективности использования параметров. На момент выпуска модели типа EfficientDet-D0 достигали более высокой точности при меньшем количестве параметров и FLOPs по сравнению с предыдущими версиями YOLO. Это сделало их очень привлекательными для сред с жесткими ограничениями по вычислительным мощностям.

Тем не менее, EfficientDet полагается на стандартное подавление немаксимумов (NMS) при постобработке для фильтрации перекрывающихся ограничивающих рамок, что может создавать задержки в конвейерах реального времени. Кроме того, хотя процесс обучения хорошо задокументирован, тонкая настройка EfficientDet может быть более громоздкой по сравнению с высокооптимизированным опытом разработки, доступным в современных инструментах.

Узнай больше об EfficientDet

Поддержка устаревших версий

Хотя EfficientDet проложил путь для масштабируемых сетей, развертывание этих моделей на современных NPU часто требует обширной ручной оптимизации. Для упрощенного развертывания новые модели Ultralytics предлагают функцию экспорта в 1 клик.

Исследование RTDETRv2

RTDETRv2 представляет собой эволюцию архитектур на основе трансформеров, меняя парадигму от традиционных CNN, основанных на якорях (anchor-based).

Достижения в трансформерах

RTDETRv2 базируется на архитектуре Real-Time Detection Transformer (RT-DETR). Она использует механизмы глобального внимания, позволяя модели понимать контекст сложных сцен без локальных ограничений стандартных сверток. Наиболее значимым архитектурным преимуществом является нативная конструкция без NMS. Предсказывая объекты напрямую из входного изображения, она упрощает конвейер вывода, избегая эвристической настройки, необходимой при постобработке NMS.

Сильные и слабые стороны

RTDETRv2 превосходно работает в высокоплотных средах, где перекрывающиеся объекты сбивают с толку традиционные CNN. Модель демонстрирует высокую точность на сложных эталонных датасетах, таких как COCO.

Несмотря на свою точность, модели-трансформеры естественно требуют значительного объема памяти. Эффективность обучения заметно ниже; для сходимости требуется значительно больше эпох и больший объем памяти CUDA по сравнению с CNN. Это делает RTDETRv2 менее идеальным выбором для разработчиков с ограниченным бюджетом в облаке или для тех, кому требуется быстрое прототипирование.

Узнай больше о RTDETRv2

Ограничения памяти трансформеров

Обучение моделей-трансформеров, таких как RTDETRv2, обычно требует высокопроизводительных GPU. Если ты сталкиваешься с ошибками нехватки памяти (OOM), рассмотри возможность использования во время обучения моделей с меньшими требованиями к памяти, таких как серия Ultralytics YOLO.

Сравнение эталонных показателей производительности

Понимание базовых метрик производительности жизненно важно для выбора модели. В следующей таблице представлено сравнение EfficientDet и RTDETRv2 различных размеров.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Варианты использования и рекомендации

Выбор между EfficientDet и RT-DETR зависит от твоих конкретных проектных требований, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать EfficientDet

EfficientDet — это хороший выбор для:

  • Конвейеров Google Cloud и TPU: Систем, глубоко интегрированных с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
  • Исследований в области составного масштабирования: Академических бенчмарков, сфокусированных на изучении эффектов сбалансированного масштабирования глубины, ширины и разрешения сети.
  • Развертывания на мобильных устройствах через TFLite: Проектов, которые специально требуют экспорта в TensorFlow Lite для Android или встроенных Linux-устройств.

Когда стоит выбирать RT-DETR

RT-DETR рекомендуется для:

  • Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
  • Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Преимущество Ultralytics: представляем YOLO26

Хотя EfficientDet и RTDETRv2 прочно заняли свое место в истории компьютерного зрения, современные производственные среды требуют идеального баланса скорости, точности и исключительного опыта разработки. Недавно выпущенный Ultralytics YOLO26 объединяет лучшие аспекты этих разрозненных архитектур.

YOLO26 выделяется сочетанием оптимизированной экосистемы, которой славится Ultralytics, с революционными внутренними механизмами.

Почему стоит выбрать YOLO26 вместо конкурентов?

  • End-to-End дизайн без NMS: Вдохновленный трансформерами, такими как RTDETRv2, YOLO26 является нативно end-to-end решением. Он исключает постобработку NMS, гарантируя более быстрое и простое развертывание конвейеров без значительного раздувания параметров, свойственного чистым трансформерам.
  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении больших языковых моделей (такими как Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD и Muon. Это обеспечивает беспрецедентную стабильность обучения и значительно более высокую скорость сходимости по сравнению с длительными графиками, требуемыми RTDETRv2.
  • Оптимизировано для Edge: Благодаря увеличению скорости вывода на CPU до 43%, YOLO26 создан для граничных вычислений. Он легко превосходит тяжелые модели трансформеров на ограниченном оборудовании, таком как мобильные телефоны и умные камеры.
  • Удаление DFL: Удаление Distribution Focal Loss упрощает граф модели, способствуя беспрепятственному экспорту в TensorRT и ONNX.
  • ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, решая распространенное «узкое место» в аэроснимках и робототехнике.
  • Универсальность: В отличие от RTDETRv2, которая ориентирована в основном на детектирование, YOLO26 нативно поддерживает сегментацию экземпляров, оценку поз, классификацию изображений и ориентированные ограничивающие рамки (OBB) с улучшениями, специфичными для задач, такими как RLE для поз и специализированные угловые потери для OBB.
Интегрированная экосистема

Используя платформу Ultralytics, ты можешь управлять своими датасетами, обучать модели типа YOLO26 или YOLO11 в облаке и развертывать их с помощью гибких API.

Простота кода с Ultralytics

Поддерживаемый Python API Ultralytics делает обучение моделей и вывод тривиальными задачами. Ты можешь легко проводить бенчмаркинг моделей или запускать скрипты обучения с минимальным количеством шаблонного кода.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

Для тех, кто управляет устаревшей инфраструктурой, высоко оцененный Ultralytics YOLOv8 остается стабильным и мощным выбором, демонстрируя долгосрочную надежность экосистемы Ultralytics. Независимо от того, запускаешь ли ты сложные алгоритмы трекинга в реальном времени или простое детектирование дефектов, переход на YOLO26 гарантирует, что твоя система будет готова к будущему, высокоточна и экономична по памяти.

Комментарии