Перейти к содержанию

EfficientDet против RTDETRv2: Углубленное сравнение архитектур обнаружения объектов

Выбор оптимальной архитектуры для проектов компьютерного зрения требует навигации по разнообразному ландшафту нейронных сетей. Это руководство предлагает детальное техническое сравнение двух различных подходов: EfficientDet, семейства высокомасштабируемых сверточных нейронных сетей (CNN), и RTDETRv2, современной трансформерной модели реального времени. Мы оцениваем их структурные различия, методологии обучения и пригодность для развертывания в различных аппаратных средах.

Понимая компромиссы между традиционной эффективностью и возможностями современных трансформеров, разработчики могут принимать обоснованные решения. Кроме того, мы рассмотрим, как современные альтернативы, такие как новый Ultralytics YOLO26, устраняют этот разрыв, предлагая беспрецедентную скорость, точность и простоту использования.

Понимание EfficientDet

EfficientDet произвел революцию в обнаружении объектов, представив принципиальный подход к масштабированию моделей.

Архитектура и основные концепции

По своей сути, EfficientDet использует EfficientNet в качестве базовой сети и представляет двунаправленную пирамидальную сеть признаков (BiFPN). BiFPN обеспечивает простое и быстрое слияние многомасштабных признаков, применяя обучаемые веса для определения важности различных входных признаков. Это сочетается с методом составного масштабирования, который равномерно масштабирует разрешение, глубину и ширину для всех базовых сетей, сетей признаков и сетей предсказания ограничивающих рамок/классов одновременно.

Сильные стороны и ограничения

Основная сила EfficientDet заключается в ее эффективности по параметрам. На момент выпуска такие модели, как EfficientDet-D0, достигали более высокой точности при меньшем количестве параметров и FLOPs по сравнению с предыдущими версиями YOLO. Это сделало ее очень привлекательной для сред со строгими вычислительными ограничениями.

Однако EfficientDet опирается на стандартное подавление немаксимумов (NMS) во время постобработки для фильтрации перекрывающихся ограничивающих рамок, что может создавать узкие места по задержке в конвейерах реального времени. Кроме того, хотя процесс обучения хорошо задокументирован, тонкая настройка EfficientDet может быть громоздкой по сравнению с высокооптимизированным опытом разработчиков, предлагаемым современными инструментами.

Узнайте больше об EfficientDet

Устаревшая поддержка

Хотя EfficientDet проложил путь для масштабируемых сетей, развертывание этих моделей на современных NPU часто требует обширной ручной оптимизации. Для оптимизированных развертываний новые модели Ultralytics предлагают функцию экспорта в один клик.

Исследование RTDETRv2

RTDETRv2 представляет собой эволюцию архитектур на основе трансформеров, смещая парадигму от традиционных CNN на основе якорей.

Достижения в трансформерах

RTDETRv2 основан на базовой модели Real-Time Detection Transformer (RT-DETR). Он использует механизмы глобального внимания, позволяя модели понимать сложные контексты сцен без локализованных ограничений стандартных сверток. Наиболее значительным архитектурным преимуществом является его изначально NMS-свободная конструкция. Предсказывая объекты непосредственно из входного изображения, он упрощает конвейер инференса, избегая эвристической настройки, необходимой для постобработки NMS.

Сильные и слабые стороны

RTDETRv2 превосходит в средах с высокой плотностью, где перекрывающиеся объекты сбивают с толку традиционные CNN. Он очень точен на сложных эталонных наборах данных, таких как COCO.

Несмотря на свою точность, трансформерные модели, естественно, требуют значительного объема памяти. Эффективность обучения заметно ниже; для сходимости им требуется значительно больше эпох и больший объем памяти CUDA по сравнению с CNN. Это делает RTDETRv2 менее идеальным для разработчиков, работающих с ограниченными облачными бюджетами или тех, кому требуется быстрое прототипирование.

Узнайте больше о RTDETRv2

Ограничения памяти трансформеров

Обучение трансформерных моделей, таких как RTDETRv2, обычно требует высокопроизводительных GPU. Если вы сталкиваетесь с ошибками нехватки памяти (OOM), рассмотрите возможность использования моделей с более низкими требованиями к памяти во время обучения, таких как серия Ultralytics YOLO.

Сравнение эталонных показателей производительности

Понимание необработанных метрик производительности жизненно важно для выбора модели. В следующей таблице представлено сравнение EfficientDet и RTDETRv2 для различных размеров.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Сценарии использования и рекомендации

Выбор между EfficientDet и RT-DETR зависит от ваших конкретных требований проекта, ограничений развертывания и предпочтений экосистемы.

Когда следует выбирать EfficientDet

EfficientDet является отличным выбором для:

  • Конвейеры Google Cloud и TPU: Системы, глубоко интегрированные с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
  • Исследование составного масштабирования: Академическое бенчмаркинг, сфокусированное на изучении влияния сбалансированного масштабирования глубины, ширины и разрешения сети.
  • Мобильное развертывание через TFLite: Проекты, которые специально требуют экспорта TensorFlow Lite для Android или встраиваемых устройств на Linux.

Когда выбрать RT-DETR

RT-DETR рекомендуется для:

  • Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
  • Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
  • Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Преимущество Ultralytics: Представляем YOLO26

Хотя EfficientDet и RTDETRv2 закрепили свои места в истории компьютерного зрения, современные производственные среды требуют идеального баланса скорости, точности и исключительного опыта разработчиков. Недавно выпущенный Ultralytics YOLO26 синтезирует лучшие аспекты этих разрозненных архитектур.

YOLO26 выделяется благодаря сочетанию оптимизированной экосистемы, которой известна Ultralytics, с новаторскими внутренними механизмами.

Почему стоит выбрать YOLO26 вместо конкурентов?

  • Сквозная архитектура без NMS: Вдохновленная трансформерами, такими как RTDETRv2, YOLO26 является изначально сквозной. Она устраняет постобработку NMS, гарантируя более быстрые, простые конвейеры развертывания без массивного раздувания параметров чистых трансформеров.
  • Оптимизатор MuSGD: Вдохновленный инновациями в обучении больших языковых моделей (такими как Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD и Muon. Это обеспечивает беспрецедентную стабильность обучения и значительно более быстрые темпы сходимости по сравнению с длительными расписаниями, требуемыми RTDETRv2.
  • Оптимизировано для граничных вычислений: Благодаря до 43% более быстрому инференсу на CPU, YOLO26 создан для граничного ИИ. Он легко превосходит тяжелые трансформерные модели на ограниченном оборудовании, таком как мобильные телефоны и умные камеры.
  • Удаление DFL: Удаление Distribution Focal Loss упрощает граф модели, облегчая бесшовный экспорт в TensorRT и ONNX.
  • ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов, решая распространенную проблему в аэрофотосъемке и робототехнике.
  • Универсальность: В отличие от RTDETRv2, который в основном ориентирован на detect, YOLO26 нативно поддерживает сегментацию экземпляров, оценку позы, классификацию изображений и ориентированные ограничивающие рамки (OBB) с улучшениями, специфичными для задач, такими как RLE для позы и специализированная угловая функция потерь для OBB.

Интегрированная экосистема

Используя платформу Ultralytics, вы можете управлять своими наборами данных, обучать модели, такие как YOLO26 или YOLO11, в облаке и беспрепятственно развертывать их через гибкие API.

Простота кода с Ultralytics

Хорошо поддерживаемый API Ultralytics на python делает обучение и инференс моделей тривиальными. Разработчики могут легко проводить бенчмаркинг моделей или запускать скрипты обучения с минимальным количеством шаблонного кода.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

Для тех, кто управляет устаревшей инфраструктурой, высоко оцененный Ultralytics YOLOv8 остается стабильным и мощным выбором, демонстрируя долгосрочную надежность экосистемы Ultralytics. Независимо от того, используете ли вы сложные алгоритмы real-time tracking или простое detect дефектов, обновление до YOLO26 гарантирует, что ваша система будет перспективной, высокоточной и энергоэффективной.


Комментарии