Перейти к содержанию

EfficientDet против RTDETRv2: техническое сравнение для современного обнаружения объектов

Выбор оптимальной архитектуры для обнаружения объектов требует поиска компромисса между сложностью архитектуры, задержкой вывода и точностью обнаружения. В этом техническом сравнении анализируются два различных подхода: EfficientDet, архитектура CNN с составным масштабированием от Google, и RTDETRv2, модель на основе трансформатора в реальном времени от Baidu.

В то время как EfficientDet установил стандарты масштабируемости в 2019 году, RTDETRv2 представляет собой переход к архитектурам трансформаторов, которые устраняют немаксимальное подавление (NMS). Для разработчиков, стремящихся достичь максимальной производительности в 2026 году, мы также исследуем, как Ultralytics синтезирует лучшее из этих миров с помощью своего нативного сквозного дизайна.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

EfficientDet: Наследие масштабирования соединений

Выпущенный в конце 2019 года, EfficientDet представил систематический подход к масштабированию сверточных нейронных сетей (CNN). Он был разработан для оптимизации эффективности в широком спектре ограничений ресурсов, от мобильных устройств до центров обработки данных.

Архитектура и ключевые особенности

EfficientDet использует магистраль EfficientNet в сочетании с взвешенной двунаправленной пирамидальной сетью (BiFPN). BiFPN позволяет легко и быстро объединять многомасштабные характеристики, что дает модели возможность эффективно учитывать важность различных входных характеристик. Основной инновацией стало составное масштабирование, которое равномерно масштабирует разрешение, глубину и ширину магистрали сети, сети характеристик и сетей прогнозирования ячеек/классов.

Несмотря на академический успех, EfficientDet полагается на анкерные окна и сложные этапы постобработки, такие как подавление не максимальных значений (NMS), что может привести к изменчивости задержки и усложнить развертывание на периферийном оборудовании.

RTDETRv2: Трансформеры реального времени

RTDETRv2 (Real-Time Detection Transformer v2) основан на успехе оригинального RT-DETR и направлен на решение проблемы высоких вычислительных затрат, связанных с моделями на основе DETR, при сохранении их превосходной точности и глобального контекста.

Архитектура и ключевые особенности

RTDETRv2 использует гибридный кодировщик, который обрабатывает многомасштабные особенности более эффективно, чем стандартные Vision Transformers (ViTs). Его отличительной особенностью является конструкцияNMS. Благодаря прямому прогнозированию объектов как набора, он устраняет необходимость в эвристической постобработке, теоретически стабилизируя скорость вывода.

Однако модели на основе трансформаторов, как известно, требуют большого объема памяти. Для обучения RTDETRv2 обычно требуется значительный GPU , что часто требует использования высокопроизводительного оборудования, такого как NVIDIA , для обеспечения эффективной конвергенции, в отличие от YOLO на основе CNN, которые более требовательны к потребительскому оборудованию.

Узнайте больше о RT-DETR

Преимущество Ultralytics: Представляем YOLO26

Хотя EfficientDet и RTDETRv2 представляют собой важные вехи, Ultralytics (выпущен в январе 2026 года) устанавливает новый стандарт, объединяя преимущества обеих архитектур в единую высокопроизводительную структуру.

YOLO26 разработан для разработчиков, которым требуется точность трансформера и скорость легкой CNN.

  • Сквозной дизайн NMS: Как и RTDETRv2, YOLO26 изначально является сквозным. Он исключает NMS , обеспечивая детерминированную задержку, которая имеет решающее значение для критически важных с точки зрения безопасности приложений, таких как автономные транспортные средства.
  • Оптимизатор MuSGD: Вдохновленный инновациями в области обучения больших языковых моделей (LLM) от Moonshot AI, YOLO26 использует оптимизатор MuSGD. Этот гибрид SGD Muon обеспечивает стабильную динамику обучения и более быструю сходимость, сокращая количество «проб и ошибок», которые часто необходимы при настройке гиперпараметров для трансформаторов.
  • Удаление DFL: благодаря удалению Distribution Focal Loss (распределенная фокальная потеря) YOLO26 упрощает граф модели. Эта оптимизация имеет решающее значение для экспорта моделей в такие форматы, как ONNX CoreML, где сложные слои потерь могут вызвать проблемы с совместимостью на периферийных устройствах.
  • Баланс производительности: YOLO26 обеспечивает до 43% более быстрое CPU по сравнению с предыдущими поколениями, что делает его гораздо более подходящим для периферийного развертывания, чем вычислительно-емкий EfficientDet-d7 или VRAM-интенсивный RTDETRv2.

Узнайте больше о YOLO26

Глубокий технический анализ

Эффективность обучения и память

Важным отличием между этими моделями является их потребление ресурсов во время обучения.

  • EfficientDet: Несмотря на эффективность параметров, метод составного масштабирования может привести к замедлению обучения глубоких сетей. Сложные соединения BiFPN также увеличивают стоимость доступа к памяти (MAC), замедляя пропускную способность.
  • RTDETRv2: для трансформеров требуется вычисление карт внимания, которые масштабируются квадратично по длине последовательности. Это приводит к высокому использованию VRAM, что затрудняет обучение с большими размерами пакетов на стандартных графических процессорах (например, RTX 3060/4070).
  • YOLO Ultralytics YOLO : Модели, такие как YOLO11 и YOLO26 оптимизированы для эффективного использования памяти. Они позволяют использовать более крупные пакеты данных на потребительском оборудовании, что делает высокопроизводительный ИИ доступным для всех. Кроме того, Ultralytics (ранее HUB) еще больше упрощает этот процесс, предлагая управляемое облачное обучение, которое автоматически решает сложные инфраструктурные задачи.

Универсальность и экосистема

EfficientDet — это в первую очередь архитектура, предназначенная исключительно для обнаружения. В отличие от нее, Ultralytics поддерживает широкий спектр задач в рамках одной кодовой базы.

Многозадачность

Ultralytics не ограничиваются ограничительными рамками. Тот же API позволяет обучать модели для сегментации экземпляров, оценки позыи обнаружения ориентированных объектов (OBB), предоставляя гибкий набор инструментов для решения различных задач компьютерного зрения.

YOLO26 специально включает в себя улучшения, ориентированные на конкретные задачи, такие как ProgLoss и STAL (Soft Target Assignment Loss), которые обеспечивают заметные улучшения в распознавании мелких объектов — традиционном слабом месте ранних CNN и трансформеров.

Реальные примеры использования

Когда использовать RTDETRv2

RTDETRv2 отлично подходит для сред, в которых имеется достаточно аппаратных ресурсов и глобальный контекст имеет первостепенное значение.

  • Комплексное понимание сцены: в сценах с высокой степенью окклюзии или загроможденности глобальный механизм внимания может track между удаленными объектами лучше, чем локальные свертки.
  • GPU высокопроизводительных GPU : если развертывание осуществляется исключительно на графических процессорах серверного класса (например, T4, A10), RTDETRv2 обеспечивает конкурентоспособную точность.

Когда использовать EfficientDet

EfficientDet в основном считается устаревшей архитектурой, но по-прежнему актуальна в определенных нишах.

  • Устаревшие Google : для команд, глубоко интегрированных в старые конвейеры TensorFlow, поддержание EfficientDet может быть менее разрушительным, чем миграция фреймворков.
  • Исследовательские базовые показатели: по-прежнему остается стандартным базовым показателем для сравнения эффективности сетей слияния признаков.

Лучший выбор: YOLO26

Для подавляющего большинства современных приложений YOLO26 является рекомендуемым выбором благодаря своей универсальности и простоте внедрения.

  • Edge Computing: Благодаря удалению DFL и CPU , YOLO26 идеально подходит для устройств IoT и мобильных приложений, где важны такие факторы, как срок службы батареи и тепловые ограничения.
  • Робототехника: Конструкция NMS гарантирует, что контуры управления роботом получают данные о восприятии с постоянной, предсказуемой скоростью.
  • Аэрофотосъемка: функция ProgLoss улучшает обнаружение небольших объектов, таких как транспортные средства или домашний скот, на видеозаписях с дронов, превосходя по эффективности стандартные базовые показатели EfficientDet.

Заключение

В то время как EfficientDet проложил путь для эффективного масштабирования, а RTDETRv2 продемонстрировал мощь трансформеров реального времени, ситуация в этой области претерпела изменения. YOLO26 воплощает в себе новое поколение компьютерного зрения: он является нативным сквозным решением, высоко оптимизированным для разнообразного оборудования и поддерживаемым надежной Ultralytics .

Для разработчиков, стремящихся оптимизировать свои ML-конвейеры, переход на Ultralytics предлагает не только повышение производительности, но и упрощенный рабочий процесс от аннотирования на Ultralytics до развертывания на периферии.

Дополнительная литература


Комментарии