Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 против EfficientDet: Анализ архитектур детектирования в реальном времени#

Выбор оптимальной архитектуры нейронной сети — определяющее решение для любого проекта по компьютерному зрению. В этом подробном техническом сравнении мы разберем две влиятельные модели детектирования объектов: RTDETRv2, современный детектор на базе трансформеров, и EfficientDet, высокомасштабируемую сверточную нейронную сеть. Мы оценим их архитектурные различия, метрики производительности, методологии обучения и идеальные сценарии развертывания, чтобы помочь тебе принять обоснованные решения для твоих AI-конвейеров.

Link to this sectionRTDETRv2: Трансформер для детектирования в реальном времени#

Основываясь на успехе оригинального RT-DETR, RTDETRv2 совершенствует парадигму детектирования объектов на базе трансформеров. Оптимизируя структуры энкодера и декодера, модель обеспечивает высокую точность при сохранении скорости инференса в реальном времени, эффективно стирая границы между традиционными CNN и vision трансформерами.

Информация о модели Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu Дата: 2024-07-24 Ссылки: Arxiv, GitHub, Docs

Link to this sectionАрхитектура и ключевые преимущества#

RTDETRv2 utilizes a hybrid architecture that pairs a potent CNN backbone (often ResNet or HGNet) with an efficient transformer decoder. The most defining characteristic of RTDETRv2 is its native ability to bypass non-maximum suppression (NMS). Traditional detectors require NMS to filter out duplicate bounding boxes, adding variable inference latency during post-processing. RTDETRv2 formulates detection as a direct set prediction problem, utilizing bipartite matching to output unique predictions.

Эта модель отлично подходит для серверных развертываний, где много GPU-памяти. Ее механизм глобального внимания обеспечивает исключительное понимание контекста, что делает ее крайне эффективной в разделении перекрывающихся объектов в плотных, загроможденных средах, таких как автоматизированные системы охранной сигнализации или мониторинг плотных толп.

Link to this sectionОграничения#

While powerful, transformer architectures inherently require more CUDA memory during training compared to standard CNNs. Furthermore, fine-tuning RTDETRv2 can require extended training data convergence times, making rapid prototyping slightly more resource-intensive.

Узнай больше о RTDETRv2

Link to this sectionEfficientDet: Масштабируемые и эффективные CNN#

EfficientDet introduced a family of object detection models optimized for both accuracy and efficiency across a wide spectrum of resource constraints. It remains a classic example of scalable machine vision design.

Информация о модели Авторы: Mingxing Tan, Ruoming Pang и Quoc V. Le
Организация: Google
Дата: 2019-11-20
Ссылки: Arxiv, GitHub, Docs

Link to this sectionАрхитектура и ключевые преимущества#

The innovation behind EfficientDet lies in two key areas: the Bi-directional Feature Pyramid Network (BiFPN) and a compound scaling method. BiFPN allows for simple and fast multi-scale feature extraction by introducing learnable weights to learn the importance of different input features, while repeatedly applying top-down and bottom-up multi-scale feature fusion. The compound scaling method uniformly scales the resolution, depth, and width of the network simultaneously.

EfficientDet models range from the ultra-lightweight D0 to the massive D7. This makes them highly versatile for edge AI deployments where developers must balance tight computational budgets with accuracy requirements, such as early mobile augmented reality applications.

Link to this sectionОграничения#

EfficientDet — это более старая архитектура, которая сильно зависит от anchor-боксов и традиционного конвейера пост-обработки NMS. Процесс генерации анкоров требует тщательной настройки гиперпараметров, а шаг NMS может стать узким местом при развертывании на встроенном оборудовании, таком как Raspberry Pi. Ей также не хватает встроенной поддержки современных задач, таких как оценка позы или ориентированные ограничивающие рамки (OBB).

Узнай больше о EfficientDet

Link to this sectionСравнение производительности и метрик#

Понимание точных компромиссов между этими моделями требует анализа их пропускной способности и эффективности параметров. В таблице ниже показано, как современная серия RTDETRv2 сравнивается с масштабируемым семейством EfficientDet.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

As seen above, RTDETRv2 achieves significantly higher mean Average Precision (mAP) at comparable parameter counts to the mid-tier EfficientDet models, heavily utilizing its transformer architecture to boost accuracy.

Link to this sectionСценарии использования и рекомендации#

Выбор между RT-DETR и EfficientDet зависит от конкретных требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.

Link to this sectionКогда выбирать RT-DETR#

RT-DETR — отличный выбор для:

  • Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
  • Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.

Link to this sectionКогда стоит выбрать EfficientDet#

EfficientDet рекомендуется для:

  • Конвейеры Google Cloud и TPU: Системы с глубокой интеграцией в Google Cloud Vision API или инфраструктуру TPU, где EfficientDet имеет встроенную оптимизацию.
  • Исследования составного масштабирования: Академическое тестирование, сфокусированное на изучении эффектов сбалансированного масштабирования глубины, ширины и разрешения сети.
  • Развертывание на мобильных устройствах через TFLite: Проекты, требующие экспорта в TensorFlow Lite специально для Android или встраиваемых систем на базе Linux.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

  • Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
  • Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
  • Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionАльтернатива от Ultralytics: Продвижение современных технологий#

Хотя RTDETRv2 и EfficientDet обладают сильными сторонами, современная AI-разработка требует фреймворков, которые предлагают бесшовный пользовательский опыт разработчика наряду с передовой производительностью. Экосистема Ultralytics обеспечивает значительно более оптимизированный подход к задачам компьютерного зрения.

Если ты изучаешь современные методы детектирования, недавно выпущенная Ultralytics YOLO26 объединяет лучшие аспекты CNN и трансформеров.

Почему стоит выбрать YOLO26?

YOLO26 implements an End-to-End NMS-Free Design, bringing the deployment simplicity of RTDETRv2 to the ultra-efficient YOLO architecture. Furthermore, it introduces the MuSGD Optimizer—inspired by LLM training innovations—for superior training stability. With DFL Removal (Distribution Focal Loss removed for simplified export and better edge/low-power device compatibility), YOLO26 boasts up to 43% faster CPU inference than previous generations, making it an exceptional choice for edge computing over heavier models. Additionally, ProgLoss + STAL delivers improved loss functions with notable improvements in small-object recognition, critical for IoT, robotics, and aerial imagery.

Простота использования, предоставляемая пакетом Ultralytics Python, не имеет аналогов. Разработчики могут обучать, валидировать и экспортировать модели, используя интуитивно понятный API, который избавляет от необходимости писать шаблонный код, обычно требуемый исследовательскими репозиториями.

from ultralytics import RTDETR

# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized inference on TensorRT
model.export(format="engine")

Модели Ultralytics нативно поддерживают несколько задач, включая сегментацию экземпляров и классификацию изображений, предоставляя универсальный инструментарий для разнообразных нужд индустрии. Более того, удаление Distribution Focal Loss (DFL) в современных моделях Ultralytics упрощает вычислительный граф, гарантируя более плавный экспорт на встроенные NPU и TPU.

Для бесшовной разметки данных и управления моделями платформа Ultralytics предоставляет комплексную облачную среду для контроля полного жизненного цикла машинного обучения, утверждая себя как лучший выбор для развертывания надежных решений компьютерного зрения в производстве.

Контрибьюторы

Комментарии