YOLO26 против RTDETRv2: комплексное сравнение современных архитектур для обнаружения объектов

Ландшафт компьютерного зрения постоянно развивается, ставя перед разработчиками критически важный выбор: использовать ли высокооптимизированные сверточные нейронные сети (CNN) или внедрять более новые архитектуры на базе Transformer? Двумя заметными претендентами на лидерство в этой области являются передовая Ultralytics YOLO26 и RTDETRv2 от Baidu. Обе модели расширяют границы обнаружения объектов в режиме реального времени, но опираются на фундаментально разные архитектурные философии.

Это руководство предлагает углубленный технический анализ обеих моделей, сравнивая их структуру, метрики производительности и идеальные сценарии использования, чтобы помочь тебе выбрать лучшую основу для твоего следующего проекта в области компьютерного зрения.

Ultralytics YOLO26: вершина Vision AI с упором на периферийные устройства

Разработанная Ultralytics, YOLO26 представляет собой огромный качественный скачок для семейства YOLO. Выпущенная в январе 2026 года, она разработана специально для скорости, точности и беспрепятственного развертывания в облачных и граничных средах (edge environments).

Архитектурные инновации и преимущества

YOLO26 представляет несколько новаторских функций, которые отличают её не только от моделей Transformer, но и от предыдущих версий, таких как YOLO11:

  • Дизайн end-to-end без NMS: YOLO26 исключает традиционное подавление немаксимумов (NMS) при постобработке. Этот подход, впервые примененный в таких моделях, как YOLOv10, является нативным end-to-end решением, снижает вариативность задержки вывода и упрощает логику развертывания, особенно на периферийном оборудовании.
  • Ускорение CPU-вывода до 43%: Осознавая растущую потребность в децентрализованном AI, YOLO26 была высокооптимизирована для устройств без выделенных GPU, таких как Raspberry Pi.
  • Удаление DFL: Убрав Distribution Focal Loss (DFL), YOLO26 предлагает упрощенный процесс экспорта и значительно улучшенную совместимость с маломощными периферийными устройствами и микроконтроллерами.
  • Оптимизатор MuSGD: Соединяя обучение больших языковых моделей (LLM) и компьютерное зрение, YOLO26 использует оптимизатор MuSGD. Этот гибрид SGD и Muon, вдохновленный Kimi K2 от Moonshot AI, обеспечивает высокую стабильность обучения и более быструю сходимость.
  • ProgLoss + STAL: Усовершенствованные функции потерь привносят заметные улучшения в распознавание мелких объектов. Это критически важно для отраслей, полагающихся на анализ аэрофотоснимков и сенсоры Интернета вещей (IoT).

Узнай больше о YOLO26

Универсальность для задач компьютерного зрения

В отличие от моделей, ограниченных только ограничивающими рамками (BBox), YOLO26 — это универсальный инструмент. Она включает в себя улучшения для конкретных задач, такие как функция потерь для семантической сегментации и multi-scale proto для сегментации экземпляров, RLE (Residual Log-Likelihood Estimation) для оценки позы, а также специализированную функцию потерь по углу для решения граничных проблем в задачах ориентированных ограничивающих рамок (OBB).

Стратегия развертывания на периферии

При развертывании на периферийных устройствах используй варианты YOLO26n (Nano) или YOLO26s (Small). Экспорт этих моделей в CoreML или TFLite происходит беспрепятственно благодаря удалению DFL и архитектуре без NMS, что гарантирует плавную работу в реальном времени на iOS и Android.

RTDETRv2: улучшение трансформеров для детектирования в реальном времени

RTDETRv2, разработанная исследователями из Baidu, базируется на оригинальном фреймворке RT-DETR. Она призвана доказать, что трансформеры для детектирования (DETR) могут конкурировать и иногда превосходить скорость и точность высокооптимизированных CNN в сценариях реального времени.

Архитектура и возможности

RTDETRv2 использует архитектуру на базе Transformer, которая по своей природе обрабатывает изображения иначе, чем CNN, используя механизмы self-attention для понимания глобального контекста.

  • Bag-of-Freebies: Итерация v2 представляет серию оптимизированных методов обучения (bag-of-freebies), которые улучшают базовую производительность без увеличения затрат на вывод (inference cost).
  • Глобальная контекстная осведомленность: Благодаря слоям внимания Transformer, RTDETRv2 естественным образом приспособлена к пониманию сложных сцен, где глобальный контекст необходим для различения перекрывающихся или заслоненных объектов.

Узнай больше о RTDETR

Ограничения моделей на базе Transformer

Несмотря на свою мощь, модели детектирования на базе Transformer, такие как RTDETRv2, часто сталкиваются с трудностями при практическом развертывании. Как правило, они требуют больше памяти CUDA во время обучения по сравнению с эффективными CNN. Кроме того, их интеграция в разнообразные периферийные среды может быть обременительной из-за сложных операций, требуемых слоями внимания, что делает такие модели, как YOLO26, гораздо более привлекательными для развертывания в условиях ограниченных ресурсов.

Сравнение производительности

Сравнение этих моделей напрямую раскрывает ощутимые преимущества последних оптимизаций CNN. В таблице ниже приведена их производительность на стандартных бенчмарках.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Как показано, YOLO26 неизменно превосходит RTDETRv2 во всех размерных вариантах. YOLO26x достигает впечатляющих 57.5 mAP с меньшей задержкой (11.8 мс на TensorRT) и значительно меньшим количеством параметров (55.7 млн) по сравнению с RTDETRv2-x (54.3 mAP, 15.03 мс, 76 млн параметров).

Варианты использования и рекомендации

Выбор между YOLO26 и RT-DETR зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать YOLO26

YOLO26 — отличный выбор, если:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Когда стоит выбирать RT-DETR

RT-DETR рекомендуется для:

  • Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
  • Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.

Преимущество Ultralytics

Выбор правильной архитектуры машинного обучения — это лишь часть уравнения; окружающая экосистема определяет, как быстро команда сможет перейти от прототипирования к производству.

Простота использования и эффективность обучения

Python API от Ultralytics предлагает удивительно оптимизированный опыт работы. Обучение сложных моделей больше не требует громоздкого шаблонного кода. Более того, эффективность обучения YOLO26 существенно выше: она потребляет гораздо меньше VRAM GPU, чем интенсивно использующие память механизмы внимания в RTDETRv2, что позволяет использовать большие размеры пакетов (batch sizes) даже на оборудовании потребительского уровня.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for seamless deployment
model.export(format="onnx")

Хорошо поддерживаемая экосистема

Используя модели Ultralytics, разработчики получают доступ к активно поддерживаемому фреймворку, который нативно интегрируется с современными инструментами отслеживания, такими как Weights & Biases и Comet ML. Для тех, кто предпочитает подход без написания кода, платформа Ultralytics упрощает облачное обучение, управление наборами данных и развертывание в один клик.

Баланс производительности

YOLO26 обеспечивает непревзойденный баланс между скоростью вывода и точностью. Удаление NMS в сочетании с оптимизатором MuSGD гарантирует, что ты разворачиваешь модель, которая одинаково точна для мелких объектов (благодаря ProgLoss + STAL) и невероятно быстра в производстве, что делает её лучшим выбором почти для всех современных приложений компьютерного зрения.

Другие модели в экосистеме

Хотя YOLO26 и RTDETRv2 охватывают передовые рубежи детектирования в реальном времени, разработчикам, поддерживающим старые пайплайны или исследующим другие кривые эффективности, стоит рассмотреть YOLOv8 для налаженных корпоративных сред или изучить другие архитектуры, такие как EfficientDet. Однако для любой новой инициативы YOLO26 является окончательной рекомендацией.

Комментарии