Перейти к содержанию

YOLO26 против RTDETRv2: техническое противостояние 2026 года

Область обнаружения объектов быстро развивается. Два основных конкурента вышли в лидеры в этой области: Ultralytics и RTDETRv2. Хотя обе модели расширяют границы точности и скорости, они используют принципиально разные архитектурные концепции. YOLO26 продолжает традицию эффективности на основе CNN с революционными сквозными оптимизациями, тогда как RTDETRv2 усовершенствует подход на основе трансформатора для приложений реального времени.

В этом всеобъемлющем руководстве анализируются их технические характеристики, показатели производительности и идеальные варианты использования, чтобы помочь разработчикам выбрать подходящий инструмент для своих проектов в области компьютерного зрения.

Краткое сравнение

В следующей таблице показаны различия в производительности между YOLO26 и RTDETRv2 на COCO . Ключевые показатели включают среднюю среднюю точность (mAP) и скорость вывода как на CPU GPU .

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Обзор Ultralytics

Выпущенный в январе 2026 года, YOLO26 представляет собой вершину YOLO . Разработанный Гленном Джочером и Цзин Цю в Ultralytics, эта модель представляет собой комплексную конструкцию NMS, устраняющую необходимость в подавлении неактивных пикселей (NMS) во время постобработки. Это изменение архитектуры значительно упрощает развертывание и снижает разброс задержек — прорыв, впервые исследованный в YOLOv10 теперь доведенный до совершенства для производства.

Основные инновации

  • АрхитектураNMS: встроенное сквозное обнаружение означает, что выходные данные модели не требуют сложной постобработки, что обеспечивает стабильную скорость в условиях перегруженных сцен.
  • MuSGD Optimizer: вдохновленный Kimi K2 от Moonshot AI, этот гибрид SGD Muon обеспечивает стабильность обучения больших языковых моделей (LLM) для задач визуального восприятия, что приводит к более быстрой конвергенции.
  • Эффективность Edge-First: благодаря устранению Distribution Focal Loss (DFL) YOLO26 работает на процессорах на 43 % быстрее по сравнению с предыдущими поколениями, что делает его идеальным решением для периферийных устройств, таких как Raspberry Pi или мобильные телефоны.
  • ProgLoss + STAL: новые функции потери улучшают обнаружение мелких объектов, что крайне важно для аэрофотосъемки и удаленного наблюдения.

Узнайте больше о YOLO26

Обзор RTDETRv2

RTDETRv2, разработанный Вэнью Лю и командой Baidu, основан на успехе оригинального Real-Time DEtection TRansformer (RT-DETR). Его цель — доказать, что архитектуры на основе трансформаторов могут конкурировать с CNN в сценариях реального времени за счет использования гибридного кодировщика и эффективной стратегии сопоставления.

Основные характеристики

  • Архитектура трансформера: использует механизмы самовнимания для захвата глобального контекста, что может быть полезно для обнаружения крупных объектов или понимания сложных сцен.
  • Bag-of-Freebies: включает в себя усовершенствованные стратегии обучения и архитектурные настройки для повышения точности без увеличения затрат на вывод.
  • Динамическая шкала: предлагает гибкую стратегию масштабирования для различных аппаратных ограничений, хотя, как правило, требует больше GPU , чем аналогичные CNN.

Архитектурное Глубокое Погружение

Основное различие заключается в их структуре и дизайне. YOLO26 использует высокооптимизированную структуру CNN, которая отличается высокой эффективностью извлечения локальных характеристик и вычислительной эффективностью. Его модули внимания «Flash-Occult» (легкая альтернатива стандартному вниманию) обеспечивают глобальный контекст без больших вычислительных затрат полных трансформаторов.

В отличие от этого, RTDETRv2 основан на гибридной конструкции, в которой магистраль CNN подает данные в кодировщик-декодировщик трансформатора. Хотя это обеспечивает отличное понимание глобального контекста, механизм внимания, присущий трансформаторам, обычно требует значительно больше CUDA во время обучения и вывода. Это делает RTDETRv2 менее подходящим для сред с ограниченным объемом памяти по сравнению с компактным YOLO26.

Рекомендации по аппаратному обеспечению

Если вы развертываете на процессорах или периферийных устройствах, таких как NVIDIA , YOLO26, как правило, является лучшим выбором благодаря оптимизированному набору операторов и более низкому значению FLOP. RTDETRv2 превосходит его в первую очередь на высокопроизводительных графических процессорах, где умножение матриц может быть эффективно параллелизовано.

Преимущество Ultralytics

Помимо показателей производительности, экосистема программного обеспечения играет важную роль в успехе проекта.

1. Простота использования и экосистема

Ultralytics славятся своим «нулевым» опытом. Python Ultralytics объединяет обучение, валидацию и развертывание в единый интуитивно понятный интерфейс.

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your data with a single command
results = model.train(data="coco8.yaml", epochs=100)

# Export to ONNX for deployment
model.export(format="onnx")

RTDETRv2, в основном используемый в качестве репозитория исследований, часто требует более тщательной настройки вручную и знакомства со сложными конфигурационными файлами. Ultralytics обеспечивает долгосрочную поддержку благодаря частым обновлениям, в то время как репозитории исследований могут перестать обновляться после публикации.

2. Универсальность

В то время как RTDETRv2 ориентирован исключительно на обнаружение объектов, YOLO26 поддерживает широкий спектр задач в рамках одной и той же структуры:

3. Эффективность обучения

Обучение моделей на основе трансформаторов, таких как RTDETRv2, требует значительных ресурсов и часто требует более длительных графиков обучения (большего количества эпох) для достижения сходимости. YOLO26 с его эффективной базовой структурой CNN и новым оптимизатором MuSGD достигает сходимости быстрее и требует меньшего GPU . Это позволяет разработчикам использовать более крупные размеры пакетов на потребительском оборудовании, что делает доступ к передовым технологиям искусственного интеллекта более демократичным.

Идеальные варианты использования

Выберите YOLO26, если:

  • Развертывание в реальном времени на периферии: вам нужна высокая частота кадров на мобильных телефонах, Raspberry Pi или встроенных камерах. CPU на 43 % — это настоящая революция в этой области.
  • Простая интеграция: вы предпочитаете стандартизированный API, который автоматически обрабатывает увеличение объема данных, отслеживание метрик и экспорт.
  • Требования к многозадачности: Ваш проект включает сегментацию или оценку позы наряду с обнаружением.
  • Коммерческая стабильность: вам нужна модель, поддерживаемая активной организацией с возможностями корпоративной поддержки.

Выбирайте RTDETRv2, если:

  • Исследования и эксперименты: Вы изучаете трансформеры зрения и нуждаетесь в надежной базовой линии для академического сравнения.
  • GPU высокопроизводительных GPU : у вас есть достаточные вычислительные ресурсы (например, кластеры A100), и задержка не является такой серьезной проблемой, как изучение архитектур трансформаторов.
  • Специфический глобальный контекст: в редких случаях, когда глобальный контекст имеет первостепенное значение, а CNN испытывают трудности, механизм внимания может дать небольшое преимущество, хотя и за счет скорости.

Заключение

Обе модели представляют собой значительные достижения в области компьютерного зрения. RTDETRv2 демонстрирует потенциал трансформеров в области обнаружения, предлагая мощную альтернативу для приложений, требующих интенсивных исследований. Однако для практического внедрения в реальных условиях, где критически важен баланс скорости, точности и простоты использования, Ultralytics выделяется как лучший выбор. Его нативная сквозная архитектура, уменьшенный объем памяти и интеграция в надежную Ultralytics делают его идеальным решением для разработчиков в 2026 году.

Если вас интересуют другие высокопроизводительные варианты, обратите внимание на YOLO11 для проверенной надежности или YOLO для задач обнаружения с открытым словарем.


Комментарии