YOLO26 против RTDETRv2: техническое противостояние 2026 года

Область обнаружения объектов быстро развивается. Два основных конкурента вышли в лидеры в этой области: Ultralytics и RTDETRv2. Хотя обе модели расширяют границы точности и скорости, они используют принципиально разные архитектурные концепции. YOLO26 продолжает традицию эффективности на основе CNN с революционными сквозными оптимизациями, тогда как RTDETRv2 усовершенствует подход на основе трансформатора для приложений реального времени.

В этом всеобъемлющем руководстве анализируются их технические характеристики, показатели производительности и идеальные варианты использования, чтобы помочь разработчикам выбрать подходящий инструмент для своих проектов в области компьютерного зрения.

Краткое сравнение

В следующей таблице показаны различия в производительности между YOLO26 и RTDETRv2 на COCO . Ключевые показатели включают среднюю среднюю точность (mAP) и скорость вывода как на CPU GPU .

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Обзор Ultralytics

Выпущенный в январе 2026 года, YOLO26 представляет собой вершину YOLO . Разработанный Гленном Джочером и Цзин Цю в Ultralytics, эта модель представляет собой комплексную конструкцию NMS, устраняющую необходимость в подавлении неактивных пикселей (NMS) во время постобработки. Это изменение архитектуры значительно упрощает развертывание и снижает разброс задержек — прорыв, впервые исследованный в YOLOv10 теперь доведенный до совершенства для производства.

Основные инновации

АрхитектураNMS: встроенное сквозное обнаружение означает, что выходные данные модели не требуют сложной постобработки, что обеспечивает стабильную скорость в условиях перегруженных сцен.
MuSGD Optimizer: вдохновленный Kimi K2 от Moonshot AI, этот гибрид SGD Muon обеспечивает стабильность обучения больших языковых моделей (LLM) для задач визуального восприятия, что приводит к более быстрой конвергенции.
Эффективность Edge-First: благодаря устранению Distribution Focal Loss (DFL) YOLO26 работает на процессорах на 43 % быстрее по сравнению с предыдущими поколениями, что делает его идеальным решением для периферийных устройств, таких как Raspberry Pi или мобильные телефоны.
ProgLoss + STAL: новые функции потери улучшают обнаружение мелких объектов, что крайне важно для аэрофотосъемки и удаленного наблюдения.

Узнайте больше о YOLO26

Обзор RTDETRv2

RTDETRv2, разработанный Вэнью Лю и командой Baidu, основан на успехе оригинального Real-Time DEtection TRansformer (RT-DETR). Его цель — доказать, что архитектуры на основе трансформаторов могут конкурировать с CNN в сценариях реального времени за счет использования гибридного кодировщика и эффективной стратегии сопоставления.

Основные характеристики

Архитектура трансформера: использует механизмы самовнимания для захвата глобального контекста, что может быть полезно для обнаружения крупных объектов или понимания сложных сцен.
Bag-of-Freebies: включает в себя усовершенствованные стратегии обучения и архитектурные настройки для повышения точности без увеличения затрат на вывод.
Динамическая шкала: предлагает гибкую стратегию масштабирования для различных аппаратных ограничений, хотя, как правило, требует больше GPU , чем аналогичные CNN.

Архитектурное Глубокое Погружение

Основное различие заключается в их структуре и дизайне. YOLO26 использует высокооптимизированную структуру CNN, которая отличается высокой эффективностью извлечения локальных характеристик и вычислительной эффективностью. Его модули внимания «Flash-Occult» (легкая альтернатива стандартному вниманию) обеспечивают глобальный контекст без больших вычислительных затрат полных трансформаторов.

В отличие от этого, RTDETRv2 основан на гибридной конструкции, в которой магистраль CNN подает данные в кодировщик-декодировщик трансформатора. Хотя это обеспечивает отличное понимание глобального контекста, механизм внимания, присущий трансформаторам, обычно требует значительно больше CUDA во время обучения и вывода. Это делает RTDETRv2 менее подходящим для сред с ограниченным объемом памяти по сравнению с компактным YOLO26.

Рекомендации по аппаратному обеспечению

Если вы развертываете на процессорах или периферийных устройствах, таких как NVIDIA , YOLO26, как правило, является лучшим выбором благодаря оптимизированному набору операторов и более низкому значению FLOP. RTDETRv2 превосходит его в первую очередь на высокопроизводительных графических процессорах, где умножение матриц может быть эффективно параллелизовано.

Преимущество Ultralytics

Помимо показателей производительности, экосистема программного обеспечения играет важную роль в успехе проекта.

1. Простота использования и экосистема

Ultralytics славятся своим «нулевым» опытом. Python Ultralytics объединяет обучение, валидацию и развертывание в единый интуитивно понятный интерфейс.

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your data with a single command
results = model.train(data="coco8.yaml", epochs=100)

# Export to ONNX for deployment
model.export(format="onnx")

RTDETRv2, в основном используемый в качестве репозитория исследований, часто требует более тщательной настройки вручную и знакомства со сложными конфигурационными файлами. Ultralytics обеспечивает долгосрочную поддержку благодаря частым обновлениям, в то время как репозитории исследований могут перестать обновляться после публикации.

2. Универсальность

В то время как RTDETRv2 ориентирован исключительно на обнаружение объектов, YOLO26 поддерживает широкий спектр задач в рамках одной и той же структуры:

Сегментация экземпляров: точное маскирование на уровне пикселей.
Оценка позы: обнаружение ключевых точек для отслеживания людей или животных.
OBB (ориентированная ограничивающая рамка): поворот обнаружения для аэро- и спутниковых снимков.
Классификация: Категоризация целого изображения.

3. Эффективность обучения

Обучение моделей на основе трансформаторов, таких как RTDETRv2, требует значительных ресурсов и часто требует более длительных графиков обучения (большего количества эпох) для достижения сходимости. YOLO26 с его эффективной базовой структурой CNN и новым оптимизатором MuSGD достигает сходимости быстрее и требует меньшего GPU . Это позволяет разработчикам использовать более крупные размеры пакетов на потребительском оборудовании, что делает доступ к передовым технологиям искусственного интеллекта более демократичным.

Идеальные варианты использования

Выберите YOLO26, если:

Развертывание в реальном времени на периферии: вам нужна высокая частота кадров на мобильных телефонах, Raspberry Pi или встроенных камерах. CPU на 43 % — это настоящая революция в этой области.
Простая интеграция: вы предпочитаете стандартизированный API, который автоматически обрабатывает увеличение объема данных, отслеживание метрик и экспорт.
Требования к многозадачности: Ваш проект включает сегментацию или оценку позы наряду с обнаружением.
Коммерческая стабильность: вам нужна модель, поддерживаемая активной организацией с возможностями корпоративной поддержки.

Выбирайте RTDETRv2, если:

Исследования и эксперименты: Вы изучаете трансформеры зрения и нуждаетесь в надежной базовой линии для академического сравнения.
GPU высокопроизводительных GPU : у вас есть достаточные вычислительные ресурсы (например, кластеры A100), и задержка не является такой серьезной проблемой, как изучение архитектур трансформаторов.
Специфический глобальный контекст: в редких случаях, когда глобальный контекст имеет первостепенное значение, а CNN испытывают трудности, механизм внимания может дать небольшое преимущество, хотя и за счет скорости.

Заключение

Обе модели представляют собой значительные достижения в области компьютерного зрения. RTDETRv2 демонстрирует потенциал трансформеров в области обнаружения, предлагая мощную альтернативу для приложений, требующих интенсивных исследований. Однако для практического внедрения в реальных условиях, где критически важен баланс скорости, точности и простоты использования, Ultralytics выделяется как лучший выбор. Его нативная сквозная архитектура, уменьшенный объем памяти и интеграция в надежную Ultralytics делают его идеальным решением для разработчиков в 2026 году.

Если вас интересуют другие высокопроизводительные варианты, обратите внимание на YOLO11 для проверенной надежности или YOLO для задач обнаружения с открытым словарем.