YOLO26 против RTDETRv2: техническое противостояние 2026 года
Область обнаружения объектов быстро развивается. Два основных конкурента вышли в лидеры в этой области: Ultralytics и RTDETRv2. Хотя обе модели расширяют границы точности и скорости, они используют принципиально разные архитектурные концепции. YOLO26 продолжает традицию эффективности на основе CNN с революционными сквозными оптимизациями, тогда как RTDETRv2 усовершенствует подход на основе трансформатора для приложений реального времени.
В этом всеобъемлющем руководстве анализируются их технические характеристики, показатели производительности и идеальные варианты использования, чтобы помочь разработчикам выбрать подходящий инструмент для своих проектов в области компьютерного зрения.
Краткое сравнение
В следующей таблице показаны различия в производительности между YOLO26 и RTDETRv2 на COCO . Ключевые показатели включают среднюю среднюю точность (mAP) и скорость вывода как на CPU GPU .
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Обзор Ultralytics
Выпущенный в январе 2026 года, YOLO26 представляет собой вершину YOLO . Разработанный Гленном Джочером и Цзин Цю в Ultralytics, эта модель представляет собой комплексную конструкцию NMS, устраняющую необходимость в подавлении неактивных пикселей (NMS) во время постобработки. Это изменение архитектуры значительно упрощает развертывание и снижает разброс задержек — прорыв, впервые исследованный в YOLOv10 теперь доведенный до совершенства для производства.
Основные инновации
- АрхитектураNMS: встроенное сквозное обнаружение означает, что выходные данные модели не требуют сложной постобработки, что обеспечивает стабильную скорость в условиях перегруженных сцен.
- MuSGD Optimizer: вдохновленный Kimi K2 от Moonshot AI, этот гибрид SGD Muon обеспечивает стабильность обучения больших языковых моделей (LLM) для задач визуального восприятия, что приводит к более быстрой конвергенции.
- Эффективность Edge-First: благодаря устранению Distribution Focal Loss (DFL) YOLO26 работает на процессорах на 43 % быстрее по сравнению с предыдущими поколениями, что делает его идеальным решением для периферийных устройств, таких как Raspberry Pi или мобильные телефоны.
- ProgLoss + STAL: новые функции потери улучшают обнаружение мелких объектов, что крайне важно для аэрофотосъемки и удаленного наблюдения.
Обзор RTDETRv2
RTDETRv2, разработанный Вэнью Лю и командой Baidu, основан на успехе оригинального Real-Time DEtection TRansformer (RT-DETR). Его цель — доказать, что архитектуры на основе трансформаторов могут конкурировать с CNN в сценариях реального времени за счет использования гибридного кодировщика и эффективной стратегии сопоставления.
Основные характеристики
- Архитектура трансформера: использует механизмы самовнимания для захвата глобального контекста, что может быть полезно для обнаружения крупных объектов или понимания сложных сцен.
- Bag-of-Freebies: включает в себя усовершенствованные стратегии обучения и архитектурные настройки для повышения точности без увеличения затрат на вывод.
- Динамическая шкала: предлагает гибкую стратегию масштабирования для различных аппаратных ограничений, хотя, как правило, требует больше GPU , чем аналогичные CNN.
Архитектурное Глубокое Погружение
Основное различие заключается в их структуре и дизайне. YOLO26 использует высокооптимизированную структуру CNN, которая отличается высокой эффективностью извлечения локальных характеристик и вычислительной эффективностью. Его модули внимания «Flash-Occult» (легкая альтернатива стандартному вниманию) обеспечивают глобальный контекст без больших вычислительных затрат полных трансформаторов.
В отличие от этого, RTDETRv2 основан на гибридной конструкции, в которой магистраль CNN подает данные в кодировщик-декодировщик трансформатора. Хотя это обеспечивает отличное понимание глобального контекста, механизм внимания, присущий трансформаторам, обычно требует значительно больше CUDA во время обучения и вывода. Это делает RTDETRv2 менее подходящим для сред с ограниченным объемом памяти по сравнению с компактным YOLO26.
Рекомендации по аппаратному обеспечению
Если вы развертываете на процессорах или периферийных устройствах, таких как NVIDIA , YOLO26, как правило, является лучшим выбором благодаря оптимизированному набору операторов и более низкому значению FLOP. RTDETRv2 превосходит его в первую очередь на высокопроизводительных графических процессорах, где умножение матриц может быть эффективно параллелизовано.
Преимущество Ultralytics
Помимо показателей производительности, экосистема программного обеспечения играет важную роль в успехе проекта.
1. Простота использования и экосистема
Ultralytics славятся своим «нулевым» опытом. Python Ultralytics объединяет обучение, валидацию и развертывание в единый интуитивно понятный интерфейс.
from ultralytics import YOLO
# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your data with a single command
results = model.train(data="coco8.yaml", epochs=100)
# Export to ONNX for deployment
model.export(format="onnx")
RTDETRv2, в основном используемый в качестве репозитория исследований, часто требует более тщательной настройки вручную и знакомства со сложными конфигурационными файлами. Ultralytics обеспечивает долгосрочную поддержку благодаря частым обновлениям, в то время как репозитории исследований могут перестать обновляться после публикации.
2. Универсальность
В то время как RTDETRv2 ориентирован исключительно на обнаружение объектов, YOLO26 поддерживает широкий спектр задач в рамках одной и той же структуры:
- Сегментация экземпляров: точное маскирование на уровне пикселей.
- Оценка позы: обнаружение ключевых точек для отслеживания людей или животных.
- OBB (ориентированная ограничивающая рамка): поворот обнаружения для аэро- и спутниковых снимков.
- Классификация: Категоризация целого изображения.
3. Эффективность обучения
Обучение моделей на основе трансформаторов, таких как RTDETRv2, требует значительных ресурсов и часто требует более длительных графиков обучения (большего количества эпох) для достижения сходимости. YOLO26 с его эффективной базовой структурой CNN и новым оптимизатором MuSGD достигает сходимости быстрее и требует меньшего GPU . Это позволяет разработчикам использовать более крупные размеры пакетов на потребительском оборудовании, что делает доступ к передовым технологиям искусственного интеллекта более демократичным.
Идеальные варианты использования
Выберите YOLO26, если:
- Развертывание в реальном времени на периферии: вам нужна высокая частота кадров на мобильных телефонах, Raspberry Pi или встроенных камерах. CPU на 43 % — это настоящая революция в этой области.
- Простая интеграция: вы предпочитаете стандартизированный API, который автоматически обрабатывает увеличение объема данных, отслеживание метрик и экспорт.
- Требования к многозадачности: Ваш проект включает сегментацию или оценку позы наряду с обнаружением.
- Коммерческая стабильность: вам нужна модель, поддерживаемая активной организацией с возможностями корпоративной поддержки.
Выбирайте RTDETRv2, если:
- Исследования и эксперименты: Вы изучаете трансформеры зрения и нуждаетесь в надежной базовой линии для академического сравнения.
- GPU высокопроизводительных GPU : у вас есть достаточные вычислительные ресурсы (например, кластеры A100), и задержка не является такой серьезной проблемой, как изучение архитектур трансформаторов.
- Специфический глобальный контекст: в редких случаях, когда глобальный контекст имеет первостепенное значение, а CNN испытывают трудности, механизм внимания может дать небольшое преимущество, хотя и за счет скорости.
Заключение
Обе модели представляют собой значительные достижения в области компьютерного зрения. RTDETRv2 демонстрирует потенциал трансформеров в области обнаружения, предлагая мощную альтернативу для приложений, требующих интенсивных исследований. Однако для практического внедрения в реальных условиях, где критически важен баланс скорости, точности и простоты использования, Ultralytics выделяется как лучший выбор. Его нативная сквозная архитектура, уменьшенный объем памяти и интеграция в надежную Ultralytics делают его идеальным решением для разработчиков в 2026 году.
Если вас интересуют другие высокопроизводительные варианты, обратите внимание на YOLO11 для проверенной надежности или YOLO для задач обнаружения с открытым словарем.