YOLO26 против RTDETRv2: Всестороннее сравнение современных архитектур обнаружения объектов
Ландшафт компьютерного зрения постоянно развивается, ставя перед специалистами критический выбор: следует ли использовать высокооптимизированные сверточные нейронные сети (CNN) или применять более новые архитектуры на основе трансформеров? Двумя заметными претендентами на этой арене являются передовая Ultralytics YOLO26 и RTDETRv2 от Baidu. Обе модели расширяют границы обнаружения объектов в реальном времени, но опираются на принципиально разные архитектурные философии.
Это руководство предоставляет глубокий технический анализ обеих моделей, сравнивая их структуры, метрики производительности и идеальные сценарии использования, чтобы помочь вам выбрать лучшую основу для вашего следующего проекта в области компьютерного зрения.
Ultralytics YOLO26: Вершина ИИ для зрения, ориентированного на периферийные вычисления
Разработанный Ultralytics, YOLO26 представляет собой огромный скачок для семейства YOLO. Выпущенный в январе 2026 года, он разработан специально для обеспечения скорости, точности и бесшовного развертывания в облачных и периферийных средах.
- Авторы: Гленн Джочер и Цзин Цю
- Организация:Ultralytics
- Дата: 2026-01-14
- GitHub:Репозиторий Ultralytics
- Документация:Официальная документация YOLO26
Архитектурные инновации и сильные стороны
YOLO26 представляет несколько новаторских функций, которые отличают его не только от моделей Transformer, но и от более ранних итераций, таких как YOLO11:
- Сквозная архитектура без NMS: YOLO26 исключает традиционную постобработку Non-Maximum Suppression (NMS). Этот изначально сквозной подход, впервые примененный в таких моделях, как YOLOv10, снижает вариативность задержки инференса и упрощает логику развертывания, особенно на периферийных устройствах.
- До 43% более быстрый инференс на CPU: Признавая растущую потребность в децентрализованном ИИ, YOLO26 высоко оптимизирован для устройств без выделенных GPU, таких как Raspberry Pi.
- Удаление DFL: За счет исключения Distribution Focal Loss (DFL), YOLO26 предлагает упрощенный процесс экспорта и значительно улучшенную совместимость с маломощными периферийными устройствами и микроконтроллерами.
- Оптимизатор MuSGD: Сокращая разрыв между обучением больших языковых моделей (LLM) и компьютерным зрением, YOLO26 использует оптимизатор MuSGD. Этот гибрид SGD и Muon, вдохновленный Kimi K2 от Moonshot AI, обеспечивает надежную стабильность обучения и более быструю сходимость.
- ProgLoss + STAL: Продвинутые функции потерь приносят заметные улучшения в распознавание мелких объектов. Это критически важно для отраслей, зависящих от анализа аэрофотоснимков и датчиков Интернета вещей (IoT).
Универсальность в задачах компьютерного зрения
В отличие от моделей, строго ограниченных ограничивающими рамками, YOLO26 является универсальным и мощным инструментом. Он включает улучшения, специфичные для задач, такие как функция потерь семантической сегментации и многомасштабный прототип для сегментации экземпляров, оценка остаточного логарифмического правдоподобия (RLE) для оценки позы и специализированная угловая функция потерь для решения проблем границ в задачах ориентированных ограничивающих рамок (OBB).
Стратегия граничного развертывания
При развертывании на периферийных устройствах используйте YOLO26n (Nano) или YOLO26s (Small) варианты. Экспорт этих моделей в CoreML или TFLite работает без проблем благодаря удалению DFL и архитектуре без NMS, гарантируя плавную работу в реальном времени на iOS и Android.
RTDETRv2: Улучшение трансформеров обнаружения в реальном времени
RTDETRv2, разработанный исследователями из Baidu, основывается на оригинальной архитектуре RT-DETR. Его цель — доказать, что трансформеры обнаружения (DETR) могут конкурировать, а иногда и превосходить, по скорости и точности высокооптимизированные CNN в сценариях реального времени.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация:Baidu
- Дата: 2024-07-24
- Arxiv:2407.17140
- GitHub:Реализация RT-DETRv2 на PyTorch
- Документация:RT-DETRv2 README
Архитектура и возможности
RTDETRv2 использует архитектуру на основе трансформера, которая по своей природе обрабатывает изображения иначе, чем CNN, задействуя механизмы самовнимания для понимания глобального контекста.
- Bag-of-Freebies: Итерация v2 представляет серию оптимизированных методов обучения (bag-of-freebies), которые улучшают базовую производительность без увеличения затрат на инференс.
- Понимание глобального контекста: Благодаря слоям внимания Transformer, RTDETRv2 естественно способен понимать сложные сцены, где глобальный контекст необходим для различения перекрывающихся или окклюдированных объектов.
Ограничения моделей-трансформеров
Хотя мощные, модели обнаружения на основе трансформеров, такие как RTDETRv2, часто сталкиваются с проблемами при практическом развертывании. Они обычно демонстрируют более высокие требования к памяти CUDA во время обучения по сравнению с эффективными CNN. Кроме того, их интеграция в различные периферийные среды может быть затруднительной из-за сложных операций, требуемых слоями внимания, что делает модели, такие как YOLO26, гораздо более привлекательными для развертываний с ограниченными ресурсами.
Сравнение производительности
Сравнительная оценка этих моделей выявляет ощутимые преимущества последних оптимизаций CNN. В таблице ниже изложена их производительность на стандартных бенчмарках.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Как показано, YOLO26 стабильно превосходит RTDETRv2 во всех вариантах размеров. YOLO26x достигает замечательного показателя 57.5 mAP с меньшей задержкой (11.8 мс на TensorRT) и значительно меньшим количеством параметров (55.7M), чем RTDETRv2-x (54.3 mAP, 15.03 мс, 76M параметров).
Сценарии использования и рекомендации
Выбор между YOLO26 и RT-DETR зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда выбирать YOLO26
YOLO26 является отличным выбором для:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Когда выбрать RT-DETR
RT-DETR рекомендуется для:
- Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
- Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
- Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.
Преимущество Ultralytics
Выбор правильной архитектуры машинного обучения — это лишь часть уравнения; окружающая экосистема определяет, насколько быстро команда может перейти от прототипирования к производству.
Простота использования и эффективность обучения
The Python API Ultralytics предлагает заметно оптимизированный опыт. Обучение сложных моделей больше не требует многословного шаблонного кода. Кроме того, эффективность обучения YOLO26 значительно выше, поскольку он использует значительно меньше видеопамяти GPU, чем ресурсоемкие механизмы внимания RTDETRv2, что позволяет использовать большие размеры пакетов даже на потребительском оборудовании.
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for seamless deployment
model.export(format="onnx")
Хорошо поддерживаемая экосистема
Используя модели Ultralytics, разработчики получают доступ к активно поддерживаемому фреймворку, который нативно интегрируется с современными инструментами трекинга, такими как Weights & Biases и Comet ML. Для тех, кто предпочитает подход без кода, платформа Ultralytics упрощает облачное обучение, управление наборами данных и развертывание в один клик.
Баланс производительности
YOLO26 достигает беспрецедентного баланса между скоростью вывода и точностью. Устранение NMS в сочетании с оптимизатором MuSGD гарантирует развертывание модели, которая одновременно высокоточна для мелких объектов (благодаря ProgLoss + STAL) и невероятно быстра в производстве, что делает ее превосходным выбором практически для всех современных приложений компьютерного зрения.
Другие модели в экосистеме
Хотя YOLO26 и RTDETRv2 представляют собой передовой край обнаружения в реальном времени, разработчики, поддерживающие устаревшие конвейеры или исследующие различные кривые эффективности, могут также рассмотреть YOLOv8 для устоявшихся корпоративных сред или изучить другие архитектуры, такие как EfficientDet. Однако для любой новой инициативы YOLO26 является окончательной рекомендацией.