Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO26 против RTDETRv2#

Ландшафт компьютерного зрения постоянно развивается, ставя перед специалистами критически важный выбор: использовать ли глубоко оптимизированные сверточные нейронные сети (CNN) или внедрять новые архитектуры на базе Transformer? Два заметных претендента в этой области — передовой Ultralytics YOLO26 и RTDETRv2 от Baidu. Обе модели раздвигают границы обнаружения объектов в реальном времени, но опираются на фундаментально разные архитектурные философии.

Это руководство содержит глубокий технический разбор обеих моделей, сравнивая их структуры, показатели производительности и идеальные сценарии использования, чтобы помочь тебе выбрать наилучшую основу для твоего следующего проекта в области компьютерного зрения.

Link to this sectionUltralytics YOLO26: вершина Vision AI для периферийных вычислений#

Разработанный Ultralytics, YOLO26 представляет собой огромный эволюционный скачок для семейства YOLO. Выпущенный в январе 2026 года, он создан специально для скорости, точности и беспрепятственного развертывания в облачных и периферийных средах.

Link to this sectionАрхитектурные инновации и преимущества#

YOLO26 внедряет несколько новаторских функций, которые отличают его не только от моделей Transformer, но и от предыдущих итераций, таких как YOLO11:

  • Дизайн без NMS (End-to-End): YOLO26 исключает традиционное подавление немаксимумов (NMS) при постобработке. Этот подход, впервые примененный в таких моделях, как YOLOv10, является полностью сквозным (end-to-end), что снижает вариативность задержки вывода и упрощает логику развертывания, особенно на периферийном оборудовании.
  • До 43% быстрее вывод на CPU: Осознавая растущую потребность в децентрализованном ИИ, YOLO26 глубоко оптимизирован для устройств без выделенных GPU, таких как Raspberry Pi.
  • Удаление DFL: Убрав Distribution Focal Loss (DFL), YOLO26 предлагает упрощенный процесс экспорта и значительно улучшенную совместимость с маломощными периферийными устройствами и микроконтроллерами.
  • Оптимизатор MuSGD: Соединяя обучение больших языковых моделей (LLM) и компьютерное зрение, YOLO26 использует оптимизатор MuSGD. Этот гибрид SGD и Muon, вдохновленный Kimi K2 от Moonshot AI, обеспечивает надежную стабильность обучения и более быструю сходимость.
  • ProgLoss + STAL: Передовые функции потерь привносят заметные улучшения в распознавание мелких объектов. Это критически важно для отраслей, опирающихся на анализ аэрофотоснимков и датчики Интернета вещей (IoT).

Узнай больше о YOLO26

Link to this sectionУниверсальность в задачах компьютерного зрения#

В отличие от моделей, ограниченных строго ограничивающими рамками, YOLO26 — это универсальная мощная система. Он включает в себя улучшения для конкретных задач, такие как функция потерь для семантической сегментации и multi-scale proto для сегментации экземпляров, оценку остаточного логарифмического правдоподобия (RLE) для оценки позы и специализированную функцию потерь по углу для решения граничных проблем в задачах ориентированных ограничивающих рамок (OBB).

Стратегия развертывания на периферии

При развертывании на периферийных устройствах используй варианты YOLO26n (Nano) или YOLO26s (Small). Экспорт этих моделей в CoreML или TFLite происходит беспрепятственно благодаря удалению DFL и архитектуре без NMS, что гарантирует плавную работу в реальном времени на iOS и Android.

Link to this sectionRTDETRv2: улучшение трансформеров для обнаружения в реальном времени#

RTDETRv2, разработанный исследователями Baidu, базируется на оригинальной архитектуре RT-DETR. Его цель — доказать, что трансформеры для обнаружения (DETR) могут конкурировать со скоростью и точностью высокооптимизированных CNN, а иногда и превосходить их в сценариях реального времени.

Link to this sectionАрхитектура и возможности#

RTDETRv2 использует архитектуру на базе Transformer, которая по своей сути обрабатывает изображения иначе, чем CNN, задействуя механизмы самовнимания (self-attention) для понимания глобального контекста.

  • Bag-of-Freebies: Итерация v2 представляет серию оптимизированных методов обучения (набор «бесплатных» улучшений), которые повышают базовую производительность без дополнительных затрат на вывод.
  • Осведомленность о глобальном контексте: Благодаря слоям внимания трансформера, RTDETRv2 естественным образом адаптирован к пониманию сложных сцен, где глобальный контекст необходим для различения перекрывающихся или заслоненных объектов.

Узнай больше о RTDETR

Link to this sectionОграничения моделей Transformer#

Будучи мощными, основанные на Transformer модели детектирования, такие как RTDETRv2, часто сталкиваются с трудностями при практическом развертывании. Как правило, они требуют больше памяти CUDA во время обучения по сравнению с эффективными CNN. Кроме того, интеграция в разнообразные периферийные среды может быть обременительной из-за сложных операций, требуемых слоями внимания, что делает такие модели, как YOLO26, гораздо более привлекательными для развертывания в условиях ограниченных ресурсов.

Link to this sectionСравнение производительности#

Сравнение этих моделей напрямую раскрывает ощутимые преимущества новейших оптимизаций CNN. В таблице ниже показана их производительность на стандартных бенчмарках.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Как показано, YOLO26 стабильно превосходит RTDETRv2 во всех вариантах размера. YOLO26x достигает впечатляющих 57.5 mAP с меньшей задержкой (11.8 мс на TensorRT) и значительно меньшим количеством параметров (55.7M) по сравнению с RTDETRv2-x (54.3 mAP, 15.03 мс, 76M параметров).

Link to this sectionСценарии использования и рекомендации#

Выбор между YOLO26 и RT-DETR зависит от требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.

Link to this sectionКогда стоит выбрать YOLO26#

YOLO26 — отличный выбор для:

  • Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
  • Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
  • Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionКогда выбирать RT-DETR#

RT-DETR рекомендуется для:

  • Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
  • Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.

Link to this sectionПреимущество Ultralytics#

Выбор правильной архитектуры машинного обучения — это лишь часть уравнения; окружающая экосистема определяет, как быстро команда сможет перейти от прототипирования к продакшену.

Link to this sectionПростота использования и эффективность обучения#

Ultralytics Python API предлагает удивительно оптимизированный опыт работы. Обучение сложных моделей больше не требует объемного шаблонного кода. Более того, эффективность обучения YOLO26 существенно выше, так как он использует гораздо меньше видеопамяти GPU по сравнению с требовательными к памяти механизмами внимания RTDETRv2, что позволяет использовать большие размеры батчей даже на потребительском оборудовании.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for seamless deployment
model.export(format="onnx")

Link to this sectionХорошо поддерживаемая экосистема#

Используя модели Ultralytics, разработчики получают доступ к активно поддерживаемому фреймворку, который интегрируется нативно с современными инструментами отслеживания, такими как Weights & Biases и Comet ML. Для тех, кто предпочитает подход без написания кода, платформа Ultralytics облегчает облачное обучение, управление наборами данных и развертывание в один клик.

Link to this sectionБаланс производительности#

YOLO26 обеспечивает непревзойденный баланс между скоростью вывода и точностью. Удаление NMS в сочетании с оптимизатором MuSGD гарантирует, что ты развертываешь модель, которая одновременно очень точна на мелких объектах (благодаря ProgLoss + STAL) и невероятно быстра в продакшене, что делает ее лучшим выбором почти для всех современных приложений компьютерного зрения.

Link to this sectionДругие модели в экосистеме#

Хотя YOLO26 и RTDETRv2 покрывают передний край обнаружения в реальном времени, разработчики, поддерживающие устаревшие конвейеры или изучающие другие кривые эффективности, могут также рассмотреть YOLOv8 для устоявшихся корпоративных сред или изучить другие архитектуры, такие как EfficientDet. Однако для любой новой инициативы YOLO26 остается окончательной рекомендацией.

Участники

Комментарии