Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 против YOLOv6-3.0#

Ландшафт компьютерного зрения постоянно развивается, предлагая разработчикам огромное количество архитектурных решений для обнаружения объектов. Две выдающиеся модели, представляющие различные подходы, — это RTDETRv2, современный vision transformer, и YOLOv6-3.0, высокооптимизированная сверточная нейронная сеть (CNN), адаптированная для промышленных задач.

Это всестороннее техническое сравнение рассматривает их архитектуры, показатели производительности и идеальные сценарии развертывания. Мы также изучим, как широкая экосистема Ultralytics обеспечивает превосходный опыт для разработчиков, и в конечном итоге заглянем в будущее с возможностями Ultralytics YOLO26.

Link to this sectionRTDETRv2: подход на базе Vision Transformer#

Разработанная исследователями из Baidu, RTDETRv2 основывается на фундаменте оригинального RT-DETR и представляет собой значительный скачок вперед в обнаружении объектов на основе трансформеров.

Link to this sectionАрхитектурные особенности#

RTDETRv2 использует гибридную архитектуру, которая сочетает в себе CNN-экстрактор признаков и мощный декодер трансформера. Самая характерная черта этой модели — её дизайн, изначально не требующий NMS. Исключая Non-Maximum Suppression (NMS) из этапа постобработки, модель предсказывает ограничивающие рамки напрямую, что упрощает развертывание и стабилизирует задержку вывода.

«Набор бесплатных улучшений» (Bag-of-Freebies), встроенный в RTDETRv2, повышает её способность работать со сложными сценами и перекрывающимися объектами, поскольку механизмы глобального внимания лучше понимают пространственные взаимосвязи, чем локализованные свертки.

Использование памяти трансформером

Хотя трансформеры отлично справляются с пониманием сложных сцен, они обычно требуют значительно больше памяти CUDA при обучении по сравнению с CNN. Это может ограничивать размер пакетов (batch size) на стандартных потребительских GPU и увеличивать общее время обучения.

Узнай больше о RTDETR

Link to this sectionYOLOv6-3.0: Максимизация промышленной пропускной способности#

Созданная в отделе Vision AI компании Meituan, YOLOv6-3.0 была специально спроектирована как детектор нового поколения для промышленных конвейеров, где пропускная способность GPU имеет первостепенное значение.

  • Авторы: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu и Xiangxiang Chu
  • Организация: Meituan
  • Дата: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

Link to this sectionАрхитектурный фокус#

YOLOv6-3.0 опирается на бэкенд EfficientRep, тщательно разработанный для минимизации затрат на доступ к памяти на аппаратных ускорителях, таких как GPU NVIDIA. Архитектура шейки включает модуль двунаправленной конкатенации (BiC) для улучшения объединения признаков на различных масштабах.

Во время обучения используется стратегия Anchor-Aided Training (AAT), чтобы извлечь выгоду из парадигм на основе якорей (anchors), сохраняя при этом режим вывода без якорей (anchor-free) для более быстрого выполнения. Хотя она достигает исключительной пропускной способности на серверных GPU (например, T4, A100), её специализированная архитектура может приводить к субоптимальной задержке при развертывании на граничных устройствах (edge devices) только с CPU.

Узнай больше о YOLOv6

Link to this sectionСравнение производительности#

При оценке моделей для продакшена критически важно сбалансировать точность (mAP) со скоростью вывода и вычислительными затратами (FLOPs). Таблица ниже иллюстрирует, как эти модели соотносятся друг с другом.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

В то время как YOLOv6-3.0 доминирует по чистой скорости обработки на TensorRT, RTDETRv2 достигает более высоких показателей mAP, особенно лучше масштабируясь при использовании более крупных вариантов модели. Однако обеим моделям не хватает обширной универсальности, присущей современным унифицированным фреймворкам. YOLOv6-3.0 — это в первую очередь специалист по детекции, которому из коробки не хватает нативной поддержки таких задач, как сегментация экземпляров и оценка позы.

Link to this sectionСценарии использования и рекомендации#

Выбор между RT-DETR и YOLOv6 зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.

Link to this sectionКогда выбирать RT-DETR#

RT-DETR — отличный выбор для:

  • Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
  • Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.

Link to this sectionКогда выбирать YOLOv6#

YOLOv6 рекомендуется для:

  • Промышленного внедрения с учетом оборудования: сценарии, где аппаратная ориентированность модели и эффективная репараметризация обеспечивают оптимизированную производительность на конкретном целевом оборудовании.
  • Быстрого одноэтапного обнаружения: приложения, где приоритетом является чистая скорость вывода на GPU для обработки видео в реальном времени в контролируемых условиях.
  • Интеграции в экосистему Meituan: команды, которые уже работают в рамках технологического стека и инфраструктуры развертывания Meituan.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

  • Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
  • Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
  • Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionПреимущество Ultralytics#

Выбор подходящей модели включает в себя нечто большее, чем просто «сырые» цифры бенчмарков; опыт разработчика, гибкость развертывания и поддержка экосистемы не менее важны. Используя модели, интегрированные в платформу Ultralytics, ты получаешь значительные преимущества по сравнению со статичными исследовательскими репозиториями.

  • Простота использования: Python-пакет ultralytics предлагает бесшовный API. Обучение, проверка и экспорт моделей занимают всего несколько строк кода.
  • Хорошо поддерживаемая экосистема: В отличие от изолированных академических репозиториев, платформа Ultralytics активно обновляется. Она обладает надежными интеграциями для таких инструментов, как ONNX, OpenVINO и CoreML.
  • Эффективность обучения: Модели Ultralytics обычно потребляют значительно меньше VRAM во время обучения по сравнению с архитектурами трансформеров, такими как RTDETRv2, что позволяет использовать большие размеры пакетов на оборудовании потребительского уровня.
  • Универсальность: В отличие от узкой специализации YOLOv6-3.0, модели Ultralytics являются мультимодальными и нативно поддерживают классификацию изображений, ориентированные ограничивающие рамки (OBB) и сегментацию в рамках единого унифицированного фреймворка.
Упрощенное развертывание

Используя Ultralytics CLI, экспортировать обученную модель для развертывания на граничных устройствах так же просто, как выполнить команду: yolo export model=yolo11n.pt format=tensorrt.

Link to this sectionВстречай YOLO26: идеальное решение#

Хотя RTDETRv2 и YOLOv6-3.0 предлагают определенные преимущества, область развивается стремительно. Командам, начинающим новые проекты в области компьютерного зрения, мы настоятельно рекомендуем YOLO26, выпущенную Ultralytics в январе 2026 года.

YOLO26 синтезирует сильные стороны промышленных CNN и современных трансформеров, устраняя их соответствующие недостатки:

  • Сквозной дизайн без NMS: Перенимая прорыв, впервые представленный в YOLOv10, YOLO26 нативно исключает постобработку NMS, обеспечивая стабильное и предсказуемое развертывание, как у RTDETRv2, но с гораздо меньшими накладными расходами.
  • Оптимизатор MuSGD: Вдохновленный передовыми методами обучения LLM (такими как Kimi K2 от Moonshot AI), этот гибридный оптимизатор обеспечивает стабильное обучение и более быструю сходимость, преодолевая печально известную нестабильность традиционных vision трансформеров.
  • Оптимизировано для Edge: Благодаря увеличению скорости вывода на CPU до 43% по сравнению с предыдущими поколениями и стратегическому удалению Distribution Focal Loss (DFL), YOLO26 идеально подходит для мобильных и IoT-устройств, где недоступно ускорение на GPU.
  • ProgLoss + STAL: Эти передовые функции потерь дают заметные улучшения в распознавании мелких объектов, что исторически было сложной задачей для CNN, делая YOLO26 идеальным выбором для аэрофотосъемки и робототехники.

Link to this sectionПример обучения#

Интуитивно понятный API Ultralytics позволяет тебе легко обучать передовые модели. Ниже приведен исполняемый пример, демонстрирующий, как обучить модель YOLO26 Nano на наборе данных COCO8:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Link to this sectionРезюме#

При сравнении RTDETRv2 и YOLOv6-3.0 решение во многом зависит от твоего конкретного оборудования и ограничений по задержке. RTDETRv2 отлично работает в исследовательских средах и серверной обработке, где критически важно справляться со сложными перекрывающимися объектами. YOLOv6-3.0 остается надежным выбором для высокопроизводительных производственных линий, оснащенных мощными GPU NVIDIA.

Однако для разработчиков, ищущих лучшее из двух миров — сочетание элегантности трансформеров без NMS с невероятной скоростью и низким потреблением памяти CNN, — YOLO26 не имеет равных. Поддерживаемая исчерпывающей документацией и активным сообществом экосистемы Ultralytics, YOLO26 гарантирует, что твои проекты в области AI зрения будут надежными, масштабируемыми и перспективными.

Контрибьюторы

Комментарии