Link to this sectionYOLO11 против RTDETRv2#
Сфера компьютерного зрения быстро расширяется, предлагая разработчикам огромное количество вариантов для создания надежных приложений на основе визуальных данных. В области детектирования объектов в реальном времени дискуссия между сверточными нейронными сетями (CNN) и трансформерами зрения (ViT) стала как никогда актуальной. В этом техническом сравнении мы подробно рассмотрим две ведущие архитектуры: YOLO11, представляющую вершину высокооптимизированных фреймворков CNN, и RTDETRv2, мощную итерацию семейства Detection Transformer.
Анализируя архитектуры, показатели производительности и идеальные сценарии развертывания, это руководство призвано помочь инженерам по машинному обучению принимать взвешенные решения. Хотя обе модели расширяют границы точности, модели Ultralytics YOLO обычно обеспечивают лучшее сочетание скорости, поддержки экосистемы и простоты использования для реальных производственных задач.
Link to this sectionYOLO11: Эталон универсальности для реальных задач#
Представленная Ultralytics, YOLO11 основывается на годах фундаментальных исследований, чтобы предложить модель, которая работает быстро, точно и обладает невероятной универсальностью. Она спроектирована для эффективной работы с детектированием объектов, сегментацией экземпляров, классификацией изображений, оценкой позы и извлечением ориентированных ограничивающих рамок (OBB) нативно.
- Авторы: Glenn Jocher и Jing Qiu
- Организация: Ultralytics
- Дата: 2024-09-27
- GitHub: репозиторий Ultralytics
- Документация: Документация YOLO11
Link to this sectionАрхитектура и преимущества#
YOLO11 оснащена усовершенствованным бэкбоном CNN и продвинутыми пространственными пирамидами признаков, что делает ее исключительно эффективной с точки зрения ресурсов. Она отлично работает в средах с жесткими аппаратными ограничениями, требуя минимум памяти как при обучении, так и при инференсе. Ultralytics Platform обеспечивает нативную поддержку YOLO11, позволяя оптимизировать мониторинг моделей, разметку данных и облачное обучение без необходимости объединять разрозненные MLOps-инструменты.
Для разработчиков, ориентированных на периферийные вычисления, YOLO11 предлагает сверхнизкую задержку. Ее легковесность позволяет эффективно запускать модель на устройствах от Raspberry Pi до обычных смартфонов, что делает ее стандартом для умной розничной торговли, контроля качества производства и автоматизированного управления дорожным движением.
Link to this sectionRTDETRv2: трансформеры реального времени от Baidu#
RTDETRv2 (Real-Time Detection Transformer version 2) представляет собой попытку Baidu сделать архитектуры на основе трансформеров пригодными для задач реального времени. Она основывается на оригинальной RT-DETR, используя подход «набора бесплатных улучшений» (bag-of-freebies) для повышения базовой точности без увеличения задержки инференса.
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 24.07.2024
- Arxiv: 2407.17140
- GitHub: Репозиторий RT-DETRv2
- Документация: README RTDETRv2
Link to this sectionАрхитектура и преимущества#
В отличие от традиционных CNN, RTDETRv2 использует архитектуру энкодер-декодер с механизмами self-attention, что позволяет захватывать глобальный контекст изображения. Это особенно полезно в сценах с высокой плотностью объектов, где часто возникают перекрытия. RTDETRv2 исключает необходимость в подавлении немаксимумов (NMS) при постобработке, полагаясь на венгерский алгоритм сопоставления (Hungarian matching) во время обучения для взаимно-однозначного двудольного сопоставления.
Тем не менее, модели-трансформеры известны своим высоким потреблением видеопамяти VRAM и CUDA. Обучение RTDETRv2 с нуля или дообучение на собственных датасетах часто требует мощных GPU-кластеров, что может стать препятствием для небольших гибких команд по сравнению с легковесным обучением моделей Ultralytics.
Link to this sectionАнализ производительности и метрик#
При оценке этих моделей на стандартном датасете COCO мы наблюдаем четкие компромиссы между количеством параметров, FLOPs и реальной точностью.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Link to this sectionРазбор результатов#
Как видно из таблицы, YOLO11 обеспечивает невероятное соотношение производительности и размера. Модель YOLO11x достигает более высокого значения mAPval (54.7) по сравнению с RTDETRv2-x (54.3), используя при этом значительно меньше параметров (56.9 млн против 76 млн) и гораздо меньше вычислительных FLOPs (194.9 млрд против 259 млрд).
Более того, скорость инференса YOLO11 на TensorRT с GPU T4 исключительно высока. YOLO11s выполняет инференс всего за 2.5 мс, тогда как самая маленькая модель RTDETRv2-s затрачивает 5.03 мс. Это делает YOLO11 окончательным выбором для высокоскоростных потоков анализа видео в реальном времени, где время обработки кадра является основным узким местом.
Хотя RTDETRv2 достигает отличной точности благодаря своим слоям внимания, эти механизмы масштабируются квадратично относительно разрешения изображения, что ведет к более высокому потреблению VRAM как во время обучения, так и при инференсе. YOLO11 обходит эту проблему за счет своих сверхэффективных сверточных блоков.
Link to this sectionЭкосистема обучения и удобство использования#
Основное преимущество использования модели Ultralytics заключается в окружающей ее экосистеме. Обучение RTDETRv2 часто связано с необходимостью навигации по сложным исследовательским репозиториям, настройкой запутанных весов функции потерь двудольного сопоставления и управлением значительными накладными расходами памяти.
Напротив, Ultralytics уделяет огромное внимание опыту разработчика. Единый Python API абстрагирует шаблонный код, легко интегрируется с такими инструментами, как Weights & Biases для отслеживания экспериментов, и автоматически обрабатывает аугментации данных.
Вот насколько просто обучить и экспортировать модель с использованием пакета ultralytics:
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")После обучения экспорт модели YOLO11 в форматы вроде ONNX, OpenVINO или CoreML требует всего одной команды, что гарантирует легкость масштабирования твоего конвейера визуализации на различных аппаратных бэкендах.
Помни, что пока RTDETRv2 фокусируется исключительно на детектировании объектов, архитектура YOLO11 нативно поддерживает оценку позы и сегментацию экземпляров, позволяя объединить несколько задач компьютерного зрения в рамках одного семейства моделей.
Link to this sectionСценарии использования и рекомендации#
Выбор между YOLO11 и RT-DETR зависит от специфических требований твоего проекта, ограничений развертывания и предпочтений в отношении экосистемы.
Link to this sectionКогда выбирать YOLO11#
YOLO11 — отличный выбор для:
- Производственного развертывания на периферии: коммерческих приложений на устройствах типа Raspberry Pi или NVIDIA Jetson, где надежность и активная поддержка имеют первостепенное значение.
- Многозадачных приложений компьютерного зрения: проектов, требующих детектирования, сегментации, оценки позы и OBB в рамках одной унифицированной среды.
- Быстрого прототипирования и развертывания: команд, которым нужно быстро перейти от сбора данных к производству, используя оптимизированный Python API Ultralytics.
Link to this sectionКогда выбирать RT-DETR#
RT-DETR рекомендуется для:
- Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
- Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionВзгляд в будущее: мощь YOLO26#
Хотя YOLO11 является отличным выбором для продакшена, команды, стремящиеся к абсолютно передовым решениям, должны серьезно рассмотреть YOLO26. Выпущенная в январе 2026 года, YOLO26 преодолевает архитектурный разрыв, включая в свое ядро End-to-End NMS-Free дизайн (впервые представленный в YOLOv10), что полностью устраняет задержки постобработки и сложность логики развертывания.
YOLO26 также представляет несколько революционных функций:
- Оптимизатор MuSGD: вдохновленный методами обучения LLM от Moonshot AI (Kimi K2), этот гибрид SGD и Muon обеспечивает невероятно стабильное обучение и значительно более быструю сходимость.
- Удаление DFL: Distribution Focal Loss был убран для более чистого и упрощенного процесса экспорта, что радикально повышает совместимость с маломощными периферийными устройствами.
- ProgLoss + STAL: эти продвинутые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является критически важным требованием для наблюдения с дронов, сельскохозяйственного мониторинга и сенсоров интернета вещей (IoT).
- Инференс на CPU до 43% быстрее: для развертываний, где нет выделенных GPU, YOLO26 специально оптимизирована для выполнения на CPU, значительно превосходя предыдущие поколения.
Для тех, кто заинтересован в изучении более широкого спектра архитектур, документация Ultralytics также предоставляет информацию о YOLOv8, широко используемой YOLOv5, и специализированных моделях вроде YOLO-World для задач детектирования с открытым словарем. В конечном итоге, делаешь ли ты ставку на проверенную стабильность YOLO11 или на прорывные инновации YOLO26, экосистема Ultralytics предоставляет непревзойденные инструменты для воплощения твоих решений в области компьютерного зрения в жизнь.