YOLO11 vs RTDETRv2: Сравнение эволюции свёрточных нейронных сетей и визуальных трансформеров
Ландшафт компьютерного зрения быстро расширился, предлагая разработчикам множество вариантов для создания надежных приложений на основе зрения. В области обнаружения объектов в реальном времени дебаты между сверточными нейронными сетями (CNN) и Vision Transformer (ViT) более заметны, чем когда-либо. Это техническое сравнение углубляется в две ведущие архитектуры: YOLO11, представляющую вершину высокооптимизированных фреймворков CNN, и RTDETRv2, мощную итерацию семейства Detection Transformer.
Анализируя их архитектуры, метрики производительности и идеальные сценарии развертывания, это руководство призвано помочь инженерам машинного обучения принимать обоснованные решения. Хотя обе модели расширяют границы точности, модели Ultralytics YOLO, как правило, предлагают превосходный баланс скорости, поддержки экосистемы и простоты использования для реального производства.
YOLO11: Эталон универсальности в реальных условиях
Представленный Ultralytics, YOLO11 основывается на многолетних фундаментальных исследованиях, чтобы предоставить модель, которая является быстрой, точной и невероятно универсальной. Он разработан для нативной бесшовной обработки обнаружения объектов, сегментации экземпляров, классификации изображений, оценки позы и извлечения ориентированных ограничивающих рамок (OBB).
- Авторы: Гленн Джочер и Цзин Цю
- Организация:Ultralytics
- Дата: 2024-09-27
- GitHub:Репозиторий Ultralytics
- Документация:Документация YOLO11
Архитектура и сильные стороны
YOLO11 отличается усовершенствованным бэкбоном CNN и передовыми пирамидами пространственных признаков, что делает его исключительно ресурсоэффективным. Он прекрасно работает в условиях строгих аппаратных ограничений, предлагая минимальный объем памяти как во время обучения, так и во время инференса. Платформа Ultralytics обеспечивает нативную поддержку YOLO11, позволяя оптимизировать мониторинг моделей, разметку данных и облачное обучение без необходимости объединять разрозненные инструменты MLops.
Для разработчиков, ориентированных на периферийные вычисления, YOLO11 отличается сверхнизкой задержкой. Его легковесность позволяет ему эффективно работать на устройствах от Raspberry Pi до потребительских мобильных телефонов, что делает его стандартом для умной розничной торговли, контроля качества производства и автоматизированного управления дорожным движением.
RTDETRv2: Трансформеры реального времени от Baidu
RTDETRv2 (Real-Time Detection Transformer версии 2) представляет собой попытку Baidu сделать архитектуры на основе трансформеров жизнеспособными для задач реального времени. Он основывается на оригинальном RT-DETR, используя подход «bag-of-freebies» для повышения базовой точности без увеличения задержки вывода.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация:Baidu
- Дата: 2024-07-24
- Arxiv:2407.17140
- GitHub:Репозиторий RT-DETRv2
- Документация:RTDETRv2 README
Архитектура и сильные стороны
В отличие от традиционных CNN, RTDETRv2 использует архитектуру кодировщика-декодировщика с механизмами самовнимания, что позволяет ему захватывать глобальный контекст по всему изображению. Это особенно выгодно в переполненных сценах, где часто встречаются окклюзии. RTDETRv2 устраняет необходимость в подавлении немаксимумов (NMS) в постобработке, полагаясь вместо этого на венгерское сопоставление во время обучения для бинарного сопоставления один к одному.
Однако модели-трансформеры, как известно, очень требовательны к памяти VRAM и CUDA. Обучение RTDETRv2 с нуля или дообучение на пользовательских наборах данных часто требует значительных высокопроизводительных GPU-кластеров, что может стать препятствием для небольших гибких команд по сравнению с легковесным объемом обучения моделей Ultralytics.
Анализ производительности и метрик
При оценке этих моделей на стандартном наборе данных COCO мы наблюдаем явные компромиссы между параметрами, FLOPs и исходной точностью.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Разбор результатов
Как видно из таблицы, YOLO11 обеспечивает невероятное соотношение производительности к размеру. YOLO11x достигает более высокого mAPval (54.7) по сравнению с RTDETRv2-x (54.3), при этом используя значительно меньше параметров (56.9M против 76M) и значительно меньше вычислительных операций FLOPs (194.9B против 259B).
Кроме того, скорость инференса YOLO11 на T4 TensorRT исключительно высока. YOLO11s завершает инференс всего за 2,5 мс, тогда как самый маленький RTDETRv2-s занимает 5,03 мс. Это делает YOLO11 окончательным выбором для высокоскоростных потоков видеоаналитики в реальном времени, где время обработки кадра является основным узким местом.
Стоимость трансформеров
Хотя RTDETRv2 достигает отличной точности благодаря своим слоям внимания, эти механизмы масштабируются квадратично с разрешением изображения, что приводит к более высокому потреблению VRAM как во время обучения, так и во время инференса. YOLO11 обходит это с помощью своих гиперэффективных сверточных блоков.
Экосистема обучения и удобство использования
Ключевое преимущество использования модели Ultralytics заключается в окружающей экосистеме. Обучение RTDETRv2 часто включает работу со сложными репозиториями исследовательского уровня, настройку сложных весов потерь для двудольного сопоставления и управление значительными накладными расходами памяти.
Напротив, Ultralytics уделяет большое внимание опыту разработчиков. Унифицированный Python API абстрагирует шаблонный код, бесшовно интегрируясь с такими инструментами, как Weights & Biases, для отслеживания экспериментов и автоматически обрабатывая аугментацию данных.
Вот как просто обучить и экспортировать модель, используя ultralytics пакете:
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")
После обучения экспорт модели YOLO11 в такие форматы, как ONNX, OpenVINO или CoreML, требует всего одной команды, что обеспечивает легкое масштабирование вашего конвейера компьютерного зрения на различных аппаратных платформах.
Возможности многозадачности
Помните, что хотя RTDETRv2 фокусируется исключительно на обнаружении ограничивающих рамок, архитектура YOLO11 нативно поддерживает оценку позы и сегментацию экземпляров, позволяя объединить несколько задач компьютерного зрения в одно семейство моделей.
Сценарии использования и рекомендации
Выбор между YOLO11 и RT-DETR зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать YOLO11
YOLO11 — отличный выбор для:
- Промышленное периферийное развертывание: Коммерческие приложения на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где надежность и активное обслуживание имеют первостепенное значение.
- Многозадачные приложения компьютерного зрения: Проекты, требующие detect, сегментации, оценки позы и obb в рамках единой унифицированной среды.
- Быстрое прототипирование и развертывание: Команды, которым необходимо быстро перейти от сбора данных к производству, используя оптимизированный Ultralytics Python API.
Когда выбрать RT-DETR
RT-DETR рекомендуется для:
- Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
- Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
- Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Взгляд в будущее: Мощь YOLO26
Хотя YOLO11 является отличным выбором для производства, командам, ищущим абсолютный передовой край, следует серьезно рассмотреть YOLO26. Выпущенный в январе 2026 года, YOLO26 устраняет архитектурный разрыв, интегрируя сквозную NMS-free архитектуру (впервые примененную в YOLOv10) непосредственно в свою основу, полностью устраняя задержки постобработки и сложность логики развертывания.
YOLO26 также представляет несколько революционных функций:
- Оптимизатор MuSGD: Вдохновленный методами обучения LLM модели Kimi K2 от Moonshot AI, этот гибрид SGD и Muon обеспечивает невероятно стабильное обучение и значительно более быструю сходимость.
- Удаление DFL: Distribution Focal Loss была удалена для более чистого и упрощенного процесса экспорта, что значительно улучшает совместимость с маломощными периферийными устройствами.
- ProgLoss + STAL: Эти передовые функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что является ключевым требованием для наблюдения с дронов, мониторинга сельского хозяйства и периферийных датчиков IoT.
- До 43% более быстрая инференция на CPU: Для развертываний без выделенных GPU, YOLO26 специально оптимизирован для выполнения на CPU, значительно превосходя предыдущие поколения.
Для тех, кто заинтересован в изучении более широкого спектра архитектур, документация Ultralytics также предоставляет информацию о YOLOv8, широко используемой YOLOv5 и специализированных моделях, таких как YOLO-World, для задач detect с открытым словарем. В конечном итоге, независимо от того, отдаете ли вы предпочтение проверенной стабильности YOLO11 или прорывным инновациям YOLO26, экосистема Ultralytics предоставляет беспрецедентные инструменты для реализации ваших решений в области компьютерного зрения.