RTDETRv2 против YOLO11: Глубокое погружение в архитектуры обнаружения объектов в реальном времени
Ландшафт компьютерного зрения постоянно развивается, новые архитектуры расширяют границы возможного на периферийных устройствах и облачных серверах. Двумя наиболее заметными претендентами в текущей области обнаружения объектов в реальном времени являются RTDETRv2 и YOLO11. Хотя обе модели демонстрируют исключительную производительность, они представляют собой принципиально разные архитектурные философии: подход на основе трансформеров против высокооптимизированной сверточной нейронной сети (CNN).
В этом всестороннем техническом сравнении мы рассмотрим архитектуры, метрики производительности, методологии обучения и идеальные сценарии использования для обеих моделей, помогая вам принять обоснованное решение для вашего следующего приложения искусственного интеллекта.
RTDETRv2: Претендент на основе трансформеров
Представленный как эволюция оригинального трансформера для обнаружения в реальном времени, RTDETRv2 использует механизмы внимания для обработки визуальных данных. Обрабатывая фрагменты изображений как последовательности, он достигает глобального понимания контекста изображения, что чрезвычайно полезно для обнаружения сильно перекрывающихся объектов в сложных сценах.
Подробности модели:
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация:Baidu
- Дата: 2024-07-24
- Arxiv:2407.17140
- GitHub:Репозиторий RT-DETR
- Документация:Документация по RTDETRv2
Архитектурные преимущества и недостатки
Основное нововведение RTDETRv2 — это его сквозная архитектура без NMS. Устраняя подавление немаксимумов (NMS), она упрощает конвейер постобработки. Кроме того, ее возможности многомасштабного извлечения признаков были улучшены по сравнению с оригинальной моделью RT-DETR, что позволяет ей лучше идентифицировать объекты различных размеров.
Однако, поскольку RTDETRv2 опирается на трансформеры, он обычно требует значительно больше памяти во время обучения. Трансформеры, как правило, медленнее сходятся и требуют существенно больше памяти CUDA по сравнению с традиционными CNN, что делает их менее доступными для исследователей, работающих на потребительском оборудовании, или при развертывании в ограниченных средах периферийного ИИ.
Ultralytics YOLO11: Вершина эффективности CNN
Основываясь на многолетних фундаментальных исследованиях, Ultralytics выпустила YOLO11 как огромный шаг вперед в линейке YOLO. Он совершенствует архитектуру CNN для достижения беспрецедентной скорости и точности, сохраняя гибкость и удобную для разработчиков экосистему, которую сообщество привыкло ожидать.
Подробности модели:
- Авторы: Гленн Джочер и Цзин Цю
- Организация:Ultralytics
- Дата: 27 сентября 2024 г.
- GitHub:Репозиторий Ultralytics
Преимущество Ultralytics
YOLO11 выделяется своим балансом производительности. Он достигает выдающегося компромисса между скоростью и точностью, что делает его исключительно универсальным для разнообразных сценариев развертывания в реальном мире, от массивных кластеров облачных вычислений до легких мобильных устройств.
Более того, модели Ultralytics YOLO известны своим низким потреблением памяти во время обучения и инференса. В отличие от моделей Transformer, которые могут легко исчерпать VRAM, YOLO11 позволяет использовать большие размеры пакетов на стандартных GPU. Кроме того, YOLO11 не ограничивается только detect объектов; она обладает невероятной универсальностью, предлагая нативную поддержку сегментации экземпляров, классификации изображений, оценки позы и ориентированных ограничивающих рамок (obb).
Сравнение производительности и метрик
При сравнении необработанных данных становится очевидным, что, хотя RTDETRv2 достигает впечатляющей точности, YOLO11 предлагает гораздо более гранулированный выбор размеров моделей с превосходной скоростью инференса, особенно на TensorRT.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Как видно из таблицы, модель YOLO11x достигает превосходного mAPval в 54.7%, используя при этом меньше операций FLOPs (194.9B против 259B) и обеспечивая более быстрый вывод на TensorRT (11.3 мс против 15.03 мс) по сравнению с вариантом RTDETRv2-x. Нано- и малые варианты YOLO11 предоставляют беспрецедентные легковесные решения для устройств с ограничениями, таких как Raspberry Pi.
Экосистема, простота использования и обучение
Отличительной особенностью моделей Ultralytics является упрощенный пользовательский опыт. ultralytics Пакет python предоставляет унифицированный, интуитивно понятный API, который берет на себя основную нагрузку по Аугментация данных, распределенное обучение и экспорт модели. В то время как исследовательский репозиторий RTDETRv2 требует значительного шаблонного кода и конфигурации, Ultralytics предоставляет конвейер «от нуля до героя».
Интересно, что экосистема Ultralytics настолько надежна, что изначально поддерживает запуск моделей RT-DETR наряду с моделями YOLO! Это позволяет вам использовать хорошо поддерживаемую экосистему Ultralytics, включая интеграции с Weights & Biases и Comet ML, для легкого отслеживания экспериментов.
from ultralytics import RTDETR, YOLO
# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")
# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")
Оптимизируйте свой рабочий процесс
Эффективность обучения имеет первостепенное значение в машинном обучении. Модели Ultralytics используют предварительно обученные веса, которые быстро сходятся. Для управления вашими наборами данных, запусками обучения и конечными точками развертывания без написания кода изучите платформу Ultralytics для интегрированного опыта MLOps.
Приложения в реальном мире
Выбор между этими архитектурами часто сводится к специфическим ограничениям развертывания вашего проекта.
Где RTDETRv2 превосходит: Архитектура трансформера RTDETRv2 высокоэффективна в сценариях с плотными, сильно окклюдированными объектами, где требуется глобальный контекст. Он часто оценивается в академических исследованиях и приложениях, где вычислительный бюджет менее важен, чем прямое отображение отношений на основе внимания.
Где YOLO11 доминирует: YOLO11 — бесспорный чемпион практического, реального развертывания. Его минимальное потребление памяти и молниеносная скорость инференции делают его идеальным для:
- Умное производство: Выполнение обнаружения дефектов в реальном времени на производственных линиях с использованием промышленных ПК.
- Сельское хозяйство: Развертывание на дронах для мониторинга состояния урожая в реальном времени и автоматизированной робототехники для сбора урожая.
- Аналитика розничной торговли: Одновременная обработка нескольких видеопотоков с камер для управления очередями и отслеживания запасов без необходимости в массивных серверных фермах.
Сценарии использования и рекомендации
Выбор между RT-DETR и YOLO11 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда выбрать RT-DETR
RT-DETR — отличный выбор для:
- Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
- Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
- Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.
Когда следует выбирать YOLO11
YOLO11 рекомендуется для:
- Промышленное периферийное развертывание: Коммерческие приложения на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где надежность и активное обслуживание имеют первостепенное значение.
- Многозадачные приложения компьютерного зрения: Проекты, требующие detect, сегментации, оценки позы и obb в рамках единой унифицированной среды.
- Быстрое прототипирование и развертывание: Команды, которым необходимо быстро перейти от сбора данных к производству, используя оптимизированный Ultralytics Python API.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Взгляд в будущее: Появление YOLO26
Если вы начинаете новый проект, вам также следует рассмотреть следующее поколение ИИ для зрения: Ultralytics YOLO26. Выпущенный в январе 2026 года, YOLO26 объединяет лучшее из обоих миров. Он представляет сквозную NMS-Free архитектуру (впервые применённую в YOLOv10), полностью устраняя задержку постобработки, как RTDETRv2, но с непревзойдённой скоростью CNN.
YOLO26 использует оптимизатор MuSGD — вдохновленный инновациями в обучении LLM — для невероятно стабильной и быстрой сходимости, а также обеспечивает до 43% более быструю инференцию на CPU за счет исключения Distribution Focal Loss (DFL). Благодаря специализированным функциям потерь ProgLoss + STAL, значительно улучшающим распознавание мелких объектов, YOLO26 является идеальной рекомендацией для любого современного конвейера компьютерного зрения.
Независимо от того, выбираете ли вы YOLO11 за ее проверенную универсальность, RT-DETRv2 за ее механизмы внимания или передовую YOLO26 для максимальной производительности на периферии, документация Ultralytics предоставляет все необходимые ресурсы для успешного развития в области компьютерного зрения.