RTDETRv2 против YOLO11: глубокий анализ архитектур обнаружения объектов в реальном времени
Ландшафт компьютерного зрения постоянно меняется: новые архитектуры расширяют границы возможного на граничных устройствах и облачных серверах. Два наиболее заметных претендента в текущей области обнаружения объектов в реальном времени — это RTDETRv2 и YOLO11. Хотя обе модели обеспечивают исключительную производительность, они представляют фундаментально разные архитектурные философии: подход на основе Transformer против высокооптимизированной сверточной нейронной сети (CNN).
В этом всестороннем техническом сравнении мы рассмотрим архитектуры, показатели производительности, методологии обучения и идеальные сценарии использования обеих моделей, что поможет тебе принять взвешенное решение для твоего следующего приложения с искусственным интеллектом.
RTDETRv2: претендент на основе Transformer
Представленный как эволюция оригинального Real-Time Detection Transformer, RTDETRv2 использует механизмы внимания для обработки визуальных данных. Рассматривая фрагменты изображения как последовательности, он обеспечивает глобальное понимание контекста изображения, что весьма полезно для обнаружения сильно перекрывающихся объектов в сложных сценах.
Детали модели:
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 2024-07-24
- Arxiv: 2407.17140
- GitHub: Репозиторий RT-DETR
- Документация: Документация RTDETRv2
Сильные и слабые стороны архитектуры
Главная инновация RTDETRv2 — его архитектура end-to-end без использования NMS. Устранение Non-Maximum Suppression (NMS) упрощает конвейер постобработки. Кроме того, возможности многомасштабного извлечения признаков были улучшены по сравнению с оригинальной моделью RT-DETR, что позволяет ей лучше идентифицировать объекты разного размера.
Однако, поскольку RTDETRv2 опирается на Transformers, он обычно страдает от значительно более высоких требований к памяти во время обучения. Transformers, как правило, медленнее сходятся и требуют существенно больше памяти CUDA по сравнению с традиционными CNN, что делает их менее доступными для исследователей, работающих на потребительском оборудовании или развертывающих решения в ограниченных средах edge AI.
Ultralytics YOLO11: вершина эффективности CNN
Основываясь на годах фундаментальных исследований, Ultralytics выпустила YOLO11 как огромный шаг вперед в линейке YOLO. Она дорабатывает архитектуру CNN для достижения беспрецедентной скорости и точности, сохраняя гибкость и удобную для разработчиков экосистему, которую ожидает сообщество.
Детали модели:
- Авторы: Гленн Джочер (Glenn Jocher) и Цзин Цю (Jing Qiu)
- Организация: Ultralytics
- Дата: 27 сентября 2024 г.
- GitHub: Репозиторий Ultralytics
Преимущество Ultralytics
YOLO11 блистает своим балансом производительности. Она обеспечивает экстраординарный компромисс между скоростью и точностью, что делает ее исключительно универсальной для разнообразных сценариев реального развертывания: от массивных кластеров cloud computing до легких мобильных устройств.
Более того, модели Ultralytics YOLO славятся меньшим потреблением памяти во время обучения и инференса. В отличие от моделей Transformer, которые могут легко исчерпать VRAM, YOLO11 позволяет использовать большие размеры батчей на стандартных GPU. Кроме того, YOLO11 не ограничивается простым обнаружением объектов; она обладает невероятной универсальностью, включая нативную поддержку сегментации экземпляров, классификации изображений, оценки позы и ориентированных ограничивающих рамок (OBB).
Сравнение производительности и метрик
При сравнении «сухих» цифр становится очевидно, что хотя RTDETRv2 достигает впечатляющей точности, YOLO11 предлагает гораздо более гранулярный выбор размеров моделей с превосходной скоростью инференса, особенно на TensorRT.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Как видно из таблицы, модель YOLO11x достигает превосходного mAPval в 54.7%, используя при этом меньше FLOPs (194.9B против 259B) и обеспечивая более быстрый инференс на TensorRT (11.3мс против 15.03мс) по сравнению с вариантом RTDETRv2-x. Варианты nano и small YOLO11 предоставляют непревзойденные легковесные опции для ограниченных устройств, таких как Raspberry Pi.
Экосистема, простота использования и обучение
Определяющая характеристика моделей Ultralytics — это оптимизированный пользовательский опыт. Пакет ultralytics для Python предоставляет унифицированный интуитивно понятный API, который берет на себя тяжелую работу по аугментации данных, распределенному обучению и экспорту моделей. В то время как исследовательский репозиторий RTDETRv2 требует значительного количества шаблонного кода и конфигурации, Ultralytics предоставляет конвейер «от нуля до героя».
Интересно, что экосистема Ultralytics настолько надежна, что нативно поддерживает запуск моделей RT-DETR наряду с моделями YOLO! Это позволяет тебе использовать хорошо поддерживаемую экосистему Ultralytics, включая интеграции с Weights & Biases и Comet ML, для легкого отслеживания экспериментов.
from ultralytics import RTDETR, YOLO
# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")
# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")Эффективность обучения имеет первостепенное значение в машинном обучении. Модели Ultralytics используют предобученные веса, которые быстро сходятся. Для управления наборами данных, запусками обучения и эндпоинтами развертывания без написания кода изучи платформу Ultralytics для получения интегрированного опыта MLOps.
Применение в реальных условиях
Выбор между этими архитектурами часто сводится к специфическим ограничениям развертывания твоего проекта.
В чем преуспевает RTDETRv2: Transformer-бэкбон RTDETRv2 крайне эффективен в сценариях с плотными, сильно перекрытыми объектами, где требуется глобальный контекст. Его часто оценивают в академических исследованиях и приложениях, где вычислительный бюджет менее важен, чем прямое отображение отношений на основе внимания.
Где доминирует YOLO11: YOLO11 — бесспорный чемпион практического развертывания в реальном мире. Минимальные требования к памяти и молниеносная скорость инференса делают ее идеальной для:
- Smart Manufacturing: Запуск обнаружения дефектов в реальном времени на производственных линиях с использованием промышленных ПК.
- Agriculture: Развертывание на дронах для мониторинга здоровья сельскохозяйственных культур в реальном времени и автоматизированной робототехники для сбора урожая.
- Retail Analytics: Обработка нескольких потоков с камер одновременно для управления очередями и отслеживания инвентаря без необходимости в огромных серверных фермах.
Варианты использования и рекомендации
Выбор между RT-DETR и YOLO11 зависит от конкретных требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.
Когда стоит выбирать RT-DETR
RT-DETR — сильный выбор для:
- Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
- Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.
Когда выбирать YOLO11
YOLO11 рекомендуется, если:
- Развертывания на периферии (Edge): коммерческих приложений на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где надежность и активная поддержка имеют первостепенное значение.
- Многозадачных приложений компьютерного зрения: проектов, требующих обнаружения, сегментации, оценки позы и OBB в рамках единого унифицированного фреймворка.
- Быстрого прототипирования и развертывания: команд, которым необходимо быстро перейти от сбора данных к продакшену, используя оптимизированный Python API Ultralytics.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Взгляд в будущее: прибытие YOLO26
Если ты начинаешь новый проект, тебе также стоит рассмотреть следующее поколение ИИ для компьютерного зрения: Ultralytics YOLO26. Выпущенная в январе 2026 года, YOLO26 объединяет лучшее из обоих миров. Она представляет End-to-End NMS-Free Design (впервые использованный в YOLOv10), полностью устраняя задержку постобработки, точно так же, как RTDETRv2, но с непревзойденной скоростью CNN.
YOLO26 оснащена оптимизатором MuSGD, вдохновленным инновациями в обучении LLM, для невероятно стабильной и быстрой сходимости, а также обеспечивает до 43% более быстрый инференс на CPU благодаря удалению Distribution Focal Loss (DFL). Благодаря своим специализированным функциям потерь ProgLoss + STAL, значительно улучшающим распознавание мелких объектов, YOLO26 является окончательной рекомендацией для любого современного конвейера компьютерного зрения.
Независимо от того, выберешь ли ты YOLO11 за ее проверенную универсальность, RTDETRv2 за механизмы внимания или передовую YOLO26 для достижения максимальной производительности на периферии, документация Ultralytics предоставит все необходимые ресурсы для успеха в твоем путешествии в мире компьютерного зрения.