YOLO11 RTDETRv2: архитектуры, производительность и приложения
В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для успеха проекта. В этом сравнении подробно рассматриваются YOLO11 (от Ultralytics) и RTDETRv2 (от Baidu), двух передовых архитектур, которые подходят к обнаружению в реальном времени с разных точек зрения. В то время как YOLO11 вершину эффективности и простоты использования на основе CNN, RTDETRv2 расширяет границы обнаружения на основе трансформаторов.
Общий обзор
YOLO11 основан на наследии семейства You Only Look Once (YOLO) и усовершенствованной архитектуре для максимальной пропускной способности и минимального потребления ресурсов. Он разработан как универсальное решение для различных задач машинного зрения, включая обнаружение, сегментацию и оценку положения. Его сила заключается в сбалансированности: он обеспечивает высокую точность при исключительной скорости даже на периферийных устройствах с ограниченными ресурсами.
RTDETRv2 (Real-Time DEtection TRansformer version 2) — это усовершенствованная версия оригинального RT-DETR, призванная решить проблемы с задержкой, которые обычно связаны с моделями на основе трансформаторов. В ней введена функция «bag-of-freebies» для повышения стабильности и производительности обучения. Хотя он достигает впечатляющей точности, он обычно требует больше вычислительных ресурсов, в частности GPU , что делает его более подходящим для развертывания на высокопроизводительном оборудовании, а не для пограничных вычислений.
Последняя инновация: YOLO26
Для разработчиков, стремящихся к абсолютному передовому уровню в 2026 году, Ultralytics YOLO26. Она отличается нативной сквозной конструкцией NMS, революционным оптимизатором MuSGD и скоростью CPU , повышенной до 43 %, что делает ее лучшим выбором для современных приложений искусственного интеллекта.
Технические характеристики и производительность
В следующей таблице представлены показатели производительности обеих моделей на COCO . YOLO11 превосходную эффективность, особенно в скорости вывода и количестве параметров, что делает ее очень адаптируемой для реальных производственных сред.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Архитектурные различия
YOLO11 использует высокооптимизированную основу и шею на базе CNN, усовершенствуя извлечение признаков для захвата сложных деталей с меньшим количеством параметров. Его архитектура специально разработана для обеспечения высокой скорости, используя эффективную агрегацию слоев для минимизации задержки. Это позволяет YOLO11 эффективно YOLO11 на всех устройствах, от мощных облачных графических процессоров до устройств Raspberry Pi.
RTDETRv2, напротив, основан на гибридной архитектуре кодировщика-декодировщика-трансформатора. Он использует механизмы внимания для захвата глобального контекста, что может быть полезно для обнаружения объектов в сложных, загроможденных сценах. Однако это достигается за счет более высокого потребления памяти во время обучения и вывода. Механизм внимания по своей сути требует квадратичной вычислительной сложности по отношению к размеру входных данных, что часто требует мощных графических процессоров, таких как NVIDIA или A100, для достижения скорости в реальном времени.
Экосистема и простота использования
Архитектура модели — это только половина дела; опыт разработчиков, связанный с ней, определяет, насколько быстро вы сможете перейти от прототипа к производству.
ПреимуществаUltralytics : YOLO11 глубоко интегрирован в Ultralytics , известную своей философией «просто работает».
- Простой Python : обучение, валидация и прогнозирование могут быть выполнены всего за три строки кода.
- Ultralytics : Пользователи могут использовать Ultralytics для управления наборами данных, автоматизации аннотирования и мониторинга процессов обучения в облаке.
- Широкая поддержка задач: единая платформа поддерживает обнаружение объектов, сегментацию экземпляров, оценку позы, OBB и классификацию.
- Гибкое развертывание: встроенные режимы экспорта для ONNX, OpenVINO, CoreMLи TFLite развертывание на мобильных и периферийных устройствах.
Экосистема RTDETRv2: RTDETRv2 — это в первую очередь репозиторий, ориентированный на исследования. Несмотря на свои мощные возможности, он не обладает тем набором инструментов, который есть в Ultralytics . Пользователям часто приходится писать собственные скрипты для предварительной обработки и развертывания данных. Кроме того, поскольку это модель на основе трансформера, экспорт в такие форматы, как TFLite использования на мобильных устройствах может быть значительно сложнее из-за сложных операций, связанных со слоями внимания.
Эффективность обучения и данных
YOLO11 отличается высокой эффективностью обучения. Его архитектура CNN быстро сходится, часто требуя меньшего количества эпох и значительно меньшего GPU , чем альтернативные трансформеры. Это позволяет разработчикам обучать большие партии данных на потребительском оборудовании. Фреймворк также включает в себя надежные стратегии настройки гиперпараметров и аугментации, готовые к использованию.
RTDETRv2 обычно требует более длительных графиков обучения для стабилизации весов внимания трансформатора. Объем памяти значительно выше; для обучения модели RTDETRv2-L часто требуются графические процессоры корпоративного уровня с высокой емкостью VRAM, что может увеличить расходы на облачные вычисления.
Пример кода: Обучение YOLO11
Обучение YOLO11 беспрепятственно. Следующий фрагмент кода демонстрирует загрузку предварительно обученной модели и ее донастройку на пользовательском наборе данных:
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset (e.g., COCO8)
# Ideally, data is configured in a simple YAML file
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
for result in results:
result.show()
Приложения в реальном мире
Где превосходит YOLO11
Благодаря своей легкости и универсальности, YOLO11 предпочтительным выбором для:
- Edge AI & IoT: идеально подходит для мониторинга умных городов на устройствах с ограниченной вычислительной мощностью.
- Спортивная аналитика в реальном времени: отслеживание игроков и мячей в видеопотоках с высокой частотой кадров, где низкая задержка является обязательным условием.
- Производство: высокоскоростное обнаружение дефектов на сборочных линиях.
- Мобильные приложения: работают напрямую на Android iOS Android через CoreML TFLite.
Место RTDETRv2
RTDETRv2 лучше всего подходит для следующих сценариев:
- Оборудование не ограничено: для вывода доступны мощные графические процессоры серверного уровня.
- Глобальный контекст имеет решающее значение: сложные сцены, в которых отношения между удаленными объектами определяют обнаружение (хотя большое рецептивное поле YOLO11 часто соперничает с этим).
- Исследование: эксперименты с механизмами трансформаторного внимания.
Заключение
YOLO11 RTDETRv2 вносят значительный вклад в область компьютерного зрения. RTDETRv2 демонстрирует потенциал трансформеров в задачах обнаружения. Однако для большинства разработчиков и коммерческих приложений YOLO11 остается лучшим выбором благодаря непревзойденному балансу скорости, точности и простоты использования. Низкие требования к памяти, обширные возможности экспорта и поддержка Ultralytics обеспечивают плавный переход от разработки к внедрению.
Тем, кто хочет еще больше повысить производительность, рекомендуем перейти на YOLO26. Благодаря своей сквозной конструкции NMS и оптимизации для периферийных устройств, он представляет собой новое поколение искусственного интеллекта в области зрения.
Детали модели и ссылки
YOLO11
- Авторы: Гленн Джочер и Цзин Цю
- Организация:Ultralytics
- Дата: 2024-09-27
- Документация:Документация YOLO11
- GitHub:ultralytics/ultralytics
RTDETRv2
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang и др.
- Организация: Baidu
- Дата: 2023-04-17
- Arxiv:2304.08069
- GitHub:Репозиторий RT-DETR