RTDETRv2 против YOLOv8: техническое сравнение
В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для успеха проекта. В настоящее время в этой области доминируют две различные архитектурные философии: подходы на основе трансформаторов, представленные RTDETRv2, и высоко оптимизированные конволюционные нейронные сети (CNN), примером которых являются Ultralytics YOLOv8.
В то время как RTDETRv2 расширяет границы точности с помощью трансформаторов зрения, YOLOv8 улучшает баланс между скоростью, точностью и простотой развертывания. В этом сравнении рассматриваются технические характеристики, архитектурные различия и практические показатели производительности, чтобы помочь разработчикам и исследователям выбрать оптимальное решение для своих приложений.
Метрики производительности: Скорость, точность и эффективность
В области производительности наблюдается явный компромисс. RTDETRv2 фокусируется на максимизации средней точностиmAP) с помощью сложных механизмов внимания, в то время как YOLOv8 ставит во главу угла универсальный баланс скорости вывода в реальном времени и высокой точности, подходящий для развертывания на границе и в облаке.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
Анализ результатов
Полученные данные позволяют сделать несколько важных выводов относительно стратегий развертывания:
- Вычислительная эффективность: YOLOv8 демонстрирует высочайшую эффективность. Например, YOLOv8l достигает почти равной точности (52,9 mAP) с RTDETRv2-l (53,4 mAP), работая при этом на GPU с более высокой скоростью вывода.
- ПроизводительностьCPU : YOLOv8 предлагает задокументированную, надежную производительность на CPU , что делает его практичным выбором для пограничных AI-устройств, не имеющих специальных ускорителей. Бенчмарки RTDETRv2 для CPU часто недоступны из-за больших вычислительных затрат на слои трансформатора.
- Эффективность использования параметров: Для достижения конкурентоспособных результатов моделям YOLOv8 требуется меньшее количество параметров и операций с плавающей запятой (FLOP), что напрямую ведет к снижению потребления памяти и ускорению времени обучения.
Аппаратные соображения
Если в качестве объекта развертывания используются стандартные процессоры (например, процессоры Intel ) или встраиваемые устройства (например, Raspberry Pi), архитектура YOLOv8 на основе CNN обеспечивает значительное преимущество в задержке по сравнению с операциями RTDETRv2, требующими большого количества трансформаторов.
RTDETRv2: Обнаружение в реальном времени с помощью Transformers
RTDETRv2 (Real-Time Detection Transformer v2) представляет собой продолжение эволюции применения трансформаторов зрения (ViT) для обнаружения объектов. Разработанный исследователями из Baidu, он призван решить проблемы задержки, традиционно связанные с моделями на основе DETR, сохранив при этом их способность понимать глобальный контекст.
Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organization:Baidu
Date: 2024-07-24 (v2 release)
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR
Архитектура
RTDETRv2 использует гибридную архитектуру, которая сочетает в себе основу (обычно CNN, например ResNet) и эффективный кодер-декодер с трансформатором. Ключевой особенностью является разделение внутримасштабного взаимодействия и межмасштабного слияния, что помогает модели улавливать дальние зависимости по всему изображению. Это позволяет модели "присутствовать" в разных частях сцены одновременно, что потенциально улучшает производительность в загроможденном окружении.
Сильные и слабые стороны
Основное достоинство RTDETRv2 - высокая точность при работе со сложными наборами данных, где глобальный контекст имеет решающее значение. Отказ от якорных ящиков в пользу объектных запросов упрощает конвейер постобработки, устраняя необходимость в немаксимальном подавленииNMS).
Однако за эти преимущества приходится платить:
- Ресурсоемкость: Модель требует значительно больше памяти GPU для обучения по сравнению с CNN.
- Более медленное схождение: Модели на основе трансформаторов обычно требуют больше времени для обучения и сходимости.
- Ограниченная универсальность: Он предназначен в первую очередь для определения ограничительных рамок и не имеет встроенной поддержки сегментации или оценки позы.
Ultralytics YOLOv8: скорость, универсальность и экосистема
Ultralytics YOLOv8 это современная модель обнаружения объектов без привязки, которая устанавливает стандарты универсальности и простоты использования в отрасли. Она опирается на наследие семейства YOLO , внося архитектурные усовершенствования, повышающие производительность, сохраняя при этом скорость работы в реальном времени, которая сделала YOLO знаменитой.
Авторы: Гленн Джочер, Аюш Чаурасия и Цзин Цю
Организация:Ultralytics
Дата: 2023-01-10
GitHubultralytics
Docsyolov8
Архитектура
YOLOv8 имеет CSP (Cross Stage Partial) Darknet магистраль и PANet (Path Aggregation Network) горловину, завершающуюся раздельной головкой обнаружения. Эта архитектура не имеет якорей, то есть предсказывает центры объектов напрямую, что упрощает конструкцию и улучшает обобщение. Модель оптимизирована для tensor процессоров и графических процессоров, что обеспечивает максимальную пропускную способность.
Ключевые преимущества для разработчиков
- Простота использования: Благодаря Pythonic API и надежному CLI пользователи могут обучать и развертывать модели всего в нескольких строках кода. Исчерпывающая документация снижает входной барьер как для новичков, так и для экспертов.
- Хорошо поддерживаемая экосистема: Благодаря поддержке Ultralytics, YOLOv8 получает частые обновления, поддержку сообщества и легкую интеграцию с такими инструментами, как TensorBoard и MLFlow.
- Универсальность: В отличие от RTDETRv2, YOLOv8 поддерживает широкий спектр задач из коробки, включая сегментацию объектов, оценку положения, классификацию и ориентированное обнаружение объектов (OBB).
- Эффективность обучения: Модель разработана для быстрого обучения с меньшими требованиями к памяти CUDA , что делает ее доступной для исследователей с ограниченным бюджетом на оборудование.
Глубокое погружение: Архитектура и примеры использования
Выбор между этими двумя моделями часто зависит от конкретных требований среды применения.
Философия архитектуры
В YOLOv8 используются конволюционные нейронные сети (CNN), которые отлично справляются с обработкой локальных признаков и пространственных иерархий. Это делает их изначально более быстрыми и менее требовательными к памяти. Использование трансформаторов в RTDETRv2 позволяет эффективно моделировать глобальные взаимосвязи, но при этом возникает квадратичная сложность по отношению к размеру изображения, что приводит к увеличению задержки и расхода памяти, особенно при высоких разрешениях.
Идеальные варианты использования
Выбирайте YOLOv8 , когда:
- Производительность в реальном времени имеет решающее значение: Такие приложения, как автономное вождение, видеоаналитика и контроль качества продукции, требуют низкой задержки.
- Аппаратное обеспечение не имеет ограничений: Развертывание на NVIDIA Jetson, Raspberry Pi или мобильных устройствах не вызывает затруднений благодаря YOLOv8.
- Необходима многозадачность: Если ваш проект требует сегментирования объектов или отслеживания ключевых точек наряду с обнаружением, YOLOv8 предлагает единую структуру.
- Быстрые циклы разработки: ЭкосистемаUltralytics ускоряет маркировку данных, обучение и развертывание.
Выберите RTDETRv2, если:
- Максимальная точность - единственная метрика: Для академических бенчмарков или сценариев, где доступны бесконечные вычисления и важна каждая доля mAP .
- Сложные окклюзии: В сильно загроможденных сценах, где понимание взаимосвязи между удаленными пикселями жизненно необходимо, механизм глобального внимания может дать небольшое преимущество.
Сравнительная характеристика
В то время как RTDETRv2 представляет собой интересное научное достижение в применении трансформаторов для обнаружения, YOLOv8 остается лучшим выбором для большинства практических приложений. Его баланс скорости, точности и эффективности не имеет себе равных. Кроме того, способность выполнять множество задач компьютерного зрения в рамках одной удобной библиотеки делает ее универсальным инструментом для разработки современного ИИ.
Разработчики, стремящиеся к абсолютной производительности и набору функций, обращают внимание на такие новые итерации, как YOLO11 обеспечивает еще больший прирост эффективности и точности по сравнению с YOLOv8 и RTDETRv2.
Пример кода: Начало работы с YOLOv8
Интеграция YOLOv8 в ваш рабочий процесс очень проста. Ниже приведен пример на Python , демонстрирующий, как загрузить предварительно обученную модель, провести расчеты и экспортировать ее для развертывания.
from ultralytics import YOLO
# Load a pre-trained YOLOv8 model
model = YOLO("yolov8n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a local image
# Ensure the image path is correct or use a URL
results = model("path/to/image.jpg")
# Export the model to ONNX format for deployment
success = model.export(format="onnx")
Изучите другие модели
Чтобы получить более широкое представление об архитектурах обнаружения объектов, ознакомьтесь с этими сравнительными материалами:
- YOLO11 против RTDETRv2
- YOLOv10 против YOLOv8
- RT-DETR против YOLOv8
- YOLOv8 vs. EfficientDet
- YOLOv8 vs. YOLOv5