YOLOv8 против RTDETRv2: Углубленное техническое сравнение
Ландшафт компьютерного зрения постоянно развивается, с новыми архитектурами, расширяющими границы возможного в обнаружении объектов в реальном времени. Две выдающиеся модели, привлекшие значительное внимание, — это Ultralytics YOLOv8 и RTDETRv2 от Baidu. В этом руководстве представлено всестороннее техническое сравнение этих двух мощных моделей, исследуются их архитектуры, метрики производительности и идеальные сценарии развертывания.
Обзор YOLOv8
Ultralytics YOLOv8 представляет собой важную веху в семействе моделей YOLO (You Only Look Once). Он основан на многолетних фундаментальных исследованиях, чтобы обеспечить исключительную скорость, точность и простоту использования для широкого круга задач.
Ключевые характеристики:
- Авторы: Glenn Jocher, Ayush Chaurasia, and Jing Qiu
- Организация: Ultralytics
- Дата: 10 января 2023 г.
- GitHub: Репозиторий Ultralytics
- Документация: Документация YOLOv8
Архитектура и сильные стороны
YOLOv8 представляет оптимизированную архитектуру, которая оптимизирует как извлечение признаков, так и регрессию ограничивающих рамок. Это безъякорный detect, который упрощает голову предсказания и сокращает количество настроек гиперпараметров, необходимых во время обучения. Эта архитектура обеспечивает фантастический баланс производительности между скоростью инференса и средней точностью (mAP), что делает ее очень подходящей для развертывания в реальном мире как на периферийных устройствах, так и на облачных серверах.
Кроме того, YOLOv8 требует значительно меньших требований к памяти во время обучения по сравнению с архитектурами на основе трансформеров. Это позволяет разработчикам обучать модели на стандартных потребительских GPU без возникновения ошибок нехватки памяти.
Универсальность
Одной из определяющих сильных сторон YOLOv8 является ее врожденная универсальность. В то время как многие модели сосредоточены исключительно на ограничивающих рамках, YOLOv8 предоставляет готовую поддержку для обнаружения объектов, сегментации экземпляров, классификации изображений, оценки позы и обнаружения ориентированных ограничивающих рамок (obb).
Обзор RTDETRv2
RTDETRv2 (Real-Time Detection Transformer версии 2) основывается на оригинальном RT-DETR, стремясь привнести мощные механизмы внимания Vision Transformers в приложения обнаружения объектов в реальном времени.
Ключевые характеристики:
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 24.07.2024
- Arxiv: 2407.17140
- GitHub: Репозиторий RT-DETR
- Документация: README RTDETRv2
Архитектура и сильные стороны
RTDETRv2 использует гибридную архитектуру, которая сочетает основу сверточной нейронной сети (CNN) со структурой кодировщика-декодера трансформера. Это позволяет модели захватывать сложные пространственные отношения и глобальный контекст с помощью механизмов самовнимания. Используя набор стратегий обучения «bag-of-freebies», RTDETRv2 достигает конкурентных показателей mAP на стандартных эталонных наборах данных, таких как набор данных COCO.
Слабые стороны
Несмотря на высокую точность, трансформерная природа RTDETRv2 приводит к более высокому потреблению памяти и более медленному времени обучения по сравнению с чистыми архитектурами CNN. Трансформеры по своей природе требуют больше VRAM, что делает их сложными для обучения на аппаратуре с ограниченными ресурсами. Кроме того, хотя RTDETRv2 силен в обнаружении, ему не хватает многозадачной универсальности (такой как оценка позы и сегментация), присущей экосистеме Ultralytics.
Сравнение производительности
При оценке моделей для производства компромисс между размером модели, скоростью инференса и точностью имеет первостепенное значение. В таблице ниже представлено прямое сравнение вариантов YOLOv8 и RTDETRv2.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Аппаратное обеспечение и метрики
Скорость измерялась с использованием экземпляра Amazon EC2 P4d. Инференс на CPU осуществлялся с помощью ONNX, а скорость на GPU тестировалась с TensorRT.
Сценарии использования и рекомендации
Выбор между YOLOv8 и RT-DETR зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда выбирать YOLOv8
YOLOv8 является отличным выбором для:
- Универсальное многозадачное развертывание: Проекты, требующие проверенной модели для обнаружения, сегментации, классификации и оценки позы в экосистеме Ultralytics.
- Устоявшиеся производственные системы: Существующие производственные среды, уже построенные на архитектуре YOLOv8 со стабильными, хорошо протестированными конвейерами развертывания.
- Широкая поддержка сообщества и экосистемы: Приложения, использующие обширные учебные пособия, сторонние интеграции и активные ресурсы сообщества YOLOv8.
Когда выбрать RT-DETR
RT-DETR рекомендуется для:
- Исследования обнаружения на основе трансформеров: Проекты, исследующие механизмы внимания и архитектуры трансформеров для сквозного обнаружения объектов без NMS.
- Сценарии с высокой точностью и гибкой задержкой: Приложения, где точность обнаружения является главным приоритетом и допустима немного более высокая задержка вывода.
- Обнаружение крупных объектов: Сцены с преимущественно средне- и крупногабаритными объектами, где механизм глобального внимания трансформеров обеспечивает естественное преимущество.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Преимущество Ultralytics
Выбор модели выходит за рамки чистых метрик; окружающая программная экосистема имеет решающее значение для продуктивности разработчиков. Экосистема Ultralytics известна своей простотой использования, предоставляя унифицированный Python API, который упрощает весь жизненный цикл машинного обучения.
От управления наборами данных до распределенного обучения, Ultralytics абстрагирует сложный шаблонный код. Разработчики получают выгоду от готовых предварительно обученных весов и бесшовной интеграции с такими платформами, как Hugging Face, и инструментами мониторинга. Эта хорошо поддерживаемая экосистема гарантирует активную разработку, частые обновления и надежную поддержку сообщества.
Кроме того, эффективность обучения является отличительной чертой моделей Ultralytics YOLO. Они высоко оптимизированы для быстрой сходимости и меньшего потребления памяти во время процесса обучения, что значительно ускоряет циклы экспериментов по сравнению с детекторами на основе трансформеров, такими как RTDETRv2.
Взгляд в будущее: Мощь YOLO26
Хотя YOLOv8 остается мощным инструментом, разработчикам, ищущим самые передовые решения, следует рассмотреть возможность обновления до долгожданного YOLO26, выпущенного в январе 2026 года. YOLO26 переопределяет современный уровень развития благодаря нескольким новаторским инновациям:
- Сквозная архитектура без NMS: YOLO26 устраняет постобработку с использованием немаксимального подавления (NMS), что приводит к более быстрым и детерминированным рабочим процессам развертывания.
- Удаление DFL: Удаление Distribution Focal Loss оптимизирует модель для улучшенной совместимости с периферийными и маломощными устройствами.
- Оптимизатор MuSGD: Интегрируя инновации в обучении LLM, оптимизатор MuSGD обеспечивает более стабильные циклы обучения и более быструю сходимость.
- До 43% более быстрый инференс на CPU: Значительно оптимизирован для сред, не имеющих выделенных GPU.
- ProgLoss + STAL: Эти продвинутые функции потерь обеспечивают значительные улучшения в распознавании мелких объектов, что критически важно для аэрофотосъемки и робототехники.
Среди других современных альтернатив, заслуживающих изучения в пакете Ultralytics, — YOLO11, который предлагает надежную производительность для устаревших проектов, хотя YOLO26 рекомендуется для всех новых развертываний.
Пример кода: Обучение и инференс
Простота API Ultralytics означает, что вы можете загружать, обучать и развертывать модели всего за несколько строк кода на Python. Убедитесь, что у вас установлен PyTorch, прежде чем запускать следующий пример.
from ultralytics import YOLO
# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")
# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
# Export seamlessly for edge deployment
export_path = model.export(format="onnx")
Развертывание готово
Ultralytics поддерживает экспорт в один клик во множество форматов, включая ONNX, TensorRT и CoreML, упрощая варианты развертывания моделей на различных аппаратных архитектурах.
Заключение
И YOLOv8, и RTDETRv2 предлагают впечатляющие возможности для обнаружения объектов в реальном времени. RTDETRv2 демонстрирует мощь трансформеров в захвате глобального контекста, что делает его подходящим для сложных задач пространственного мышления, где скорость вывода и накладные расходы на память не являются основными ограничениями.
Однако для разработчиков, которые отдают приоритет исключительному балансу скорости, точности и эффективности использования ресурсов, модели Ultralytics YOLO остаются превосходным выбором. Легковесность YOLOv8 в сочетании с его беспрецедентной простотой использования, универсальностью в различных задачах компьютерного зрения и процветающей экосистемой с открытым исходным кодом делает его идеальным решением для масштабируемых производственных сред. Для тех, кто ищет абсолютную вершину производительности на периферии, недавно выпущенный YOLO26 предлагает непревзойденную NMS-free эффективность, которая продолжает лидировать в отрасли.