YOLOv8 против RTDETRv2: подробное техническое сравнение

Ландшафт компьютерного зрения постоянно развивается, и новые архитектуры расширяют границы возможного в обнаружении объектов в реальном времени. Две заметные модели, которые привлекли значительное внимание, — это Ultralytics YOLOv8 и RTDETRv2 от Baidu. Это руководство содержит полное техническое сравнение этих двух мощных моделей, исследуя их архитектуры, показатели производительности и идеальные сценарии развертывания.

Обзор YOLOv8

Ultralytics YOLOv8 представляет собой важную веху в семействе моделей YOLO (You Only Look Once). Она опирается на годы фундаментальных исследований, обеспечивая исключительную скорость, точность и простоту использования для широкого спектра задач.

Ключевые характеристики:

Архитектура и сильные стороны

YOLOv8 представляет оптимизированную архитектуру, которая улучшает как извлечение признаков, так и регрессию ограничивающих рамок. Это детектор без анкоров (anchor-free), что упрощает предсказательную головку и сокращает количество гиперпараметров, требующих настройки во время обучения. Такая архитектура обеспечивает отличный баланс производительности между скоростью вывода и средним значением точности (mAP), что делает ее идеальной для реального развертывания как на граничных устройствах (edge devices), так и на облачных серверах.

Более того, YOLOv8 требует значительно меньших объемов памяти во время обучения по сравнению с архитектурами на базе Transformer. Это позволяет тебе обучать модели на стандартных потребительских GPU без возникновения ошибок переполнения памяти.

Универсальность

Одной из определяющих сильных сторон YOLOv8 является ее врожденная универсальность. Хотя многие модели фокусируются исключительно на ограничивающих рамках, YOLOv8 «из коробки» поддерживает обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение ориентированных ограничивающих рамок (OBB).

Узнай больше о YOLOv8

Обзор RTDETRv2

RTDETRv2 (Real-Time Detection Transformer version 2) основана на оригинальной RT-DETR и нацелена на использование мощных механизмов внимания Vision Transformers в задачах обнаружения объектов в реальном времени.

Ключевые характеристики:

Архитектура и сильные стороны

RTDETRv2 использует гибридную архитектуру, которая сочетает основу (backbone) Convolutional Neural Network (CNN) с структурой энкодера-декодера трансформера. Это позволяет модели улавливать сложные пространственные взаимосвязи и глобальный контекст через механизмы самовнимания. Используя набор стратегий обучения «bag-of-freebies», RTDETRv2 достигает конкурентоспособных показателей mAP на стандартных эталонных наборах данных, таких как COCO dataset.

Недостатки

Несмотря на высокую точность, природа RTDETRv2 на основе трансформеров влечет за собой более высокое потребление памяти и более длительное время обучения по сравнению с чисто CNN-архитектурами. Трансформеры по своей сути требуют больше VRAM, что затрудняет их обучение на аппаратном обеспечении с ограниченными ресурсами. Кроме того, хотя RTDETRv2 сильна в обнаружении, ей не хватает многозадачной универсальности (например, оценки позы и сегментации), присущей экосистеме Ultralytics.

Узнай больше о RTDETRv2

Сравнение производительности

При оценке моделей для продакшена компромисс между размером модели, скоростью вывода и точностью имеет первостепенное значение. В таблице ниже приведено прямое сравнение вариантов YOLOv8 и RTDETRv2.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Аппаратное обеспечение и метрики

Скорость измерялась с использованием инстанса Amazon EC2 P4d. Для вывода на CPU использовался ONNX, в то время как скорость на GPU тестировалась с помощью TensorRT.

Варианты использования и рекомендации

Выбор между YOLOv8 и RT-DETR зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать YOLOv8

YOLOv8 — отличный выбор для:

  • Универсальное многозадачное развертывание: Проекты, требующие проверенной модели для обнаружения, сегментации, классификации и оценки позы внутри экосистемы Ultralytics.
  • Устоявшиеся производственные системы: Существующие производственные среды, уже построенные на архитектуре YOLOv8 со стабильными, хорошо протестированными конвейерами развертывания.
  • Широкая поддержка сообщества и экосистемы: Приложения, использующие преимущества обширных руководств, сторонних интеграций и активных ресурсов сообщества YOLOv8.

Когда стоит выбирать RT-DETR

RT-DETR рекомендуется для:

  • Исследований в области детектирования на базе Transformer: Проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end обнаружения объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: Приложений, где точность обнаружения является главным приоритетом, а немного большая задержка вывода допустима.
  • Обнаружения крупных объектов: Сцен, преимущественно состоящих из средних и крупных объектов, где глобальный механизм внимания трансформеров дает естественное преимущество.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Преимущество Ultralytics

Выбор модели выходит за рамки сухих метрик; окружающая программная экосистема критически важна для продуктивности разработчика. Экосистема Ultralytics славится своей простотой в использовании, предоставляя унифицированный Python API, который упрощает весь жизненный цикл машинного обучения.

От управления наборами данных до распределенного обучения, Ultralytics берет на себя всю сложную шаблонную работу. Ты получаешь доступ к готовым предобученным весам и бесшовной интеграции с такими платформами, как Hugging Face, и инструментами мониторинга. Эта хорошо поддерживаемая экосистема гарантирует активную разработку, частые обновления и надежную поддержку сообщества.

Более того, эффективность обучения является отличительной чертой моделей Ultralytics YOLO. Они высоко оптимизированы для быстрой сходимости и меньшего потребления памяти во время процесса обучения, что значительно ускоряет циклы экспериментов по сравнению с детекторами на базе трансформеров, такими как RTDETRv2.

Взгляд в будущее: Мощь YOLO26

Хотя YOLOv8 остается мощным инструментом, разработчикам, стремящимся к абсолютно передовым технологиям, стоит рассмотреть переход на долгожданную модель YOLO26, выпущенную в январе 2026 года. YOLO26 переопределяет состояние технологий (state-of-the-art) благодаря нескольким революционным инновациям:

  • Дизайн без NMS (End-to-End NMS-Free): YOLO26 исключает постобработку Non-Maximum Suppression (NMS), что приводит к более быстрым и детерминированным рабочим процессам развертывания.
  • Удаление DFL: Удаление Distribution Focal Loss оптимизирует модель для лучшей совместимости с граничными устройствами и устройствами с низким энергопотреблением.
  • Оптимизатор MuSGD: Интегрируя инновации в обучении LLM, оптимизатор MuSGD обеспечивает более стабильные запуски обучения и более быструю сходимость.
  • До 43% быстрее вывод на CPU: Сильно оптимизировано для сред, где отсутствуют специализированные GPU.
  • ProgLoss + STAL: Эти продвинутые функции потерь дают заметные улучшения в распознавании мелких объектов, что критично для аэрофотосъемки и робототехники.

Другие современные альтернативы, которые стоит изучить в наборе Ultralytics, включают YOLO11, которая предлагает надежную производительность для устаревших проектов, хотя для всех новых развертываний рекомендуется YOLO26.

Пример кода: обучение и инференс

Простота API Ultralytics означает, что ты можешь загружать, обучать и развертывать модели всего в несколько строк кода на Python. Убедись, что перед выполнением следующего примера у тебя установлен PyTorch.

from ultralytics import YOLO

# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")

# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)

# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Export seamlessly for edge deployment
export_path = model.export(format="onnx")
Готовность к развертыванию

Ultralytics поддерживает экспорт в один клик во множество форматов, включая ONNX, TensorRT и CoreML, упрощая варианты развертывания моделей на различных аппаратных архитектурах.

Заключение

И YOLOv8, и RTDETRv2 предлагают впечатляющие возможности для обнаружения объектов в реальном времени. RTDETRv2 демонстрирует силу трансформеров в улавливании глобального контекста, что делает ее подходящей для задач сложного пространственного рассуждения, где скорость вывода и затраты памяти не являются главными ограничениями.

Однако для разработчиков, которые ставят во главу угла исключительный баланс скорости, точности и эффективности использования ресурсов, модели Ultralytics YOLO остаются лучшим выбором. Легкость YOLOv8 в сочетании с ее непревзойденной простотой использования, универсальностью в различных задачах зрения и процветающей open-source экосистемой делает ее основным решением для масштабируемых производственных сред. Для тех, кто ищет абсолютную вершину производительности на граничных устройствах, недавно выпущенная YOLO26 предлагает непревзойденную эффективность без NMS, которая продолжает лидировать в индустрии.

Комментарии