Перейти к содержанию

YOLOv8 vs RTDETRv2: техническое сравнение

Выбор подходящей модели обнаружения объектов предполагает компромисс между точностью, скоростью и вычислительными затратами. На этой странице представлено подробное техническое сравнение двух мощных моделей: Ultralytics YOLOv8, современной модели из семейства YOLO, и RTDETRv2, трансформера для обнаружения объектов в реальном времени от Baidu. Хотя обе модели демонстрируют отличную производительность, они построены на принципиально разных архитектурных принципах, что делает их подходящими для разных приложений.

Ultralytics YOLOv8: Универсальный и эффективный стандарт

Ultralytics YOLOv8 — это последняя модель с долгосрочной поддержкой (LTS) в очень успешной серии YOLO. Она опирается на инновации своих предшественников, обеспечивая исключительную производительность, уделяя при этом первоочередное внимание простоте использования, скорости и универсальности.

Технические детали:

Архитектура и ключевые особенности

YOLOv8 отличается высокооптимизированной, одноэтапной архитектурой без привязки к anchor boxes. В ней используется backbone на основе CSPDarknet53 для эффективного извлечения признаков и модуль C2f (Cross Stage Partial Bottlebeck с 2 свертками) в neck для улучшения объединения признаков. Такая конструкция обеспечивает не только скорость и точность модели, но и вычислительную эффективность.

Ключевым преимуществом YOLOv8 является его интеграция в комплексную экосистему Ultralytics. Это обеспечивает оптимизированный пользовательский опыт с простым Python API и CLI, обширной документацией и активной поддержкой сообщества.

Сильные стороны

  • Баланс производительности: YOLOv8 обеспечивает выдающийся компромисс между скоростью и точностью, что делает его подходящим для широкого спектра сценариев реального развертывания, от высокопроизводительных облачных серверов до периферийных устройств с ограниченными ресурсами.
  • Простота использования: Модель невероятно удобна в использовании, с простыми рабочими процессами для обучения, проверки и развертывания. Хорошо поддерживаемая экосистема включает в себя такие инструменты, как Ultralytics HUB для обучения без кода и управления MLOps.
  • Универсальность: В отличие от RTDETRv2, которая в первую очередь является детектором объектов, YOLOv8 — это многозадачная модель, поддерживающая обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение ориентированных объектов (OBB) в рамках единой унифицированной структуры.
  • Эффективность обучения и памяти: YOLOv8 разработан для эффективных процессов обучения с легкодоступными предварительно обученными весами. По сравнению с моделями на основе трансформеров, такими как RTDETRv2, YOLOv8 обычно требует значительно меньше памяти CUDA и сходится быстрее, что снижает вычислительные затраты и время разработки.

Слабые стороны

  • Несмотря на высокую точность, самые большие модели на основе трансформеров могут достигать несколько более высокого mAP на определенных сложных наборах данных с плотными объектами, хотя это часто достигается за счет гораздо более высокой задержки и требований к ресурсам.

Идеальные варианты использования

Баланс скорости, точности и универсальности YOLOv8 делает ее идеальной для:

Узнайте больше о YOLOv8

RTDETRv2: Обнаружение в реальном времени с помощью Transformers

RT-DETRv2 (Детектор-трансформер реального времени v2) — это современный детектор объектов от Baidu, который использует возможности Vision Transformers для достижения высокой точности при сохранении производительности в реальном времени на мощном оборудовании.

Технические детали:

Архитектура и ключевые особенности

RTDETRv2 использует гибридную архитектуру, сочетающую в себе CNN backbone (например, ResNet) для начального извлечения признаков с Transformer-based encoder-decoder. Механизм самовнимания трансформера позволяет модели захватывать глобальный контекст и долгосрочные зависимости между объектами на изображении, что может быть полезно для обнаружения объектов в сложных или загроможденных сценах.

Сильные стороны

  • Высокая точность: Архитектура transformer позволяет RTDETRv2 достигать отличных показателей mAP, особенно на сложных наборах данных со множеством маленьких или перекрытых объектов.
  • Надежное извлечение признаков: Его способность обрабатывать глобальный контекст изображения приводит к высокой производительности в сложных сценариях обнаружения.
  • Реальное время на GPU: Модель оптимизирована для обеспечения конкурентоспособной скорости инференса при ускорении на высокопроизводительных GPU с использованием таких инструментов, как NVIDIA TensorRT.

Слабые стороны

  • Вычислительные затраты: RTDETRv2 обычно имеет большее количество параметров и больше FLOPs, чем сопоставимые модели YOLOv8, что требует более значительных вычислительных ресурсов, особенно памяти GPU.
  • Сложность обучения: Обучение моделей на основе трансформеров, как известно, является ресурсоемким и может быть значительно медленнее и требовать больше памяти, чем обучение моделей на основе CNN, таких как YOLOv8.
  • Скорость инференса: Несмотря на высокую скорость на мощных GPU, его производительность может значительно ухудшиться на CPU или менее мощных периферийных устройствах, что делает его менее подходящим для широкого спектра оборудования.
  • Ограниченная универсальность: RTDETRv2 в основном предназначен для обнаружения объектов и не имеет встроенной поддержки многозадачности для сегментации, классификации и оценки позы, которая есть в YOLOv8.
  • Экосистема: Она не использует преимущества унифицированной и удобной экосистемы, такой как Ultralytics, что может сделать обучение, развертывание и обслуживание более сложным для разработчиков.

Идеальные варианты использования

RTDETRv2 лучше всего подходит для:

  • Сценарии с высокой точностью: Приложения, в которых достижение максимально возможного mAP на сложных наборах данных является основной целью и имеется достаточно ресурсов GPU.
  • Академические исследования: Изучение возможностей архитектур на основе трансформеров для обнаружения объектов.
  • Развертывание в облаке: Системы, в которых логический вывод выполняется на мощных облачных серверах с выделенным ускорением GPU.

Узнайте больше о RTDETRv2

Анализ производительности: скорость, точность и эффективность

При сравнении YOLOv8 и RTDETRv2 становится ясно, что каждая модель имеет свои сильные стороны. Таблица ниже показывает, что, хотя самая большая модель RTDETRv2 немного превосходит YOLOv8x по mAP, модели YOLOv8 последовательно предлагают лучший баланс скорости, точности и эффективности.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv8n 640 37.3 80.4 1.47 3.2 8.7
YOLOv8s 640 44.9 128.4 2.66 11.2 28.6
YOLOv8m 640 50.2 234.7 5.86 25.9 78.9
YOLOv8l 640 52.9 375.2 9.06 43.7 165.2
YOLOv8x 640 53.9 479.1 14.37 68.2 257.8
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

YOLOv8 демонстрирует превосходную скорость для всех размеров моделей, особенно на CPU, где официальные тесты для RTDETRv2 не предоставляются. Например, YOLOv8l достигает 52,9 mAP с задержкой всего 9,06 мс на GPU T4, в то время как немного более точная RTDETRv2-l (53,4 mAP) работает медленнее — 9,76 мс. Эта эффективность делает YOLOv8 более практичным выбором для приложений, требующих инференса в реальном времени.

Заключение: какую модель вам следует выбрать?

RTDETRv2 — это впечатляющая модель, которая демонстрирует потенциал трансформеров для высокоточного обнаружения объектов, что делает ее отличным выбором для исследований и специализированных приложений с большим количеством вычислительных ресурсов.

Однако, для подавляющего большинства разработчиков, исследователей и предприятий Ultralytics YOLOv8 является превосходным выбором. Он предлагает исключительный баланс скорости и точности, является гораздо более вычислительно эффективным и значительно проще в использовании. Его универсальность в различных задачах компьютерного зрения в сочетании с надежной и хорошо поддерживаемой экосистемой делает его более практичным, экономически эффективным и мощным решением для создания и развертывания реальных систем искусственного интеллекта. Для тех, кто ищет новейшие достижения, более новые модели, такие как YOLO11, еще больше расширяют эти преимущества.

Изучите другие модели

Для дальнейшего изучения рассмотрите эти сравнения с участием YOLOv8, RTDETRv2 и других соответствующих моделей:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии