Link to this sectionYOLOv5 против RTDETRv2: оценка архитектур CNN и Transformer для обнаружения объектов#
Ландшафт компьютерного зрения значительно расширился за последние несколько лет, предложив разработчикам широкий спектр архитектур для решения сложных визуальных задач. Среди самых популярных парадигм — сверточные нейронные сети (CNN) и трансформеры обнаружения (DETR).
В этом руководстве представлено подробное техническое сравнение двух ключевых моделей в этих категориях: Ultralytics YOLOv5, высокоэффективная и широко используемая модель на базе CNN, и RTDETRv2, современный детектор объектов реального времени на основе трансформеров.
Link to this sectionUltralytics YOLOv5: отраслевой стандарт эффективности#
С момента своего выпуска Ultralytics YOLOv5 стал краеугольным камнем сообщества ИИ, обеспечивая работу тысяч коммерческих приложений и исследовательских проектов по всему миру. Построенный полностью на фреймворке PyTorch, он ставит во главу угла интуитивно понятный опыт разработчика без ущерба для производительности в реальном времени.
Основные характеристики:
- Автор: Гленн Джочер
- Организация: Ultralytics
- Дата: 2020-06-26
- Ссылки: Репозиторий GitHub
Link to this sectionАрхитектура и преимущества#
YOLOv5 использует оптимизированную архитектуру CNN, разработанную для максимизации эффективности извлечения признаков при сохранении крайне малого объема памяти. Он использует бэкбон CSPDarknet и нек PANet, создавая мощную комбинацию для многомасштабного слияния признаков.
Одним из главных преимуществ YOLOv5 является баланс производительности. Он обеспечивает исключительный компромисс между скоростью и точностью, что делает его идеальным выбором для развертывания моделей на оборудовании с ограниченными ресурсами, таком как устройства NVIDIA Jetson и смартфоны.
Более того, YOLOv5 может похвастаться непревзойденной универсальностью. В отличие от моделей, строго ограниченных предсказанием ограничивающих рамок, YOLOv5 изначально поддерживает классификацию изображений и сегментацию экземпляров, предоставляя единый фреймворк для различных визуальных задач. Его эффективность обучения также впечатляет: он требует значительно меньше памяти CUDA во время обучения по сравнению с архитектурами на базе трансформеров.
Link to this sectionСлабые стороны#
Because it relies on an older CNN framework, YOLOv5 inherently depends on Non-Maximum Suppression (NMS) during post-processing to eliminate duplicate bounding boxes. While highly optimized within the Ultralytics framework, NMS can occasionally introduce latency bottlenecks on specialized edge NPUs.
Link to this sectionRTDETRv2: трансформеры реального времени от Baidu#
RTDETRv2 (Real-Time Detection Transformer v2) представляет собой существенный скачок в применении архитектур трансформеров к обнаружению объектов в реальном времени, устраняя вычислительные неэффективности, которые исторически были свойственны стандартным DETR.
Основные характеристики:
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 24.07.2024
- Ссылки: Статья Arxiv, Репозиторий GitHub
Link to this sectionАрхитектура и преимущества#
RTDETRv2 развивает идеи своего предшественника, используя гибридный энкодер и гибкий дизайн декодера для обработки изображений. Механизм селф-аттеншн (самовнимания) трансформера дает модели глобальное понимание контекста изображения, позволяя ей отлично работать в сложных сценах с сильным перекрытием объектов.
A defining feature of RTDETRv2 is its end-to-end, NMS-free design. By predicting object queries directly without requiring anchor boxes or NMS post-processing, it simplifies the inference pipeline. This architecture achieves an impressive mAP (mean Average Precision) on benchmark datasets like COCO.
Link to this sectionСлабые стороны#
Несмотря на свои возможности работы в реальном времени, у RTDETRv2 заметно более высокие требования к памяти по сравнению с моделями YOLO. Механизмы внимания в трансформерах масштабируются квадратично от длины последовательности, что может приводить к ошибкам нехватки памяти (OOM) во время обучения с высоким разрешением, если не использовать массивные кластеры GPU. Кроме того, ему не хватает универсальности экосистемы Ultralytics, поскольку он в основном фокусируется только на 2D обнаружении объектов без встроенной поддержки сегментации или оценки поз.
Link to this sectionТаблица сравнения производительности#
Чтобы объективно оценить эти архитектуры, мы собрали их показатели производительности. Значения, выделенные жирным шрифтом, представляют собой наиболее эффективные или самые высокие показатели производительности среди протестированных масштабов.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Хотя RTDETRv2-x достигает наивысшего абсолютного значения mAP, он требует почти в 30 раз больше параметров, чем YOLOv5n. Для высокоскоростных приложений, работающих на ограниченном оборудовании, модели Ultralytics неизменно предлагают лучшую вычислительную эффективность.
Link to this sectionПреимущества экосистемы Ultralytics#
При переносе модели из исследовательского ноутбука в производственную среду программное обеспечение, окружающее модель, так же важно, как и архитектура нейронной сети. Хорошо поддерживаемая экосистема, предоставляемая Ultralytics, значительно ускоряет жизненный цикл разработки.
Link to this sectionНепревзойденная простота использования#
Модели Ultralytics отдают приоритет невероятно оптимизированному пользовательскому опыту. Хочешь ли ты обучить пользовательскую модель, запустить валидацию или экспортировать ее в аппаратно-зависимые форматы, такие как TensorRT или ONNX, Python API от Ultralytics позволит сделать это всего за несколько строк кода.
Вот практический пример кода, демонстрирующий, насколько просто обучать и запускать вывод с моделью Ultralytics:
from ultralytics import YOLO
# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")
# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
inference_results[0].show()Этот простой, унифицированный API изначально поддерживает интеграцию отслеживания экспериментов с такими инструментами, как Weights & Biases и Comet, что позволяет разработчикам легко регистрировать метрики, не записывая сложный шаблонный код.
Link to this sectionСценарии использования и рекомендации#
Выбор между YOLOv5 и RT-DETR зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.
Link to this sectionКогда стоит выбрать YOLOv5#
YOLOv5 — отличный выбор для:
- Проверенных производственных систем: существующих развертываний, где ценятся долгая история стабильности YOLOv5, обширная документация и огромная поддержка сообщества.
- Обучения с ограниченными ресурсами: сред с ограниченными ресурсами GPU, где эффективный конвейер обучения YOLOv5 и более низкие требования к памяти являются преимуществом.
- Обширной поддержки форматов экспорта: проектов, требующих развертывания во многих форматах, включая ONNX, TensorRT, CoreML и TFLite.
Link to this sectionКогда выбирать RT-DETR#
RT-DETR рекомендуется для:
- Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
- Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionВзгляд в будущее: YOLO11 и YOLO26#
Если ты начинаешь новый проект в области компьютерного зрения сегодня, настоятельно рекомендуется изучить последние поколения моделей Ultralytics.
Хотя YOLOv5 остается невероятно надежным, YOLO11 предлагает улучшенную точность и расширенный набор задач, включая обнаружение ориентированных ограничивающих рамок (OBB).
Еще более значительно то, что передовая модель YOLO26 объединяет лучшее из обоих миров. Она реализует сквозной дизайн без NMS (впервые представленный в YOLOv10), устраняя накладные расходы на постобработку при сохранении эффективности CNN. YOLO26 также представляет оптимизатор MuSGD, вдохновленный инновациями в обучении LLM, для более быстрой сходимости. Благодаря удалению DFL (Distribution Focal Loss удален для упрощенного экспорта и лучшей совместимости с периферийными/маломощными устройствами), YOLO26 обеспечивает ускорение вывода на CPU до 43%, что делает его абсолютным лучшим выбором для Edge AI. Кроме того, ProgLoss + STAL предоставляет улучшенные функции потерь с заметными улучшениями в распознавании мелких объектов, что критически важно для IoT, робототехники и аэрофотосъемки.
Link to this sectionЗаключение#
Выбор между YOLOv5 и RTDETRv2 сильно зависит от твоих ограничений при развертывании. RTDETRv2 расширяет границы mAP, используя мощные механизмы внимания трансформеров, но требует больших затрат памяти и вычислительных мощностей.
И наоборот, Ultralytics YOLOv5 предлагает проверенное, высокооптимизированное и универсальное решение, которое плавно работает везде — от облачных серверов до микроконтроллеров. Для команд, которые ищут максимально возможную точность в сочетании с бесшовными инструментами развертывания, переход на YOLO26 внутри экосистемы Ultralytics предоставляет окончательное современное решение для актуальных приложений искусственного интеллекта в компьютерном зрении.