Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 против RTDETRv2: оценка архитектур CNN и Transformer для обнаружения объектов#

Ландшафт компьютерного зрения значительно расширился за последние несколько лет, предложив разработчикам широкий спектр архитектур для решения сложных визуальных задач. Среди самых популярных парадигм — сверточные нейронные сети (CNN) и трансформеры обнаружения (DETR).

В этом руководстве представлено подробное техническое сравнение двух ключевых моделей в этих категориях: Ultralytics YOLOv5, высокоэффективная и широко используемая модель на базе CNN, и RTDETRv2, современный детектор объектов реального времени на основе трансформеров.

Link to this sectionUltralytics YOLOv5: отраслевой стандарт эффективности#

С момента своего выпуска Ultralytics YOLOv5 стал краеугольным камнем сообщества ИИ, обеспечивая работу тысяч коммерческих приложений и исследовательских проектов по всему миру. Построенный полностью на фреймворке PyTorch, он ставит во главу угла интуитивно понятный опыт разработчика без ущерба для производительности в реальном времени.

Основные характеристики:

Link to this sectionАрхитектура и преимущества#

YOLOv5 использует оптимизированную архитектуру CNN, разработанную для максимизации эффективности извлечения признаков при сохранении крайне малого объема памяти. Он использует бэкбон CSPDarknet и нек PANet, создавая мощную комбинацию для многомасштабного слияния признаков.

Одним из главных преимуществ YOLOv5 является баланс производительности. Он обеспечивает исключительный компромисс между скоростью и точностью, что делает его идеальным выбором для развертывания моделей на оборудовании с ограниченными ресурсами, таком как устройства NVIDIA Jetson и смартфоны.

Более того, YOLOv5 может похвастаться непревзойденной универсальностью. В отличие от моделей, строго ограниченных предсказанием ограничивающих рамок, YOLOv5 изначально поддерживает классификацию изображений и сегментацию экземпляров, предоставляя единый фреймворк для различных визуальных задач. Его эффективность обучения также впечатляет: он требует значительно меньше памяти CUDA во время обучения по сравнению с архитектурами на базе трансформеров.

Link to this sectionСлабые стороны#

Because it relies on an older CNN framework, YOLOv5 inherently depends on Non-Maximum Suppression (NMS) during post-processing to eliminate duplicate bounding boxes. While highly optimized within the Ultralytics framework, NMS can occasionally introduce latency bottlenecks on specialized edge NPUs.

Узнай больше о YOLOv5

Link to this sectionRTDETRv2: трансформеры реального времени от Baidu#

RTDETRv2 (Real-Time Detection Transformer v2) представляет собой существенный скачок в применении архитектур трансформеров к обнаружению объектов в реальном времени, устраняя вычислительные неэффективности, которые исторически были свойственны стандартным DETR.

Основные характеристики:

Link to this sectionАрхитектура и преимущества#

RTDETRv2 развивает идеи своего предшественника, используя гибридный энкодер и гибкий дизайн декодера для обработки изображений. Механизм селф-аттеншн (самовнимания) трансформера дает модели глобальное понимание контекста изображения, позволяя ей отлично работать в сложных сценах с сильным перекрытием объектов.

A defining feature of RTDETRv2 is its end-to-end, NMS-free design. By predicting object queries directly without requiring anchor boxes or NMS post-processing, it simplifies the inference pipeline. This architecture achieves an impressive mAP (mean Average Precision) on benchmark datasets like COCO.

Link to this sectionСлабые стороны#

Несмотря на свои возможности работы в реальном времени, у RTDETRv2 заметно более высокие требования к памяти по сравнению с моделями YOLO. Механизмы внимания в трансформерах масштабируются квадратично от длины последовательности, что может приводить к ошибкам нехватки памяти (OOM) во время обучения с высоким разрешением, если не использовать массивные кластеры GPU. Кроме того, ему не хватает универсальности экосистемы Ultralytics, поскольку он в основном фокусируется только на 2D обнаружении объектов без встроенной поддержки сегментации или оценки поз.

Узнай больше о RTDETR

Link to this sectionТаблица сравнения производительности#

Чтобы объективно оценить эти архитектуры, мы собрали их показатели производительности. Значения, выделенные жирным шрифтом, представляют собой наиболее эффективные или самые высокие показатели производительности среди протестированных масштабов.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Контекст производительности

Хотя RTDETRv2-x достигает наивысшего абсолютного значения mAP, он требует почти в 30 раз больше параметров, чем YOLOv5n. Для высокоскоростных приложений, работающих на ограниченном оборудовании, модели Ultralytics неизменно предлагают лучшую вычислительную эффективность.

Link to this sectionПреимущества экосистемы Ultralytics#

При переносе модели из исследовательского ноутбука в производственную среду программное обеспечение, окружающее модель, так же важно, как и архитектура нейронной сети. Хорошо поддерживаемая экосистема, предоставляемая Ultralytics, значительно ускоряет жизненный цикл разработки.

Link to this sectionНепревзойденная простота использования#

Модели Ultralytics отдают приоритет невероятно оптимизированному пользовательскому опыту. Хочешь ли ты обучить пользовательскую модель, запустить валидацию или экспортировать ее в аппаратно-зависимые форматы, такие как TensorRT или ONNX, Python API от Ultralytics позволит сделать это всего за несколько строк кода.

Вот практический пример кода, демонстрирующий, насколько просто обучать и запускать вывод с моделью Ultralytics:

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

Этот простой, унифицированный API изначально поддерживает интеграцию отслеживания экспериментов с такими инструментами, как Weights & Biases и Comet, что позволяет разработчикам легко регистрировать метрики, не записывая сложный шаблонный код.

Link to this sectionСценарии использования и рекомендации#

Выбор между YOLOv5 и RT-DETR зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Link to this sectionКогда стоит выбрать YOLOv5#

YOLOv5 — отличный выбор для:

  • Проверенных производственных систем: существующих развертываний, где ценятся долгая история стабильности YOLOv5, обширная документация и огромная поддержка сообщества.
  • Обучения с ограниченными ресурсами: сред с ограниченными ресурсами GPU, где эффективный конвейер обучения YOLOv5 и более низкие требования к памяти являются преимуществом.
  • Обширной поддержки форматов экспорта: проектов, требующих развертывания во многих форматах, включая ONNX, TensorRT, CoreML и TFLite.

Link to this sectionКогда выбирать RT-DETR#

RT-DETR рекомендуется для:

  • Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
  • Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

  • Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
  • Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
  • Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionВзгляд в будущее: YOLO11 и YOLO26#

Если ты начинаешь новый проект в области компьютерного зрения сегодня, настоятельно рекомендуется изучить последние поколения моделей Ultralytics.

Хотя YOLOv5 остается невероятно надежным, YOLO11 предлагает улучшенную точность и расширенный набор задач, включая обнаружение ориентированных ограничивающих рамок (OBB).

Еще более значительно то, что передовая модель YOLO26 объединяет лучшее из обоих миров. Она реализует сквозной дизайн без NMS (впервые представленный в YOLOv10), устраняя накладные расходы на постобработку при сохранении эффективности CNN. YOLO26 также представляет оптимизатор MuSGD, вдохновленный инновациями в обучении LLM, для более быстрой сходимости. Благодаря удалению DFL (Distribution Focal Loss удален для упрощенного экспорта и лучшей совместимости с периферийными/маломощными устройствами), YOLO26 обеспечивает ускорение вывода на CPU до 43%, что делает его абсолютным лучшим выбором для Edge AI. Кроме того, ProgLoss + STAL предоставляет улучшенные функции потерь с заметными улучшениями в распознавании мелких объектов, что критически важно для IoT, робототехники и аэрофотосъемки.

Link to this sectionЗаключение#

Выбор между YOLOv5 и RTDETRv2 сильно зависит от твоих ограничений при развертывании. RTDETRv2 расширяет границы mAP, используя мощные механизмы внимания трансформеров, но требует больших затрат памяти и вычислительных мощностей.

И наоборот, Ultralytics YOLOv5 предлагает проверенное, высокооптимизированное и универсальное решение, которое плавно работает везде — от облачных серверов до микроконтроллеров. Для команд, которые ищут максимально возможную точность в сочетании с бесшовными инструментами развертывания, переход на YOLO26 внутри экосистемы Ultralytics предоставляет окончательное современное решение для актуальных приложений искусственного интеллекта в компьютерном зрении.

Комментарии