Перейти к содержанию

YOLOv6.0 против RTDETRv2: дуэль между промышленными CNN и трансформерами реального времени

В быстро развивающейся области компьютерного зрения борьба за создание наиболее эффективной архитектуры обнаружения объектов часто ведется между устоявшимися сверточными нейронными сетями (CNN) и новыми моделями на основе трансформеров. В этом сравнении рассматриваются YOLOv6.YOLOv6, мощная CNN, оптимизированная для промышленных приложений, и RTDETRv2, трансформер для обнаружения в реальном времени, разработанный для того, чтобы бросить вызов YOLO .

Хотя обе модели обладают впечатляющими возможностями, понимание их архитектурных компромиссов имеет решающее значение для выбора правильного инструмента для вашего проекта. Для разработчиков, которые ищут унифицированное решение, сочетающее в себе лучшие качества обоих подходов — скорость, точность и простоту использования — Ultralytics предлагает передовые альтернативы, такие как YOLO26.

Сравнение показателей эффективности

В следующей таблице показаны различия в производительности между моделями. В то время как YOLOv6. YOLOv6 ориентирован на сырую пропускную способность на специализированном оборудовании, RTDETRv2 направлен на устранение узких мест в постобработке благодаря своей трансформаторной архитектуре.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

YOLOv6.0: промышленный специалист

Разработанный Meituan и выпущенный в начале 2023 года, YOLOv6. YOLOv6 представляет собой важную веху в области одноэтапного обнаружения объектов. Он был разработан специально для промышленных приложений, где аппаратные ограничения, такие как те, которые встречаются в автоматизации производства или логистике, требуют максимального использования возможностей графических процессоров, таких как NVIDIA T4.

Архитектура и Дизайн

YOLOv6 представляет архитектуру RepBi-PAN, двунаправленную сеть агрегации путей, укрепленную блоками типа RepVGG. Такая конструкция позволяет эффективно объединять характеристики, сохраняя при этом высокую скорость вывода. Модель также использует Anchor-Aided Training (AAT) — гибридную стратегию, которая сочетает преимущества парадигм на основе якорей и без якорей для улучшения стабильности сходимости.

Ключевые преимущества

  • GPU : на выделенных ускорителях варианты «Nano» и «Small» обеспечивают невероятно высокую частоту кадров, что делает их подходящими для высокоскоростной видеоаналитики.
  • Поддержка квантования: архитектура разработана с учетом квантования, что упрощает развертывание на периферийном оборудовании с помощью TensorRT.
  • Промышленное применение: такие функции, как развязанная головка, оптимизированы для конкретных задач промышленного контроля, где необходимо свести к минимуму изменчивость задержки.

Узнайте больше о YOLOv6

RTDETRv2: претендент Transformer

RTDETRv2, созданный Baidu, является итерацией оригинального RT-DETR (Real-Time DEtection TRansformer). Он стремится доказать, что архитектуры на основе трансформаторов могут превосходить YOLO на основе CNN как по скорости, так и по точности, устраняя вычислительные узкие места, связанные с обработкой многомасштабных характеристик.

Архитектура и Дизайн

RTDETRv2 использует гибридный кодировщик, который эффективно обрабатывает многомасштабные особенности, в сочетании с механизмом выбора запросов IoU. Уникальной особенностью RTDETRv2 является адаптивный декодер, который позволяет пользователям настраивать количество слоев декодера во время вывода. Это обеспечивает гибкую настройку между скоростью и точностью без необходимости повторного обучения, что является значительным преимуществом в динамичных средах.

Ключевые преимущества

  • NMS: как трансформатор, RTDETRv2 напрямую прогнозирует объекты, устраняя необходимость в подавлении не максимальных значений (NMS). Это упрощает процессы развертывания и снижает джиттер задержки.
  • Высокая точность: модель достигает впечатляющей средней средней точности (mAP), особенно на COCO , часто превосходя сопоставимые CNN в сложных сценах.
  • Универсальность: возможность динамической настройки скорости вывода делает его очень адаптивным к колебаниям вычислительных ресурсов.

Узнайте больше о RT-DETR

Преимущества Ultralytics: Почему стоит выбрать YOLO26?

В то время как YOLOv6. YOLOv6 и RTDETRv2 превосходны в своих нишах, Ultralytics предоставляет комплексное решение, которое устраняет ограничения обоих. YOLO26, последняя разработка в YOLO , сочетает в себе преимущества трансформаторов NMS с сырой эффективностью CNN.

Интегрированный рабочий процесс

Использование Ultralytics вам легко переключаться между архитектурами. Вы можете обучить YOLOv6 , протестировать RT-DETR и развернуть модель YOLO26, используя один и тот же унифицированный API и формат набора данных.

Высокая эффективность и архитектура

YOLO26 использует нативную сквозную конструкцию NMS, которая впервые была внедрена в YOLOv10. Это устраняет необходимость в тяжелой постобработке, требуемой YOLOv6 избежать огромного потребления памяти, связанного с механизмами внимания в RTDETRv2.

  • Оптимизатор MuSGD: вдохновленный инновациями в области обучения LLM, новый оптимизатор MuSGD обеспечивает стабильное обучение и более быструю конвергенцию, привнося масштабную стабильность в задачи машинного зрения.
  • На 43 % более быстрое CPU : благодаря удалению Distribution Focal Loss (DFL) и оптимизации архитектуры для пограничных вычислений YOLO26 работает на CPU значительно быстрее, чем YOLOv6 RTDETRv2, что делает его идеальным выбором для мобильных устройств и устройств IoT.
  • ProgLoss + STAL: усовершенствованные функции потери улучшают обнаружение мелких объектов, что является критически важной областью, в которой традиционные промышленные модели часто сталкиваются с трудностями.

Непревзойденная универсальность

В отличие от YOLOv6.0, который в первую очередь специализируется на обнаружении, Ultralytics по своей сути являются мультимодальными. Единая структура поддерживает:

Простота использования и экосистема

Ultralytics создает опыт «от нуля до героя». Разработчики могут использовать Ultralytics для управления наборами данных, обучения в облаке и развертывания в различных форматах, таких как ONNX, OpenVINOи CoreML.

Экосистема активно поддерживается, что гарантирует совместимость ваших проектов с последними версиями Python версиями и драйверами оборудования — это важный фактор, который часто упускают из виду при использовании статических исследовательских репозиториев.

Пример кода обучения

Обучение современной модели с помощью Ultralytics сложности. Следующий фрагмент кода демонстрирует, как загрузить и обучить эффективную модель YOLO26n:

from ultralytics import YOLO

# Load the YOLO26 Nano model (End-to-End, NMS-free)
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
# The system automatically handles data downloading and caching
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model performance
metrics = model.val()
print(f"mAP50-95: {metrics.box.map}")

Заключение

Если ваше приложение требует строго промышленной GPU на устаревшем оборудовании, YOLOv6.0 остается мощным конкурентом. Для исследовательских сценариев, требующих механизмов внимания на основе трансформаторов, RTDETRv2 предлагает гибкость. Однако для большинства реальных внедрений, требующих баланса скорости, точности, низкого использования памяти и долгосрочной поддержки, Ultralytics является лучшим выбором. Его сквозной дизайн и CPU открывают новые возможности для Edge AI, которые предыдущие поколения не могли предложить.

Узнайте больше о YOLO26


Комментарии