YOLOv6-3.0 против YOLOv7: разбираемся в архитектурах детектирования объектов в реальном времени

Эволюция компьютерного зрения в реальном времени отмечена быстрым прогрессом в эффективности архитектур и методологий обучения. Две заметные модели, значительно повлиявшие на этот ландшафт, — это YOLOv6-3.0 и YOLOv7. Обе платформы представили инновационные методы балансировки скорости вывода и точности детектирования, ориентируясь на развертывание в диапазоне от мощных серверных GPU до граничных устройств.

Это подробное техническое сравнение исследует их архитектуры, показатели производительности и идеальные сценарии использования, одновременно подчеркивая, как современная платформа Ultralytics и новейшая модель YOLO26 опираются на эти фундаментальные концепции для обеспечения непревзойденного опыта разработки.

YOLOv6-3.0: Оптимизация промышленной пропускной способности

Разработанная отделом Vision AI компании Meituan, модель YOLOv6-3.0 была специально спроектирована для промышленных приложений с высокой пропускной способностью. Она делает основной акцент на максимизации производительности на аппаратных ускорителях, что делает её отличным кандидатом для сред, где эффективна пакетная обработка на выделенных GPU.

  • Авторы: Чуйи Ли, Лулу Ли, Ифэй Гэн, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
  • Организация: Meituan
  • Дата: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

Архитектурные инновации

YOLOv6-3.0 опирается на бэкенд EfficientRep, аппаратную архитектуру, разработанную для оптимизации затрат на доступ к памяти на GPU. Для улучшения слияния признаков на разных масштабах модель представляет модуль двунаправленной конкатенации (Bi-directional Concatenation, BiC) в своей шейной части. Это позволяет сети эффективнее улавливать сложные пространственные иерархии по сравнению с предыдущими итерациями.

Кроме того, YOLOv6-3.0 реализует стратегию обучения с использованием якорей (Anchor-Aided Training, AAT). Этот подход сочетает богатые градиентные сигналы обучения на основе якорей с преимуществами развертывания вывода без якорей (anchor-free), помогая модели сходиться более стабильно без ущерба для скорости постобработки.

Узнай больше о YOLOv6

Аппаратные соображения

Хотя YOLOv6-3.0 отлично работает на серверных GPU (таких как NVIDIA T4), её сильная зависимость от специфической структурной репараметризации иногда может приводить к неоптимальной задержке на строго ограниченных CPU граничных устройствах по сравнению с новыми архитектурами.

YOLOv7: первопроходец «набора бесплатных инструментов»

Выпущенная исследователями из Academia Sinica, модель YOLOv7 применила иной подход, сосредоточившись на анализе путей градиентов и оптимизациях времени обучения, которые не увеличивают стоимость вывода — концепция, которую авторы называют "обучаемым набором бесплатных инструментов" (trainable bag-of-freebies).

  • Авторы: Chien-Yao Wang, Alexey Bochkovskiy и Hong-Yuan Mark Liao
  • Организация: Институт информационных наук, Academia Sinica, Тайвань
  • Дата: 2022-07-06
  • Arxiv: 2207.02696
  • GitHub: WongKinYiu/yolov7

Архитектурные инновации

Основа YOLOv7 — это расширенная сеть агрегации эффективных слоев (Extended Efficient Layer Aggregation Network, E-ELAN). E-ELAN оптимизирует путь градиента, позволяя различным слоям изучать более разнообразные признаки, не нарушая исходную топологию сети. Это приводит к созданию высоковыразительной модели, способной достичь топовой средней точности (mAP).

YOLOv7 также активно использует репараметризацию модели, объединяя сверточные слои с пакетной нормализацией во время вывода. Это уменьшает количество параметров и ускоряет прямой проход при развертывании с использованием таких фреймворков, как NVIDIA TensorRT или ONNX.

Узнай больше о YOLOv7

Сравнение производительности

При оценке этих моделей на датасете MS COCO мы наблюдаем четкий компромисс между ультралегкими вариантами YOLOv6 и сильно параметризованными архитектурами YOLOv7, ориентированными на точность.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Данные показывают, что YOLOv6-3.0n предлагает исключительную скорость вывода, что делает её подходящей для высокочастотной видеоаналитики. Напротив, YOLOv7x достигает наивысшего mAP, доминируя в задачах, где точность детектирования важнее скорости кадров.

Варианты использования и рекомендации

Выбор между YOLOv6 и YOLOv7 зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать YOLOv6

YOLOv6 — хороший выбор для:

  • Развертывания с учетом промышленного оборудования: Сценарии, где аппаратная оптимизация модели и эффективная репараметризация обеспечивают наилучшую производительность на конкретном целевом оборудовании.
  • Быстрой одностадийной детекции: Приложения, ставящие во главу угла скорость логического вывода на GPU для обработки видео в реальном времени в контролируемых средах.
  • Интеграции в экосистему Meituan: Команды, уже работающие внутри технологического стека и инфраструктуры развертывания Meituan.

Когда стоит выбрать YOLOv7

YOLOv7 рекомендуется для:

  • Академического бенчмаркинга: воспроизведение результатов SOTA 2022 года или изучение эффектов E-ELAN и методов trainable bag-of-freebies.
  • Исследований репараметризации: изучение запланированных репараметризованных сверток и стратегий масштабирования составных моделей.
  • Существующих пользовательских пайплайнов: проекты с сильно кастомизированными пайплайнами, построенными вокруг специфической архитектуры YOLOv7, которые нелегко рефакторить.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Преимущество Ultralytics: Шаг в будущее

Хотя YOLOv6-3.0 и YOLOv7 представляют собой важные вехи, интеграция разрозненных репозиториев в производственные конвейеры часто создает проблемы с развертыванием моделей и настройкой гиперпараметров. Экосистема Ultralytics решает эти болевые точки, предлагая оптимизированный, унифицированный интерфейс.

Почему стоит выбрать Ultralytics?

  • Простота использования: Python API от Ultralytics позволяет загружать, обучать и экспортировать модели всего несколькими строками кода. Переход со старой модели на новейшую архитектуру требует замены только одной строки.
  • Поддерживаемая экосистема: Ultralytics предоставляет частые обновления, активную поддержку сообщества и надежную документацию.
  • Универсальность: В отличие от ранних моделей, которые фокусировались в основном на ограничивающих рамках (bounding boxes), модели Ultralytics изначально поддерживают многозадачное обучение, включая сегментацию экземпляров, оценку позы и ориентированные ограничивающие рамки (OBB).
  • Требования к памяти: Модели YOLO от Ultralytics поддерживают меньшее потребление памяти во время обучения по сравнению с архитектурами на базе Transformer, такими как RT-DETR, что позволяет исследователям эффективно проводить обучение на потребительском оборудовании.

Переход на YOLO26

Для разработчиков, стремящихся к вершине производительности, YOLO26 (выпущенная в январе 2026 года) фундаментально меняет парадигму детектирования объектов. Она представляет полностью End-to-End дизайн без NMS, устраняя сложную логику постобработки и значительно снижая вариативность задержек на граничных устройствах.

Ключевые инновации в YOLO26 включают:

  • Оптимизатор MuSGD: Изощренный гибрид SGD и Muon, который обеспечивает невероятно стабильную динамику обучения и более быструю сходимость.
  • Удаление DFL: Убрав Distribution Focal Loss, YOLO26 упрощает совместимость при экспорте и повышает производительность на устройствах с низким энергопотреблением.
  • ProgLoss + STAL: Продвинутые функции потерь, которые приносят заметные улучшения в распознавании мелких объектов.
  • Непревзойденная скорость: Обеспечивает до 43% более быстрый вывод на CPU по сравнению с предыдущими поколениями, что делает её идеальной для встраиваемых систем, таких как Raspberry Pi или развертывания через Apple CoreML.

Другие высокопроизводительные модели в рамках экосистемы включают YOLO11 и YOLOv8, обе из которых предлагают отличный баланс производительности для интеграции с устаревшим оборудованием.

Подготовь свой конвейер к будущему

Создавая свои приложения компьютерного зрения на платформе Ultralytics, ты обеспечиваешь немедленный доступ к будущим передовым моделям без необходимости переписывать загрузчики датасетов или скрипты развертывания.

Пример кода: Упрощенное обучение

Следующий фрагмент иллюстрирует, как легко ты можешь обучить самую современную модель YOLO26, используя API Ultralytics. Этот точный рабочий процесс бесшовно применяется к YOLO11 или YOLOv8, абстрагируя стандартный шаблонный код, обычно требуемый более старыми репозиториями.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model for rapid training
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The API handles dataset downloading, augmentation, and hyperparameter configuration
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="cuda:0",  # Automatically utilizes PyTorch GPU acceleration
)

# Run an end-to-end, NMS-free inference on a test image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for cross-platform deployment
model.export(format="onnx")

Заключение

YOLOv6-3.0 и YOLOv7 успешно решили разные аспекты задачи детектирования в реальном времени. YOLOv6-3.0 — это мощный инструмент для специализированных промышленных сред с GPU, в то время как YOLOv7 обеспечивает высокую точность за счет строгой оптимизации путей градиента.

Однако для современных приложений, требующих непревзойденной универсальности, минимальных сложностей при развертывании и передовой производительности, Ultralytics YOLO26 является окончательным выбором. Её архитектура без NMS, продвинутый оптимизатор MuSGD и глубокая интеграция с платформой Ultralytics гарантируют, что разработчики смогут развертывать мощные и масштабируемые решения Vision AI быстрее, чем когда-либо прежде.

Комментарии