Перейти к содержанию

YOLOv7 против PP-YOLOE+: Всестороннее сравнение детекторов реального времени

При оценке современных моделей компьютерного зрения для производственных конвейеров разработчики часто взвешивают преимущества различных архитектур. Две заметные модели в области обнаружения объектов — это YOLOv7 и PP-YOLOE+. В этом руководстве представлено подробное техническое сравнение их архитектур, метрик производительности и идеальных сценариев развертывания, чтобы помочь вам принять обоснованное решение для вашего следующего проекта по компьютерному зрению.

Архитектурные инновации

Понимание ключевых структурных различий между этими моделями крайне важно для прогнозирования их поведения во время обучения и инференса.

Ключевые особенности архитектуры YOLOv7

YOLOv7 представила несколько ключевых усовершенствований, разработанных для повышения точности без существенного увеличения затрат на инференс.

  • Расширенные эффективные сети агрегации слоев (E-ELAN): Эта архитектура контролирует кратчайшие и длиннейшие градиентные пути. Таким образом, она позволяет сети изучать более разнообразные признаки и улучшает общую способность к обучению, не разрушая исходный градиентный путь.
  • Стратегии масштабирования модели: YOLOv7 использует составное масштабирование модели, одновременно регулируя глубину и ширину при конкатенации слоев для поддержания оптимальной архитектурной структуры для различных размеров.
  • Обучаемый набор "бесплатных" улучшений: Авторы интегрировали метод репараметризованной свертки (RepConv) без связей идентичности, что значительно увеличивает скорость инференса без ущерба для предсказательной способности модели.

Сведения о YOLOv7:
Авторы: Чиен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696

Узнайте больше о YOLOv7

Основные особенности архитектуры PP-YOLOE+

Разработанный Baidu в экосистеме PaddlePaddle, PP-YOLOE+ основывается на своем предшественнике, PP-YOLOv2, уделяя особое внимание безанкерным методологиям и улучшенным представлениям признаков.

  • Безъякорная архитектура: В отличие от подходов на основе якорей, эта архитектура упрощает голову предсказания и уменьшает количество гиперпараметров, что облегчает настройку модели для пользовательских наборов данных.
  • Бэкбон CSPRepResNet: Этот бэкбон включает остаточные соединения и сети Cross Stage Partial для улучшения возможностей извлечения признаков при сохранении вычислительной эффективности.
  • Task Alignment Learning (TAL): PP-YOLOE+ использует ET-head (Efficient Task-aligned head) для лучшего выравнивания задач классификации и локализации, устраняя распространенное узкое место в одностадийных детекторах.

PP-YOLOE+ Подробности:
Авторы: Авторы PaddlePaddle
Организация: Baidu
Дата: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250

Узнайте больше о PP-YOLOE+

Метрики производительности и тесты

Выбор правильной модели часто сводится к конкретным ограничениям вашего оборудования и требованиям к задержке. В таблице ниже показаны компромиссы между точностью (mAP), скоростью и сложностью модели.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Анализ результатов

  • Сценарии с высокой точностью: YOLOv7x демонстрирует высокую производительность, достигая высокого mAP, конкурентоспособного для сложных задач обнаружения. В то время как PP-YOLOE+x немного превосходит по mAP, это достигается за счет существенного увеличения количества параметров и FLOPs.
  • Эффективность и скорость: Меньшие варианты PP-YOLOE+ (t и s) обеспечивают чрезвычайно низкие скорости TensorRT, что делает их очень подходящими для развертывания на периферийных устройствах со строгими аппаратными ограничениями.
  • Оптимальное решение: YOLOv7l обеспечивает убедительный баланс, достигая более 51% mAP при сохранении времени инференса менее 7 мс на GPU T4, что делает его надежным выбором для стандартных серверных приложений реального времени.

Оптимизация для продакшена

При развертывании этих моделей использование форматов экспорта, таких как TensorRT или ONNX, может значительно снизить задержку по сравнению с нативным инференсом PyTorch.

Преимущество Ultralytics

Хотя YOLOv7 и PP-YOLOE+ демонстрируют высокую производительность в бенчмарках, опыт разработки и поддержка экосистемы одинаково важны для успеха проекта.

Оптимизированный пользовательский опыт

Модели Ultralytics ставят во главу угла простоту использования благодаря унифицированному API на python. В отличие от PP-YOLOE+, который требует навигации по экосистеме PaddlePaddle и его специфическим файлам конфигурации, Ultralytics позволяет беспрепятственно переходить от обучения к развертыванию.

from ultralytics import YOLO

# Load a pretrained model
model = YOLO("yolov7.pt")

# Train the model effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized deployment
model.export(format="engine")  # TensorRT export

Эффективность использования ресурсов

Одним из основных преимуществ моделей Ultralytics YOLO являются их более низкие требования к памяти как во время обучения, так и во время инференса. Эта эффективность позволяет исследователям и разработчикам использовать большие размеры пакетов на потребительском оборудовании, ускоряя процесс обучения по сравнению с более тяжелыми моделями или сложными архитектурами Transformer, такими как RT-DETR.

Экосистема и универсальность

Экосистема Ultralytics исключительно хорошо поддерживается, предлагая частые обновления, обширную документацию и нативную поддержку различных задач, выходящих за рамки стандартного detect. С Ultralytics единый фреймворк поддерживает сегментацию экземпляров, оценку позы, классификацию и ориентированные ограничивающие рамки (OBB), обеспечивая беспрецедентную универсальность, которой часто не хватает конкурирующим моделям.

Будущее Vision AI: YOLO26

По мере быстрого развития компьютерного зрения появились новые архитектуры, которые переопределяют стандарты скорости и эффективности. Выпущенный в январе 2026 года, Ultralytics YOLO26 представляет собой вершину этой эволюции и является настоятельно рекомендуемым выбором для всех новых проектов.

Ключевые инновации YOLO26:

  • Сквозная архитектура без NMS: YOLO26 исключает постобработку Non-Maximum Suppression (NMS). Этот изначально сквозной подход значительно упрощает логику развертывания и снижает переменную задержку, что является прорывом, впервые представленным в YOLOv10.
  • Беспрецедентная производительность на периферии: Удаление Distribution Focal Loss (DFL) позволяет YOLO26 достигать до 43% более быстрого инференса на CPU, что делает его превосходящим для IoT и граничных устройств по сравнению с предыдущими поколениями.
  • Продвинутая динамика обучения: Интеграция оптимизатора MuSGD, вдохновленного инновациями LLM, такими как Kimi K2 от Moonshot AI, обеспечивает более стабильное обучение и более быструю сходимость.
  • Превосходное обнаружение мелких объектов: Усовершенствованные функции потерь, в частности ProgLoss + STAL, устраняют исторические недостатки в распознавании мелких объектов, что критически важно для таких приложений, как аэрофотосъемка.

Приложения в реальном мире

Выбор между этими архитектурами часто зависит от конкретной среды развертывания.

Когда следует выбирать PP-YOLOE+

  • Интеграция с PaddlePaddle: Если ваша инфраструктура уже глубоко интегрирована с экосистемой Baidu PaddlePaddle, PP-YOLOE+ идеально подходит.
  • Промышленная инспекция в Азии: Часто используется в азиатских производственных центрах, где аппаратные и программные стеки предварительно настроены для инструментов Baidu.

Когда выбирать YOLOv7

  • Системы с GPU-ускорением: Исключительно хорошо работает на серверных GPU для задач, требующих высокой пропускной способности, таких как видеоаналитика.
  • Интеграция в робототехнику: Идеально подходит для интеграции компьютерного зрения в робототехнику, обеспечивая быстрое принятие решений в динамичных средах.
  • Академические исследования: Широко поддерживается и часто используется как надежный эталон в исследованиях на базе PyTorch.

Хотя старые модели имеют историческое значение, переход к современным архитектурам, таким как YOLO26 или YOLO11 через платформу Ultralytics, обеспечивает доступ к новейшим оптимизациям, простейшим рабочим процессам обучения и самой широкой поддержке многозадачности, доступной на сегодняшний день.


Комментарии