Перейти к содержанию

YOLOv7 против PP-YOLOE+: техническое сравнение для object detection

Выбор оптимальной архитектуры для detectирования объектов является ключевым решением в разработке компьютерного зрения, оказывающим значительное влияние на производительность и эффективность последующих приложений. Этот анализ представляет собой глубокое техническое погружение в YOLOv7 и PP-YOLOE+, две известные модели, которые сформировали ландшафт detectирования в реальном времени. Мы рассматриваем их архитектурные инновации, методологии обучения и показатели производительности, чтобы помочь исследователям и инженерам сделать осознанный выбор.

YOLOv7: определяя скорость и точность в реальном времени

YOLOv7 стала важной вехой в развитии семейства You Only Look Once, разработанной для расширения границ скорости и точности для приложений реального времени. В ней были представлены архитектурные стратегии, которые улучшили обучение признакам без увеличения стоимости inference, эффективно установив новый современный эталон после ее выпуска.

Узнайте больше о YOLOv7

Архитектурные инновации

Основой дизайна YOLOv7 является Extended Efficient Layer Aggregation Network (E-ELAN). Эта новая архитектура backbone контролирует кратчайшие и длиннейшие градиентные пути для эффективного изучения признаков, не нарушая градиентный поток. Оптимизируя градиентный путь, сеть достигает более глубоких возможностей обучения, сохраняя при этом эффективность.

Кроме того, YOLOv7 использует стратегию «мешка бесплатных улучшений» во время обучения. Это методы оптимизации, которые повышают точность без увеличения вычислительных затрат на этапе инференса. Методы включают в себя репараметризацию модели, которая объединяет отдельные модули в один отдельный модуль для развертывания, и потерю, управляемую от грубого к точному, для контроля вспомогательной головы.

Сильные и слабые стороны

  • Преимущества: YOLOv7 предлагает исключительное соотношение скорости и точности, что делает ее очень эффективной для вывода в реальном времени на GPU. Ее подход, основанный на якорях, хорошо настроен для стандартных наборов данных, таких как COCO.
  • Недостатки: Как детектор на основе anchor, он требует предварительной настройки anchor boxes, что может быть неоптимальным для пользовательских наборов данных с необычными пропорциями объектов. Эффективное масштабирование модели при очень разных аппаратных ограничениях также может быть сложным по сравнению с новыми итерациями.

PP-YOLOE+: Соперник без anchor-ов

PP-YOLOE+ - это эволюция PP-YOLOE, разработанная компанией Baidu в рамках пакета PaddleDetection. Его отличает безъякорная архитектура, направленная на упрощение конвейера обнаружения и уменьшение количества гиперпараметров, которые необходимо настраивать разработчикам.

Узнайте больше о PP-YOLOE+

Архитектурные инновации

PP-YOLOE+ использует механизм детектора anchor-free, устраняя необходимость в кластеризации anchor box. Он использует магистраль CSPRepResNet и упрощенную конструкцию head. Ключом к его производительности является Task Alignment Learning (TAL), который динамически назначает положительные примеры на основе выравнивания классификации и качества локализации.

Модель также включает VariFocal Loss, специализированную функцию потерь, предназначенную для приоритизации обучения на высококачественных примерах. Версия "+" включает улучшения структуры neck и head, оптимизируя пирамиду признаков для лучшего многомасштабного detect.

Сильные и слабые стороны

  • Преимущества: Безанкорная конструкция упрощает настройку обучения и улучшает обобщение для различных форм объектов. Она хорошо масштабируется по различным размерам (s, m, l, x) и сильно оптимизирована для фреймворка PaddlePaddle.
  • Недостатки: Его основная зависимость от экосистемы PaddlePaddle может создать трудности для команд, обосновавшихся в экосистемах PyTorch или TensorFlow. Поддержка сообщества и сторонние инструменты за пределами Китая, как правило, менее обширны по сравнению с глобальным сообществом YOLO.

Сравнение производительности

При сравнении этих моделей крайне важно учитывать баланс между средней точностью (mAP) и задержкой инференса. В таблице ниже выделены ключевые метрики на наборе данных COCO.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Анализ

Как видно, YOLOv7l демонстрирует впечатляющую эффективность, достигая 51.4% mAP со скоростью TensorRT 6.84 мс. В отличие от этого, PP-YOLOE+l достигает немного более высокого mAP 52.9%, но с меньшей скоростью 8.36 мс и значительно большим количеством параметров (52.2M против 36.9M). Это подчеркивает превосходную эффективность YOLOv7 в использовании параметров и скорости вывода для сопоставимых уровней точности. В то время как PP-YOLOE+x расширяет границы точности, он делает это за счет почти удвоения параметров по сравнению с сопоставимыми моделями YOLO.

Эффективность имеет значение

Для развертываний edge AI, где память и вычислительные ресурсы ограничены, меньшее количество параметров и FLOPs архитектур YOLO часто приводят к более холодной работе и меньшему энергопотреблению по сравнению с более тяжелыми альтернативами.

Преимущество Ultralytics: Зачем модернизировать?

В то время как YOLOv7 и PP-YOLOE+ являются способными моделями, область компьютерного зрения развивается стремительными темпами. Использование новейших моделей Ultralytics, таких как YOLO11, предоставляет явные преимущества, которые выходят за рамки простых метрик.

1. Оптимизированный пользовательский опыт

Ultralytics уделяет первоочередное внимание простоте использования. В отличие от сложных файлов конфигурации и управления зависимостями, которые часто требуются другими фреймворками, модели Ultralytics можно использовать с помощью нескольких строк python. Это снижает порог входа для разработчиков и ускоряет цикл развертывания моделей.

2. Унифицированная экосистема и универсальность

Современные модели Ultralytics не ограничиваются только object detection. Они изначально поддерживают широкий спектр задач в рамках единой структуры:

Эта универсальность позволяет командам стандартизировать одну библиотеку для выполнения различных задач компьютерного зрения, упрощая обслуживание.

3. Эффективность обучения и использование памяти

Модели Ultralytics разработаны для эффективности памяти. Они обычно требуют меньше VRAM во время обучения по сравнению со старыми архитектурами или моделями на основе transformer, такими как RT-DETR. Это позволяет обучать большие размеры пакетов на стандартных потребительских GPU, делая создание высокопроизводительных моделей доступным для большего числа исследователей.

4. Пример кода: современный подход

Запуск inference с современной моделью Ultralytics интуитивно понятен. Ниже приведен полный, готовый к запуску пример с использованием YOLO11, демонстрирующий, как мало строк кода требуется для загрузки предварительно обученной модели и запуска прогнозирования.

from ultralytics import YOLO

# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")

# Run inference on a local image
# This automatically downloads the model weights if not present
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    boxes = result.boxes  # Boxes object for bbox outputs
    result.show()  # Display results on screen
    result.save(filename="result.jpg")  # Save results to disk

5. Хорошо поддерживаемая экосистема

Выбор Ultralytics означает присоединение к активному сообществу. Благодаря частым обновлениям, обширной документации и интеграции с инструментами MLOps, такими как Ultralytics HUB, разработчики получают поддержку на протяжении всего жизненного цикла своего проекта ИИ.

Заключение

YOLOv7 и PP-YOLOE+ внесли значительный вклад в область object detection. YOLOv7 превосходно обеспечивает высокоскоростной вывод на оборудовании GPU благодаря своей эффективной архитектуре E-ELAN. PP-YOLOE+ предлагает надежную альтернативу без привязки к якорям, которая особенно сильна в экосистеме PaddlePaddle.

Однако, для разработчиков, ищущих перспективное решение, которое сочетает в себе передовую производительность с непревзойденной простотой использования, Ultralytics YOLO11 является рекомендуемым выбором. Его интеграция в комплексную экосистему, поддержка мультимодальных задач и превосходная эффективность делают его идеальной платформой для создания масштабируемых приложений компьютерного зрения в 2025 году и в последующий период.

Изучите другие модели

Расширьте свое понимание ландшафта обнаружения объектов с помощью этих сравнений:


Комментарии