PP-YOLOE+ против YOLOv7: обзор архитектур для обнаружения объектов в реальном времени
Компьютерное зрение быстро развивается, предоставляя разработчикам все более мощные инструменты для обнаружения объектов в реальном времени. Двумя важными вехами в этой эволюции являются PP-YOLOE+ от Baidu и YOLOv7 от авторов YOLOv4. Обе модели нацелены на достижение баланса между скоростью и точностью, но достигают этого с помощью принципиально разных архитектурных концепций и методологий обучения.
В этом всеобъемлющем руководстве анализируются эти две архитектуры, сравниваются их показатели производительности, удобство использования и пригодность для современных приложений искусственного интеллекта. Мы также исследуем, как новые инновации, такие как YOLO26, устанавливают новые стандарты эффективности и внедрения.
Резюме: основные различия
| Функциональность | PP-YOLOE+ | YOLOv7 |
|---|---|---|
| Архитектура | Без анкера, CSPRepResStage | На основе анкера, E-ELAN |
| Основные инновации | Обучение согласованию задач (TAL) | Обучаемый мешок с бесплатными подарками |
| Основная структура | PaddlePaddle | PyTorch |
| Лучший вариант использования | Промышленные среды, использующие Paddle Inference | Общие исследования и внедрение |
PP-YOLOE+: Улучшенное detectирование без anchor-ов
PP-YOLOE+ — это усовершенствованная версияYOLO , разработанная командой Baidu для оптимизации точности и скорости вывода на различном оборудовании. Выпущенная в 2022 году, она в значительной степени использует механизмы без анкеров для упрощения головки обнаружения.
Технические детали:
- Авторы: Авторы PaddlePaddle
- Организация:Baidu
- Дата: 2022-04-02
- Arxiv:Статья PP-YOLOE
- GitHub:Репозиторий PaddleDetection
Архитектура и сильные стороны
PP-YOLOE+ представляет магистраль CSPRepResStage, которая сочетает в себе остаточные соединения с сетями CSP (Cross Stage Partial). Ключевой особенностью является механизм Task Alignment Learning (TAL), который динамически согласовывает задачи классификации и локализации во время обучения. Это помогает решить распространенную проблему, когда обнаружения с высокой степенью достоверности не всегда имеют наилучшее перекрытие ограничивающих рамок.
Модель изначально поддерживается PaddlePaddle , что делает ее высокоэффективной при развертывании на специальных инференсных движках Baidu или аппаратном обеспечении, таком как устройства FPGA и NPU, часто используемых на азиатских промышленных рынках.
YOLOv7: Обучаемый Bag-of-Freebies
Выпущен вскоре после PP-YOLOE+, YOLOv7 был сосредоточен на оптимизации самого процесса обучения без увеличения затрат на вывод, концепция, которую авторы назвали «bag-of-freebies» (мешок бесплатных подарков).
Технические детали:
- Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
- Организация: Институт информатики, Academia Sinica, Тайвань
- Дата: 2022-07-06
- Arxiv:СтатьяYOLOv7
- GitHub:Репозиторий YOLOv7
Архитектура и сильные стороны
YOLOv7 расширенную сеть эффективной агрегации слоев (E-ELAN). В отличие от традиционной ELAN, E-ELAN позволяет сети обучаться более разнообразным функциям за счет контроля длины градиентного пути. Она также использует масштабирование составных моделей, которое одновременно регулирует глубину и ширину для поддержания оптимальной эффективности.
Несмотря на высокую производительность, YOLOv7 на анкерные рамки, которые могут потребовать тщательной настройки гиперпараметров для пользовательских наборов данных с необычными формами объектов.
Ориентиры производительности
В следующей таблице представлено сравнение моделей на COCO , стандартном тесте для обнаружения объектов. Обратите внимание, что хотя PP-YOLOE+ демонстрирует высокий mAP, YOLOv7 обеспечивает конкурентоспособную скорость вывода на стандартном GPU .
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Обучение и сравнение экосистем
При выборе модели для проекта в области компьютерного зрения легкость обучения и окружающая экосистема часто имеют такое же значение, как и исходные метрики.
Структура и удобство использования
PP-YOLOE+ требует использования PaddlePaddle . Несмотря на свою мощность, он может представлять собой сложную задачу для разработчиков, привыкших к PyTorch . Его настройка часто включает в себя клонирование определенных репозиториев, таких как PaddleDetection и управление зависимостями, которые отличаются от стандартных глобальных пакетов pip.
YOLOv7, основанный PyTorch, более естественно интегрируется в стандартные западные исследовательские рабочие процессы. Однако в исходном репозитории отсутствует бесшовный опыт «от нуля до героя», который можно найти в современных Ultralytics .
Преимущество Ultralytics
Ultralytics , такие как YOLOv8 и новая YOLO26, предлагают унифицированный Python , который упрощает процесс обучения. Это позволяет разработчикам сосредоточиться на данных, а не на шаблонных кодах.
Оптимизированное обучение с Ultralytics
Обучение современной модели с помощью Ultralytics всего нескольких строк кода, при этом увеличение объема данных и ведение журнала выполняются автоматически.
from ultralytics import YOLO
# Load a pretrained model (YOLO26 recommended for best performance)
model = YOLO("yolo26s.pt")
# Train on your custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Эта простота распространяется и на варианты развертывания, позволяя упростить экспорт в такие форматы, как ONNX и TensorRT для максимальной производительности.
Будущее обнаружения: YOLO26
Хотя PP-YOLOE+ и YOLOv7 передовыми на момент их выпуска, в этой области произошел значительный прогресс. Выпущенная в январе 2026 года, YOLO26 представляет собой вершину эффективности и точности.
Ключевые инновации YOLO26:
- Сквозной NMS: в отличие от YOLOv7 требует постобработки Non-Maximum Suppression (NMS), YOLO26 является сквозным по своей природе. Это устраняет изменчивость задержки, вызванную NMS переполненных сценах, что делает его идеальным для приложений «умного города» и мониторинга дорожного движения.
- Оптимизатор MuSGD: вдохновленный методами обучения LLM, этот оптимизатор сочетает SGD Muon для обеспечения стабильной динамики обучения, что недоступно в более старых архитектурах.
- Оптимизация по краям: благодаря устранению Distribution Focal Loss (DFL) YOLO26 обеспечивает ускорение CPU до 43 %, что делает его гораздо более подходящим для пограничных устройств по сравнению с PP-YOLOE+, требующим более мощных вычислительных ресурсов.
- ProgLoss + STAL: усовершенствованные функции потери улучшают обнаружение мелких объектов, что имеет решающее значение для таких областей, как сельское хозяйство и аэрофотосъемка.
Приложения в реальном мире
Выбор модели часто определяет успех конкретных приложений.
Варианты использования PP-YOLOE+
- Промышленный контроль в Азии: благодаря мощной PaddlePaddle в азиатских производственных центрах, PP-YOLOE+ часто используется для обнаружения дефектов на сборочных линиях, где оборудование предварительно настроено для стека Baidu.
- Анализ статических изображений: mAP высокому mAP для автономной обработки, где задержка в реальном времени менее важна, чем абсолютная точность.
Примеры YOLOv7
- Исследования общего назначения: широко используется в качестве базового материала в научных работах благодаря PyTorch в PyTorch .
- СистемыGPU: хорошо работает на серверных GPU для таких задач, как видеоаналитика.
Примеры использования Ultralytics (YOLO26)
- Edge AI & IoT: Низкое потребление памяти и высокая CPU Ultralytics делают их идеальными для Raspberry Pi и мобильных устройств.
- Мультимодальные задачи: помимо простых прямоугольников, Ultralytics оценку положения и ориентированные ограничительные прямоугольники (OBB), что позволяет использовать его в сложных приложениях, таких как захват роботами или анализ документов.
- Быстрое прототипирование: Ultralytics позволяет командам за считанные минуты пройти путь от аннотирования набора данных до развертывания модели, что значительно сокращает время вывода продукта на рынок.
Заключение
Как PP-YOLOE+, так и YOLOv7 значительный вклад в развитие компьютерного зрения. PP-YOLOE+ расширил границы обнаружения без анкеров, а YOLOv7 эффективность архитектур на основе анкеров.
Однако для разработчиков, которые ищут перспективное решение, сочетающее в себе лучшие качества обоих подходов — скорость, точность и простоту использования — рекомендуется выбратьYOLO26. Благодаря NMS, надежным возможностям экспорта и беспроблемной интеграции в Ultralytics , он предоставляет наиболее универсальный набор инструментов для решения современных задач в области искусственного интеллекта.
Чтобы изучить другие высокопроизводительные варианты, ознакомьтесь с документацией по YOLOv9 или YOLOv10.