YOLOv7 PP-YOLOE+: архитектурное противостояние в области обнаружения объектов в реальном времени
Ландшафт компьютерного зрения определяется постоянными инновациями, и 2022 год стал поворотным моментом, когда были выпущены две очень влиятельные архитектуры: YOLOv7 и PP-YOLOE+. В то время как YOLOv7 традиции YOLO , сосредоточившись на оптимизации «bag-of-freebies», PP-YOLOE+ олицетворяла стремление Baidu к высокопроизводительному обнаружению без анкоров в PaddlePaddle .
Для исследователей и инженеров выбор между этими моделями часто сводится к конкретным требованиям к фреймворку (PyTorch PaddlePaddle) и аппаратному обеспечению для развертывания. В этом руководстве представлено подробное техническое сравнение их архитектур, показателей производительности и удобства использования, а также представлены современные альтернативы, такие как YOLO26, который объединяет лучшие функции своих предшественников в единый, сквозной фреймворк NMS.
Сравнение показателей эффективности
В следующей таблице сравниваются характеристики YOLOv7 PP-YOLOE+ для различных масштабов моделей. YOLOv7 надежные возможности обнаружения, а PP-YOLOE+ предлагает очень конкурентоспособный компромисс между количеством параметров и скоростью вывода.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
YOLOv7: Мощность "Bag-of-Freebies"
Выпущенная в середине 2022 года, YOLOv7 границы обнаружения объектов, сосредоточившись на архитектурной эффективности и стратегиях оптимизации обучения, которые не увеличивают стоимость вывода.
- Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
- Организация: Институт информатики, Academia Sinica, Тайвань
- Дата: 2022-07-06
- Ссылки:Статья на ArXiv | Репозиторий GitHub
Ключевые архитектурные особенности
YOLOv7 E-ELAN (Extended Efficient Layer Aggregation Network), новую архитектуру, предназначенную для управления самыми короткими и самыми длинными градиентными путями, что позволяет сети обучаться более разнообразным функциям. Он также широко использовал «обучаемый набор бесплатных функций», включая перепараметризацию модели и динамическое присвоение меток.
Однако YOLOv7 детектором на основе якорей. Хотя эта методология доказала свою эффективность, она часто требует тщательной настройки якорных рамок для пользовательских наборов данных, что может усложнить процесс обучения по сравнению с более новыми реализациями без якорей, представленными в YOLOv8 или YOLO26.
PP-YOLOE+: Соперник без anchor-ов
PP-YOLOE+ — это усовершенствованная версия PP-YOLOE, разработанная компанией Baidu в рамках пакета PaddleDetection. Она была создана для устранения ограничений методов на основе якорей и максимального увеличения скорости вывода на различном оборудовании.
- Авторы: Авторы PaddlePaddle
- Организация:Baidu
- Дата: 2022-04-02
- Ссылки:Статья на ArXiv | Репозиторий GitHub
Ключевые архитектурные особенности
PP-YOLOE+ использует без якоря парадигмы, значительно сокращая количество гиперпараметров. Его ядро основано на RepResBlock (вдохновленный RepVGG) и Обучение согласованию задач (TAL) стратегия, которая динамически согласовывает задачи классификации и локализации. Это обеспечивает высокую точность, особенно при x (очень большой) масштаб, в котором он достигает впечатляющих 54,7 % mAP.
Соображения, касающиеся экосистемы
Хотя PP-YOLOE+ предлагает отличную производительность, он тесно связан с PaddlePaddle . Разработчики, привыкшие к PyTorch столкнуться с крутым кривым обучения и трудностями при попытке интегрировать эти модели в существующие MLOps-конвейеры PyTorch или при использовании стандартных инструментов развертывания, таких как TorchScript.
Сравнение: архитектура и удобство использования
На основе якорей и без якорей
Наиболее заметная разница заключается в их подходе к ограничивающим прямоугольникам. YOLOv7 использует заранее определенные анкерные рамки, которые служат в качестве эталонных шаблонов для обнаружения объектов. Это хорошо работает для стандартных наборов данных, таких как COCO , но может не справляться с объектами нестандартной формы, встречающимися в наборах данных типа DOTA-v2, если они не возвращаются вручную.
PP-YOLOE+ не использует анкеры, напрямую прогнозируя центр объектов и их расстояние до границ. Это в целом упрощает процесс обучения. Современные Ultralytics , такие как YOLO11 и YOLO26, также полностью перешли на архитектуры без анкеров и даже NMS, чтобы максимально повысить гибкость и скорость.
Память и эффективность
Ultralytics славятся своей эффективностью обучения. В то время как YOLOv7 значительного GPU для своих крупнейших моделей из-за сложных путей конкатенации в E-ELAN, PP-YOLOE+ оптимизирует это за счет перепараметризации. Однако более новые итерации, такие как YOLO26, превосходят обе, удаляя тяжелые компоненты, такие как Distribution Focal Loss (DFL), что приводит к значительному снижению требований к памяти как во время обучения, так и во время вывода.
Будущее: почему стоит перейти на YOLO26?
Хотя YOLOv7 PP-YOLOE+ были передовыми технологиями в 2022 году, в этой области произошел быстрый прогресс. YOLO26, выпущенная Ultralytics январе 2026 года, представляет собой кульминацию этих достижений, устраняя конкретные недостатки более ранних моделей.
Сквозной дизайн без NMS
Одним из самых больших препятствий YOLOv7 в YOLOv7 в PP-YOLOE+ является подавление не максимальных значений (NMS) — этап постобработки, необходимый для фильтрации дублирующихся обнаружений. YOLO26 изначально NMS использует NMS. Это устраняет изменчивость задержки, вызванную NMS сценах с большим количеством объектов, что делает его идеальным для приложений реального времени, таких как автономные транспортные средства и мониторинг дорожного движения.
Оптимизировано для периферийных вычислений
YOLO26 отличается удалением Distribution Focal Loss (DFL). Это упрощение архитектуры оптимизирует процесс экспорта в такие форматы, как CoreML и TFLite, обеспечивая лучшую совместимость с устройствами с низким энергопотреблением. В сочетании с оптимизацией для CPU , YOLO26 обеспечивает CPU на 43% выше по сравнению с предыдущими поколениями, что является важным преимуществом для развертывания IoT.
Продвинутый тренинг Стабильность
Вдохновленный инновациями в области обучения больших языковых моделей (LLM), YOLO26 включает в себя оптимизатор MuSGD, гибрид SGD Muon (вдохновленный Kimi K2 от Moonshot AI). Это приводит к более быстрой конвергенции и более стабильному выполнению обучения, сокращая «метод проб и ошибок», часто связанный с обучением моделей глубокого обучения. Кроме того, включение ProgLoss и STAL (Soft-Task Alignment Learning) значительно повышает производительность при обнаружении небольших объектов, что часто было проблемой для старых моделей.
Простота использования с Ultralytics
Одной из отличительных черт Ultralytics является простота использования. Независимо от того, используете ли вы YOLOv8, YOLOv9или передовой YOLO26, API остается неизменным и простым.
В отличие от настройки PaddlePaddle для PP-YOLOE+, которая может потребовать установки определенной CUDA и отдельных библиотек, Ultralytics запускаются сразу же со стандартным pip install ultralytics.
from ultralytics import YOLO
# Load a pre-trained YOLO model (YOLO26n for maximum speed)
model = YOLO("yolo26n.pt")
# Train the model on a custom dataset with a single command
# The system handles data augmentation, logging, and plots automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model.predict("path/to/image.jpg")
# Export to ONNX for deployment
model.export(format="onnx")
Заключение
Оба YOLOv7 , так и PP-YOLOE+ являются эффективными архитектурами. YOLOv7 отличным выбором для тех, кто глубоко увлечен классической YOLO и PyTorch, предлагая высокую точность. PP-YOLOE+ является отличным вариантом для пользователей экосистемы Baidu, предлагая высокую эффективность параметров.
Однако для разработчиков, которые ищут хорошо поддерживаемую экосистему, непревзойденную универсальность (охватывающую обнаружение, сегментацию, оценку позы и OBB) и новейшие прорывы в области производительности, Ultralytics является лучшим выбором. Его сквозной дизайн, уменьшенный объем памяти и усовершенствования для конкретных задач (такие как RLE для потери позы и семантической сегментации) делают его наиболее перспективным решением для реальных задач искусственного интеллекта.
Чтобы начать свое путешествие с самым передовым искусственным интеллектом в области зрения, ознакомьтесь с Ultralytics , которая обеспечивает беспрепятственное обучение и внедрение.
Изучите другие модели
Хотите узнать, как другие модели сравниваются между собой? Ознакомьтесь с нашими сравнениями YOLOv6 YOLOv7, а также RT-DETR YOLOv8, чтобы найти идеальное решение для вашего проекта.