PP-YOLOE+ vs YOLOv7: Сравнение архитектур обнаружения объектов в реальном времени
При создании конвейеров компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение. Две значимые архитектуры 2022 года, PP-YOLOE+ и YOLOv7, представили мощные достижения в области обнаружения объектов в реальном времени. Это техническое сравнение предлагает углубленный анализ их архитектур, методологий обучения и производительности в реальных условиях, чтобы помочь вам принять обоснованные решения для ваших приложений.
Обзор моделей
Как PP-YOLOE+, так и YOLOv7 были разработаны для расширения границ точности и скорости, но они происходят из разных экосистем разработки и проектных философий.
PP-YOLOE+
Разработанный авторами PaddlePaddle в Baidu, PP-YOLOE+ основан на оригинальном PP-YOLOv2. Он был представлен для создания эффективного и высокоточного детектора объектов, оптимизированного для экосистемы PaddlePaddle.
- Авторы: Авторы PaddlePaddle
- Организация:Baidu
- Дата: 2022-04-02
- Arxiv:2203.16250
- GitHub:Репозиторий PaddleDetection
- Документация:Документация PP-YOLOE+
YOLOv7
Разработанный Чиен-Яо Ваном, Алексеем Бочковским и Хун-Юань Марком Ляо, YOLOv7 представил "обучаемые bag-of-freebies", чтобы установить новые современные эталоны для детекторов объектов реального времени на момент его выпуска.
- Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 2022-07-06
- Arxiv:2207.02696
- GitHub:Репозиторий YOLOv7
- Документация:Документация Ultralytics YOLOv7
Архитектурные инновации
Архитектура PP-YOLOE+
PP-YOLOE+ в значительной степени опирается на безанкерную парадигму, что упрощает процесс развертывания, устраняя необходимость настройки анкерных боксов для пользовательских наборов данных. Он включает мощный бэкбон RepResNet и PAN (сеть агрегации путей) в стиле CSPNet для эффективного слияния многомасштабных признаков. Кроме того, он использует концепцию Task Alignment Learning (TAL) для динамического выравнивания задач классификации и локализации во время обучения, обеспечивая высокую точность в различных задачах компьютерного зрения.
Архитектура YOLOv7
YOLOv7 применил другой подход, представив Extended Efficient Layer Aggregation Network (E-ELAN). Эта архитектура позволяет сети изучать более разнообразные признаки без разрушения исходного пути градиента, что приводит к лучшей сходимости. YOLOv7 также активно использует репараметризацию модели — в частности, плановые репараметризованные свертки, которые объединяют сверточные слои во время инференса для ускорения выполнения без ущерба для точности. Это делает YOLOv7 исключительно сильным в таких задачах, как отслеживание нескольких объектов и сложные системы охранной сигнализации.
Различия в экосистеме
В то время как PP-YOLOE+ тесно интегрирован с фреймворком Baidu PaddlePaddle, YOLOv7 был разработан на PyTorch, который исторически предлагает более крупное сообщество и более широкую готовую совместимость с конвейерами развертывания, такими как ONNX и TensorRT.
Анализ производительности
При балансировании скорости, параметров и точности (mAP) модели демонстрируют компромиссы в зависимости от конкретного варианта и целевого оборудования. Ниже представлено всестороннее сравнение их метрик.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Хотя модель PP-YOLOE+x достигает немного более высокого mAP, варианты YOLOv7 предлагают очень сильное соотношение параметров к точности. Архитектура YOLOv7 остается фаворитом для обработки на чистом GPU, где оптимизация TensorRT обеспечивает исключительно низкую задержку.
Преимущество Ultralytics
При обучении и развертывании этих моделей выбранный фреймворк так же важен, как и сама модель. Использование Ultralytics обеспечивает оптимизированный пользовательский опыт благодаря высокоунифицированному API Python, который упрощает весь жизненный цикл машинного обучения.
- Хорошо поддерживаемая экосистема: Модели Ultralytics YOLO выигрывают от постоянно обновляемой экосистемы, надежной документации и активного сообщества.
- Требования к памяти: Ultralytics тщательно оптимизирует загрузку данных и режимы обучения. Обучение моделей Ultralytics YOLO обычно требует значительно меньше памяти CUDA по сравнению с тяжелыми архитектурами на основе трансформеров, что позволяет разработчикам использовать большие размеры пакетов на потребительском оборудовании.
- Эффективность обучения: Используя надежные стратегии аугментации данных и встроенную настройку гиперпараметров, Ultralytics гарантирует быструю сходимость моделей с использованием легкодоступных предварительно обученных весов.
Простая реализация API
Обучение модели YOLOv7 с Ultralytics занимает всего несколько строк кода, полностью абстрагируя сложные скрипты обучения:
from ultralytics import YOLO
# Load a pretrained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to TensorRT for deployment
model.export(format="engine", device=0)
Новый стандарт: Представляем YOLO26
Хотя PP-YOLOE+ и YOLOv7 являются вехами в обнаружении объектов, ландшафт ИИ быстро развивается. Для любого нового проекта компьютерного зрения мы настоятельно рекомендуем Ultralytics YOLO26. Выпущенная в январе 2026 года, YOLO26 представляет собой огромный скачок вперед в области ИИ для периферийных устройств.
Почему YOLO26 превосходит старые архитектуры:
- Сквозная архитектура без NMS: YOLO26 изначально является сквозной. Исключая постобработку методом Non-Maximum Suppression (NMS), она гарантирует предсказуемую, детерминированную задержку вывода — прорыв, впервые замеченный в YOLOv10.
- Удаление DFL: Удаление Distribution Focal Loss упрощает процесс экспорта и значительно улучшает совместимость с маломощными периферийными устройствами.
- До 43% более быстрый инференс на CPU: Для сценариев, где отсутствуют выделенные GPU — таких как IoT-датчики умного города — YOLO26 значительно оптимизирован для эффективной работы непосредственно на CPU.
- Оптимизатор MuSGD: Вдохновленный передовыми методами обучения LLM (такими как Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD и Muon для невероятно стабильного обучения и быстрой сходимости.
- ProgLoss + STAL: Эти улучшенные функции потерь обеспечивают значительные преимущества в обнаружении мелких объектов, что жизненно важно для таких сценариев использования, как аэрофотосъемка с дронов и обнаружение производственных дефектов.
Идеальные варианты использования и сценарии развертывания
Когда использовать PP-YOLOE+
PP-YOLOE+ проявляет себя наилучшим образом, когда вы глубоко укоренились в экосистемах Baidu и PaddlePaddle. Если ваша цель развертывания использует специализированное оборудование, адаптированное для моделей Paddle (например, в некоторых азиатских производственных конвейерах), PP-YOLOE+ обеспечивает отличную точность и бесшовную интеграцию. Он высокоэффективен для автоматизации промышленного производства.
Когда использовать YOLOv7
YOLOv7 остается отличным выбором для общего высокопроизводительного инференса, особенно при развертывании на оборудовании NVIDIA с использованием TensorRT. Его интеграция в экосистему PyTorch делает его очень универсальным для академических исследований и пользовательских коммерческих конвейеров, таких как управление толпой в реальном времени или сложные задачи оценки позы, где структурная целостность сети имеет первостепенное значение.
Другие модели для рассмотрения
В зависимости от ваших точных потребностей, вы также можете быть заинтересованы в сравнении этих архитектур с YOLO11 для широкой, готовой к производству гибкости, или с RT-DETR, если ваш проект требует специфических преимуществ трансформеров зрения перед традиционными сверточными сетями.
Заключение
Как PP-YOLOE+, так и YOLOv7 принесли значительные улучшения в мир обнаружения объектов в реальном времени. В то время как PP-YOLOE+ превосходно работает в средах, стандартизированных под PaddlePaddle, YOLOv7 предлагает невероятную гибкость и производительность через экосистемы PyTorch и Ultralytics.
Однако, поскольку решения в области компьютерного зрения продолжают развиваться, использование современных инструментов является крайне важным. Внедряя платформу Ultralytics и архитектуры следующего поколения, такие как YOLO26, разработчики могут гарантировать, что их приложения останутся на переднем крае скорости, точности и простоты использования.