PP-YOLOE+ против YOLOv10: разбираемся в архитектурах детектирования объектов в реальном времени
Ландшафт компьютерного зрения постоянно развивается, и новые модели расширяют границы возможного в детектировании объектов в реальном времени. В этом подробном техническом сравнении мы рассмотрим PP-YOLOE+ и YOLOv10 — две мощные архитектуры, созданные для разных экосистем. Мы также исследуем, как общий ландшафт смещается в сторону более унифицированных и простых в использовании платформ, таких как Ultralytics Platform и передовая модель YOLO26.
Знакомство с моделями
Выбор правильной основы для твоих проектов компьютерного зрения требует глубокого понимания архитектурных компромиссов, ограничений при развертывании и поддержки экосистемы каждой модели.
Обзор PP-YOLOE+
Разработанная авторами PaddlePaddle из Baidu, модель PP-YOLOE+ является эволюционным шагом по сравнению с предыдущими итерациями в экосистеме PaddleDetection.
- Авторы: Авторы PaddlePaddle
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: Репозиторий PaddleDetection
- Документация: Официальная документация PP-YOLOE+
Сильные стороны: PP-YOLOE+ отлично работает в средах, глубоко интегрированных с фреймворком PaddlePaddle. Она представляет усовершенствованный бэкбон CSPRepResNet и опирается на мощную стратегию назначения меток (TAL) для достижения впечатляющей средней точности (mAP). Модель высоко оптимизирована для развертывания на серверных GPU, часто используемых в промышленных приложениях в Азии.
Слабые стороны: Главный недостаток PP-YOLOE+ — сильная зависимость от экосистемы PaddlePaddle, которая может быть менее интуитивной для разработчиков, привыкших к PyTorch. Кроме того, для постпроцессинга требуется традиционное подавление немаксимумов (NMS), что увеличивает задержку и усложняет развертывание.
Обзор YOLOv10
Модель YOLOv10, выпущенная исследователями из Университета Цинхуа, внесла значительный архитектурный сдвиг, исключив NMS из процесса вывода.
- Авторы: Ao Wang, Hui Chen, Lihao Liu и др.
- Организация: Tsinghua University
- Дата: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: Репозиторий YOLOv10
- Документация: Документация YOLOv10
Сильные стороны: Ключевая особенность YOLOv10 — последовательное двойное назначение для обучения без NMS. Это означает, что модель нативно предсказывает ограничивающие рамки (bbox) без необходимости вторичного шага фильтрации, что делает развертывание модели намного проще и быстрее на периферийных устройствах. Она достигает превосходного баланса между малым количеством параметров и высокой точностью.
Слабые стороны: Хотя YOLOv10 высокоэффективна для стандартного детектирования объектов в 2D, ей не хватает нативной поддержки других важных задач компьютерного зрения, таких как сегментация экземпляров и оценка позы, что ограничивает её универсальность в сложных многозадачных конвейерах.
Сравнение производительности и метрик
Понимание того, как эти модели работают в стандартизированных тестах, имеет решающее значение для выбора правильной архитектуры. Ниже приведено детальное сравнение их размера, точности и задержки.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Технический анализ
При анализе данных выявляется несколько ключевых тенденций. Модели YOLOv10 nano и small агрессивно нацелены на эффективность на периферии: YOLOv10n может похвастаться всего 2,3 миллионами параметров и 6,7 млрд FLOPs. Такой легковесный дизайн в сочетании с архитектурой без NMS значительно снижает задержку на платформах, использующих TensorRT и OpenVINO.
Напротив, PP-YOLOE+ демонстрирует высокую производительность в классах с большим количеством весов, где её X-large версия незначительно опережает YOLOv10x по mAP (54,7% против 54,4%). Однако это достигается ценой почти двукратного увеличения количества параметров (98,42 млн против 56,9 млн), что делает YOLOv10x значительно более эффективной моделью для сред с ограниченной памятью.
Преимущество экосистемы Ultralytics
Хотя и PP-YOLOE+, и YOLOv10 предлагают впечатляющие технические достижения, современная ML-инженерия требует большего, чем просто архитектура; она требует хорошо поддерживаемой экосистемы.
Ultralytics предоставляет ведущий в отрасли Python SDK, который значительно упрощает сбор и аннотирование данных, обучение и развертывание. По сравнению с тяжелыми исследовательскими фреймворками или старыми моделями на базе трансформеров, архитектуры Ultralytics требуют значительно меньше памяти CUDA во время обучения, что позволяет использовать большие размеры пакетов (batch size) и ускоряет итерации. Кроме того, пакет Ultralytics предлагает огромную универсальность, поддерживая классификацию изображений, OBB (ориентированные ограничивающие рамки) и надежное отслеживание объектов «из коробки».
Представляем YOLO26: следующее поколение
Выпущенная в январе 2026 года, модель Ultralytics YOLO26 представляет собой вершину эволюции компьютерного зрения, объединяя лучшие идеи моделей, таких как YOLOv10, при устранении их ограничений.
Ключевые инновации YOLO26:
- Сквозной дизайн без NMS: Опираясь на концепцию, впервые примененную в YOLOv10, YOLO26 является нативно сквозной (end-to-end), полностью исключая постпроцессинг NMS для более быстрого и простого развертывания на различном оборудовании.
- Удаление DFL: Благодаря удалению Distribution Focal Loss (DFL) архитектура модели значительно упрощена для экспорта, что обеспечивает безупречную совместимость с маломощными устройствами Edge AI.
- Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей (такими как Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD и Muon. Это обеспечивает беспрецедентную стабильность обучения и значительно более быструю скорость сходимости.
- Up to 43% Faster CPU Inference: Optimized heavily for real-world scenarios, YOLO26 offers massive speedups for applications relying on CPU compute, making it perfect for smart surveillance and mobile deployments.
- ProgLoss + STAL: These improved loss functions drastically increase performance on small-object recognition, a critical factor for aerial imagery and robotics.
- Улучшения для конкретных задач: В отличие от YOLOv10, YOLO26 нативно поддерживает многомасштабное proto для сегментации и оценку остаточного логарифмического правдоподобия (RLE) для оценки позы.
Практическая реализация
Начало работы с моделями Ultralytics сделано максимально простым. Всего за несколько строк кода ты можешь запустить обучение, используя автоматическую настройку гиперпараметров и современные конвейеры аугментации данных.
from ultralytics import YOLO
# Load the highly recommended YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset
# Memory usage is highly optimized compared to transformer architectures
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Run an end-to-end NMS-free inference
inference_results = model("https://ultralytics.com/images/bus.jpg")
# Export directly to ONNX or TensorRT for deployment
model.export(format="onnx", simplify=True)Варианты использования и рекомендации
Выбор между PP-YOLOE+ и YOLOv10 зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.
Когда выбирать PP-YOLOE+
PP-YOLOE+ — сильный выбор для:
- Интеграция с экосистемой PaddlePaddle: организации с существующей инфраструктурой, построенной на фреймворке и инструментах Baidu PaddlePaddle.
- Развертывание на Paddle Lite Edge: развертывание на оборудовании с высокооптимизированными ядрами вывода специально для двигателя Paddle Lite или вывода Paddle.
- Высокоточное обнаружение на стороне сервера: сценарии, отдающие приоритет максимальной точности обнаружения на мощных серверных GPU, где зависимость от фреймворка не является проблемой.
Когда выбирать YOLOv10
YOLOv10 рекомендуется для:
- Обнаружение в реальном времени без NMS: Приложения, которые выигрывают от комплексного обнаружения без Non-Maximum Suppression, что снижает сложность развертывания.
- Сбалансированные компромиссы скорости и точности: Проекты, требующие хорошего баланса между скоростью вывода и точностью обнаружения для моделей различных масштабов.
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает лучшее сочетание производительности и опыта разработчика:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Заключение
PP-YOLOE+ остается надежным вариантом для команд, привязанных к экосистеме Baidu и промышленным серверным средам. YOLOv10 представляет собой блестящую академическую веху, которая доказала жизнеспособность детектирования без NMS в реальном времени.
Однако для разработчиков, ищущих идеальное сочетание точности, молниеносной скорости вывода и бесшовных многозадачных возможностей, Ultralytics YOLO26 является окончательным выбором. Ее инновации в эффективности обучения и архитектура, ориентированная на периферийные вычисления, гарантируют, что она останется самым надежным и универсальным решением для промышленного компьютерного зрения в 2026 году и в дальнейшем.