PP-YOLOE+ против YOLOv10: Обзор архитектур обнаружения объектов в реальном времени
Ландшафт компьютерного зрения постоянно развивается, новые модели расширяют границы возможного в обнаружении объектов в реальном времени. В этом всестороннем техническом сравнении мы рассмотрим PP-YOLOE+ и YOLOv10, две высокопроизводительные архитектуры, разработанные для разных экосистем. Мы также рассмотрим, как общий ландшафт смещается в сторону более унифицированных, простых в использовании платформ, таких как Ultralytics Platform и передовая модель YOLO26.
Введение в модели
Выбор правильной основы для ваших проектов компьютерного зрения требует глубокого понимания архитектурных компромиссов каждой модели, ограничений развертывания и поддержки экосистемы.
Обзор PP-YOLOE+
Разработанный авторами PaddlePaddle в Baidu, PP-YOLOE+ представляет собой эволюционный шаг по сравнению с предыдущими итерациями в экосистеме PaddleDetection.
- Авторы: Авторы PaddlePaddle
- Организация:Baidu
- Дата: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:Репозиторий PaddleDetection
- Документация:Официальная документация PP-YOLOE+
Преимущества: PP-YOLOE+ превосходно работает в средах, глубоко интегрированных с фреймворком PaddlePaddle. Он использует усовершенствованную архитектуру CSPRepResNet и опирается на мощную стратегию присвоения меток (TAL) для достижения впечатляющей средней точности (mAP). Он высоко оптимизирован для развертывания на серверных GPU, широко используемых в промышленных приложениях по всей Азии.
Недостатки: Основным недостатком PP-YOLOE+ является сильная зависимость от экосистемы PaddlePaddle, что может быть менее интуитивно понятно для разработчиков, привыкших к PyTorch. Кроме того, для постобработки требуется традиционное подавление немаксимумов (NMS), что увеличивает задержку и усложняет развертывание.
Обзор YOLOv10
Выпущенный исследователями Университета Цинхуа, YOLOv10 принес значительный сдвиг в архитектурной парадигме, исключив NMS из конвейера инференса.
- Авторы: Ao Wang, Hui Chen, Lihao Liu, и др.
- Организация:Университет Цинхуа
- Дата: 2024-05-23
- Arxiv:https://arxiv.org/abs/2405.14458
- GitHub:Репозиторий YOLOv10
- Документация:Документация YOLOv10
Преимущества: Выдающейся особенностью YOLOv10 является его согласованное двойное присвоение для обучения без NMS. Это означает, что модель изначально предсказывает ограничивающие рамки без необходимости вторичного шага фильтрации, что значительно упрощает и ускоряет развертывание модели на периферийных устройствах. Он достигает отличного баланса между малым количеством параметров и высокой точностью.
Недостатки: Хотя YOLOv10 высокоэффективен для стандартного 2D обнаружения объектов, ему не хватает нативной поддержки других жизненно важных задач компьютерного зрения, таких как сегментация экземпляров и оценка позы, что ограничивает его универсальность в сложных многозадачных конвейерах.
Рассматриваете продвинутые альтернативы?
Если вы изучаете последние инновации в области обнаружения в реальном времени, рассмотрите возможность ознакомления с нашим руководством по YOLO11 или трансформерной модели RT-DETR для высокоточных приложений компьютерного зрения.
Сравнение производительности и метрик
Понимание того, как эти модели работают в условиях стандартизированных бенчмарков, крайне важно для выбора правильной архитектуры. Ниже приведено подробное сравнение их размера, точности и задержки.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Технический анализ
При анализе данных выявляется несколько ключевых тенденций. Модели YOLOv10 nano и small агрессивно нацелены на эффективность на периферийных устройствах, при этом YOLOv10n может похвастаться всего 2,3 миллионами параметров и 6,7B FLOPs. Эта легкая конструкция в сочетании с архитектурой без NMS значительно снижает задержку на платформах, использующих TensorRT и OpenVINO.
Напротив, PP-YOLOE+ демонстрирует высокую производительность в классах с большим весом, при этом его X-large вариант незначительно превосходит YOLOv10x по mAP (54,7% против 54,4%). Однако это достигается за счет почти удвоенного количества параметров (98,42 млн против 56,9 млн), что делает YOLOv10x значительно более эффективной моделью для сред с ограниченной памятью.
Преимущество экосистемы Ultralytics
Хотя PP-YOLOE+ и YOLOv10 предлагают впечатляющие технические достижения, современная ML-инженерия требует большего, чем просто сырая архитектура; она требует хорошо поддерживаемой экосистемы.
Ultralytics предоставляет ведущий в отрасли python SDK, который значительно упрощает сбор и аннотирование данных, обучение и развертывание. По сравнению с тяжелыми исследовательскими фреймворками или старыми моделями-трансформерами, архитектуры Ultralytics требуют лишь малую часть памяти CUDA во время обучения, что позволяет использовать большие размеры пакетов и более быстрые итерации. Кроме того, набор инструментов Ultralytics предлагает огромную универсальность, поддерживая классификацию изображений, OBB (ориентированные ограничивающие рамки) и надежное отслеживание объектов «из коробки».
Представляем YOLO26: Следующее поколение
Выпущенный в январе 2026 года, Ultralytics YOLO26 представляет собой вершину эволюции компьютерного зрения, объединяя лучшие наработки моделей, таких как YOLOv10, и устраняя их ограничения.
Ключевые нововведения YOLO26:
- Сквозная архитектура без NMS: Основываясь на концепции, впервые примененной в YOLOv10, YOLO26 изначально является сквозной (end-to-end) системой, полностью исключающей постобработку NMS для более быстрого и простого развертывания на различном оборудовании.
- Удаление DFL: Удаление Distribution Focal Loss (DFL) значительно упрощает архитектуру модели для экспорта, обеспечивая безупречную совместимость с маломощными периферийными устройствами ИИ.
- Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей (такими как Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD и Muon. Это обеспечивает беспрецедентную стабильность обучения и значительно более быстрые темпы сходимости.
- До 43% более быстрый инференс на CPU: Значительно оптимизированный для реальных сценариев, YOLO26 обеспечивает огромные ускорения для приложений, использующих вычисления на CPU, что делает его идеальным для умного видеонаблюдения и мобильных развертываний.
- ProgLoss + STAL: Эти улучшенные функции потерь значительно повышают производительность в распознавании мелких объектов, что является критически важным фактором для аэрофотосъемки и робототехники.
- Специализированные улучшения: В отличие от YOLOv10, YOLO26 нативно поддерживает многомасштабный прототип для сегментации и оценку остаточного логарифмического правдоподобия (RLE) для оценки позы.
Практическая реализация
Начало работы с моделями Ultralytics разработано так, чтобы быть максимально простым. Всего несколькими строками кода вы можете запустить процесс обучения, используя автоматическую настройку гиперпараметров и современные конвейеры аугментации данных.
from ultralytics import YOLO
# Load the highly recommended YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset
# Memory usage is highly optimized compared to transformer architectures
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Run an end-to-end NMS-free inference
inference_results = model("https://ultralytics.com/images/bus.jpg")
# Export directly to ONNX or TensorRT for deployment
model.export(format="onnx", simplify=True)
Сценарии использования и рекомендации
Выбор между PP-YOLOE+ и YOLOv10 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать PP-YOLOE+
PP-YOLOE+ является отличным выбором для:
- Интеграция с экосистемой PaddlePaddle: Для организаций с существующей инфраструктурой, построенной на фреймворке и инструментарии Baidu PaddlePaddle.
- Развертывание Paddle Lite на периферийных устройствах: Развертывание на аппаратном обеспечении с высокооптимизированными ядрами вывода специально для механизма вывода Paddle Lite или Paddle.
- Высокоточное серверное обнаружение: Сценарии, где приоритетом является максимальная точность обнаружения на мощных GPU-серверах, и зависимость от фреймворка не является проблемой.
Когда выбирать YOLOv10
YOLOv10 рекомендуется для:
- Обнаружение в реальном времени без NMS: Приложения, выигрывающие от сквозного обнаружения без Non-Maximum Suppression, что снижает сложность развертывания.
- Сбалансированный компромисс между скоростью и точностью: Проекты, требующие оптимального баланса между скоростью инференса и точностью обнаружения для моделей различных масштабов.
- Приложения с предсказуемой задержкой: Сценарии развертывания, где критически важны предсказуемые времена инференса, например, в робототехнике или автономных системах.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Заключение
PP-YOLOE+ остается надежным вариантом для команд, привязанных к экосистеме Baidu и промышленным серверным средам. YOLOv10 представляет собой блестящую академическую веху, доказавшую жизнеспособность бе NMS-свободного обнаружения в реальном времени.
Однако для разработчиков, которым требуется идеальное сочетание точности, молниеносной скорости инференса и бесшовных многозадачных возможностей, Ultralytics YOLO26 является окончательным выбором. Его инновации в эффективности обучения и архитектуре развертывания, ориентированной на периферийные устройства, гарантируют, что он остается самым надежным и универсальным решением для компьютерного зрения производственного уровня в 2026 году и в последующий период.