Ultralytics YOLO26 против PP-YOLOE+: Техническое сравнение
Ландшафт обнаружения объектов в реальном времени постоянно развивается, при этом исследователи и инженеры стремятся к оптимальному балансу между точностью, скоростью и простотой развертывания. Две выдающиеся модели в этой области — это Ultralytics YOLO26 и PP-YOLOE+. Хотя обе модели представляют собой значительные достижения в области компьютерного зрения, они удовлетворяют различные потребности экосистем и архитектурные философии.
Это руководство предоставляет всестороннее техническое сравнение, анализируя их архитектуры, метрики производительности и пригодность для реальных приложений. Мы исследуем, как современные инновации YOLO26 контрастируют с устоявшимся фреймворком PP-YOLOE+.
Обзор модели и истоки
Понимание происхождения этих моделей помогает прояснить их проектные цели и целевую аудиторию.
Ultralytics YOLO26
Выпущенная в январе 2026 года Гленном Джохером и Цзин Цю в Ultralytics, YOLO26 представляет собой последнюю эволюцию в известной серии YOLO. Она разработана специально для периферийных и маломощных устройств, с акцентом на нативную сквозную эффективность.
Ключевые инновации включают удаление подавления немаксимумов (NMS) для оптимизированного инференса, введение оптимизатора MuSGD (вдохновленного Kimi K2 от Moonshot AI) и значительные архитектурные упрощения, такие как удаление Distribution Focal Loss (DFL). Эти изменения делают его надежным выбором для разработчиков, которым нужна скорость и простота без ущерба для точности.
PP-YOLOE+
PP-YOLOE+ — это обновленная версия PP-YOLOE, разработанная командой PaddlePaddle в Baidu. Выпущенная примерно в апреле 2022 года, она построена на основе фреймворка глубокого обучения PaddlePaddle. Она фокусируется на доработке бэкбона CSPRepResStage и использовании стратегии динамического присваивания меток, известной как TAL (Task Alignment Learning). Будучи высокопроизводительной, она тесно связана с экосистемой PaddlePaddle, что может влиять на выбор развертывания для пользователей, привыкших к PyTorch или другим фреймворкам.
Архитектура и философия проектирования
Ключевые различия между этими двумя моделями заключаются в том, как они обрабатывают присваивание меток, постобработку и оптимизацию обучения.
YOLO26: Сквозная революция
YOLO26 является отличительно сквозной, что означает, что она генерирует окончательные предсказания непосредственно из сети без необходимости отдельного шага постобработки NMS. Это проектное решение, впервые примененное в YOLOv10, устраняет задержки и сложность, связанные с настройкой порогов NMS.
- Удаление DFL: Удаляя Distribution Focal Loss, YOLO26 упрощает граф модели, делая форматы экспорта, такие как ONNX и TensorRT, значительно чище и более совместимыми с периферийным оборудованием.
- Оптимизатор MuSGD: Гибрид SGD и Muon, этот оптимизатор привносит улучшения стабильности, наблюдаемые при обучении LLM, в компьютерное зрение, обеспечивая более быструю сходимость.
- Фокус на мелких объектах: Такие функции, как ProgLoss и присваивание меток с учетом мелких целей (STAL), специально нацелены на улучшение обнаружения мелких объектов, что критически важно для аэрофотосъемки и применения дронов.
PP-YOLOE+: Улучшенное detectирование без anchor-ов
PP-YOLOE+ следует парадигме без якорей, но полагается на более традиционный конвейер постобработки по сравнению со сквозным подходом YOLO26.
- Базовая сеть: Используется базовая сеть CSPRepResStage, которая сочетает блоки в стиле rep-vgg с CSP (Cross Stage Partial) соединениями.
- Присвоение меток: Используется обучение выравниванию задач (TAL), которое динамически выравнивает оценку классификации и качество локализации.
- Особенности: Версия «Plus» акцентирует внимание на улучшениях скорости обучения и сходимости за счет инициализации с более качественными предварительно обученными весами, часто на Objects365.
Почему сквозной подход важен
Для развертывания на периферийных устройствах важна каждая миллисекунда. Сквозная архитектура без NMS означает, что выходные данные модели готовы к немедленному использованию. Отпадает необходимость в ресурсоемкой для CPU сортировке и фильтрации тысяч потенциальных ограничивающих рамок, что является обычным узким местом в традиционных детекторах, работающих на ограниченном оборудовании, таком как Raspberry Pi.
Сравнение метрик производительности
В следующей таблице сравнивается производительность YOLO26 и PP-YOLOE+ на наборе данных COCO. YOLO26 демонстрирует превосходную эффективность, особенно по количеству параметров и скорости инференса, подчеркивая его оптимизацию для современного оборудования.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Основные выводы:
- Эффективность: YOLO26n достигает более высокой точности (40.9 mAP), чем PP-YOLOE+t (39.9 mAP), используя примерно вдвое меньше параметров (2.4M против 4.85M) и в четыре раза меньше FLOPs (5.4B против 19.15B).
- Скорость: YOLO26 значительно быстрее при инференсе на GPU (T4 TensorRT), при этом наномодель показывает 1.7 мс по сравнению с 2.84 мс для эквивалентной модели PP-YOLOE+.
- Оптимизация для CPU: YOLO26 явно оптимизирован для CPU, обеспечивая до 43% более быстрый инференс, что делает его идеальным для устройств без выделенных ускорителей.
Обучение и экосистема
Опыт разработчика определяется не только архитектурой модели, но и сопутствующими инструментами.
Простота использования с Ultralytics
Ultralytics уделяет первостепенное внимание бесперебойному пользовательскому опыту. YOLO26 интегрирован в унифицированный пакет python, который поддерживает detect, segment, оценку позы, классификацию и ориентированные ограничивающие рамки (obb).
Разработчики могут начать обучение за считанные секунды с помощью интуитивно понятного CLI или API python:
from ultralytics import YOLO
# Load the YOLO26s model
model = YOLO("yolo26s.pt")
# Train on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Эта экосистема обеспечивает легкое развертывание. Режим export поддерживает преобразование в такие форматы, как OpenVINO, CoreMLи TensorRT с помощью одной команды.
PP-YOLOE+ и PaddlePaddle
PP-YOLOE+ глубоко интегрирован во фреймворк PaddlePaddle. Хотя он и мощный, пользователи часто сталкиваются с более крутой кривой обучения, если они не знакомы с экосистемой Baidu. Обучение обычно включает настройку сложных yaml-файлов и использование специфических скриптов PaddleDetection. Перенос моделей на инференс-движки, отличные от Paddle, иногда может требовать дополнительных шагов преобразования (например, из Paddle в ONNX, затем в TensorRT).
Случаи использования и приложения
Идеальные сценарии для YOLO26
- Периферийный ИИ и IoT: Благодаря низкому количеству FLOPs и удаленному DFL, YOLO26 превосходно работает на таких устройствах, как Raspberry Pi или NVIDIA Jetson.
- Видеоаналитика в реальном времени: Высокая скорость инференса делает его идеальным для мониторинга трафика или видеонаблюдения, где частота кадров имеет решающее значение.
- Аэрофотосъемка и изображения с дронов: Функции STAL и ProgLoss обеспечивают явное преимущество при detect мелких объектов с большой высоты.
- Требования к многозадачности: Проекты, требующие оценки позы или сегментации экземпляров наряду с detect, могут использовать один и тот же API и семейство моделей.
Идеальные сценарии для PP-YOLOE+
- Развертывания в центрах обработки данных: Для сценариев, где доступны массивные кластеры GPU и общая эффективность параметров менее критична, чем конкретные архитектурные предпочтения.
- Устаревшие системы PaddlePaddle: Организациям, уже значительно инвестировавшим в инфраструктуру PaddlePaddle, будет проще обновиться до PP-YOLOE+, чем переходить на другие фреймворки.
Заключение
Хотя PP-YOLOE+ остается компетентным детектором, Ultralytics YOLO26 предлагает более современное, эффективное и удобное решение для подавляющего большинства приложений компьютерного зрения. Его сквозная архитектура без NMS, в сочетании с передовой точностью и минимальным использованием ресурсов, позиционирует его как превосходный выбор для разработчиков, стремящихся развертывать надежные решения ИИ в 2026 году.
Бесшовная интеграция с экосистемой Ultralytics гарантирует, что от аннотации данных до развертывания рабочий процесс остается плавным и продуктивным.
Дополнительная литература
Для тех, кто заинтересован в изучении других вариантов или предыдущих поколений, обратитесь к документации для:
- YOLO11 — Предыдущая передовая модель.
- YOLOv10 — пионер сквозного обнаружения объектов в реальном времени.
- RT-DETR — детектор на основе трансформеров, обеспечивающий высокую точность.