PP-YOLOE+ противYOLO: подробное изучение промышленного обнаружения объектов
В конкурентной среде компьютерного зрения в реальном времени выбор оптимальной архитектуры является критически важным решением для инженеров и исследователей. Два тяжеловеса из китайской технологической экосистемы, PP-YOLOE+ от Baidu и YOLO от Alibaba, предлагают разные подходы к решению проблемы компромисса между скоростью и точностью. Хотя обе модели используют передовые технологии, такие как поиск нейронной архитектуры (NAS) и перепараметризация, они ориентированы на разные среды развертывания и предпочтения экосистем.
В этом руководстве представлено всестороннее техническое сравнение, в котором анализируются архитектурные инновации, тестовые показатели производительности и пригодность для реальных приложений. Мы также исследуем, как современная архитектура Ultralytics устраняет ограничения этих более ранних моделей, чтобы предоставить унифицированное решение для развертывания на периферии и в облаке.
PP-YOLOE+: Улучшенное detectирование без anchor-ов
Выпущенный в апреле 2022 года PaddlePaddle в Baidu, PP-YOLOE+ является эволюцией архитектуры PP-YOLOE, разработанной для улучшения конвергенции обучения и скорости вывода. Он представляет собой переход к высокопроизводительному обнаружению без анкеров в PaddlePaddle .
Авторы: PaddlePaddle
Организация:Baidu
Дата: 2 апреля 2022 г.
Arxiv:PP-YOLOE Статья
GitHub:PaddlePaddle
Архитектурные инновации
PP-YOLOE+ основывается на успехе своих предшественников, интегрируя несколько ключевых конструктивных решений, направленных на снижение задержки при сохранении высокой точности:
- CSPRepResStage: Основой является структура CSP (Cross-Stage Partial) в сочетании с перепараметризованными остаточными блоками. Это позволяет модели использовать преимущества сложной экстракции признаков во время обучения, а во время вывода — сворачиваться в более простую и быструю структуру.
- Парадигма без якорей: благодаря удалению якорных блоков PP-YOLOE+ упрощает пространство поиска гиперпараметров, снижая инженерную нагрузку, часто связанную с детекторами на основе якорей.
- Task Alignment Learning (TAL): для устранения несоответствия между уверенностью в классификации и локализации PP-YOLOE+ использует TAL, стратегию динамического присвоения меток, которая выбирает высококачественные положительные результаты на основе комбинированного показателя классификационного балла и IoU.
- ET-Head: Эффективная головка, ориентированная на задачу (ET-Head), разъединяет ветви классификации и регрессии, обеспечивая оптимизацию представлений признаков специально для каждой задачи без взаимного влияния.
DAMO-YOLO: эффективность, основанная на NAS
Представленный позднее в ноябре 2022 года Alibaba Group,YOLO Distillation-Augmented MOdel) использует Neural Architecture Search (NAS) и интенсивную дистилляцию для расширения границ производительности с низкой задержкой. Он специально разработан для максимальной пропускной способности на промышленном оборудовании.
Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сюю Сунь
Организация:Alibaba Group
Дата: 23 ноября 2022 г.
Arxiv:YOLO
GitHub:YOLO
Архитектурные инновации
YOLO фокусом на автоматизированном проектировании архитектуры и компактном объединении функций:
- MAE-NAS Backbone: в отличие от мануально разработанных магистралей,YOLO структуру, обнаруженную с помощью Neural Architecture Search, получившую название MAE-NAS. Это гарантирует, что глубина и ширина сети математически оптимизированы для конкретных аппаратных ограничений.
- RepGFPN: Эффективная обобщенная сеть пирамиды признаков (RepGFPN) улучшает стандартные FPN за счет оптимизации путей слияния признаков и глубины каналов, что позволяет лучше обнаруживать объекты разных размеров, от пешеходов до транспортных средств.
- ZeroHead: легкая конструкция детектирующей головки, которая значительно снижает вычислительные затраты (FLOP) конечных слоев прогнозирования, что имеет решающее значение для приложений, работающих в режиме реального времени.
- AlignedOTA: усовершенствованная версия Optimal Transport Assignment (OTA), которая лучше согласовывает цели классификации и регрессии во время обучения, что приводит к более быстрой конвергенции.
Сравнение производительности
При сравнении этих моделей выбор часто зависит от конкретного аппаратного обеспечения и приемлемого компромисса между количеством параметров и точностью. PP-YOLOE+ обычно обеспечивает стабильную производительность на графических процессорах серверного класса, аYOLO для сценариев, требующих агрессивной оптимизации задержки, благодаря своей основе, заимствованной из NAS.
В таблице ниже приведены основные показатели. Обратите внимание, чтоYOLO обеспечивает более низкую задержку при аналогичном уровне точности благодаря оптимизациям ZeroHead и RepGFPN.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Преимущество Ultralytics: Представляем YOLO26
Хотя PP-YOLOE+ иYOLO конкурентоспособные функции, они часто требуют сложных, специфичных для конкретной платформы сред (PaddlePaddle внутренние стеки Alibaba). Для разработчиков, которые ищут универсальное, готовое к производству решение, Ultralytics предоставляет решающее преимущество.
Запущенная в 2026 году, YOLO26 решает исторические проблемы внедрения систем обнаружения объектов. Это не просто модель, а целая экосистема, разработанная для удобства использования и быстрой итерации.
Основные особенности YOLO26
- Сквозной дизайн NMS: в отличие от PP-YOLOE+ иYOLO, которые могут потребовать тщательной настройки NMS , YOLO26 изначально является сквозным. Это полностью устраняет необходимость в немаксимальном подавлении (NMS), обеспечивая детерминированную задержку вывода и упрощая процессы развертывания.
- Оптимизатор MuSGD: Вдохновленный инновациями в области обучения больших языковых моделей (таких как Kimi K2 от Moonshot AI), YOLO26 использует оптимизатор MuSGD. Этот гибридный подход стабилизирует динамику обучения, позволяя модели сходиться быстрее с меньшим количеством эпох по сравнению со стандартным SGD в более старых архитектурах.
- ProgLoss + STAL: обнаружение мелких объектов значительно улучшено благодаря ProgLoss и Soft Task Alignment Learning (STAL). Это делает YOLO26 особенно эффективным для аэрофотосъемки и промышленного контроля, где точность обнаружения мелких дефектов имеет первостепенное значение.
- Оптимизация краев: благодаря устранению распределительной фокальной потери (DFL) YOLO26 обеспечивает ускорение CPU до 43%, что делает его оптимальным выбором для Raspberry Pi, мобильных устройств и приложений IoT.
- Непревзойденная универсальность: в то время как конкуренты сосредоточены в основном на обнаружении, Ultralytics поддерживает сегментацию экземпляров, оценку положения, OBB и классификацию в рамках единого API.
Оптимизированный рабочий процесс
Ultralytics позволяет вам за считанные минуты пройти путь от аннотирования данных до их внедрения. С помощью Ultralytics вы можете управлять наборами данных, проводить обучение в облаке и экспортировать данные в любой формат (ONNX, TensorRT, CoreML) без написания шаблонного кода.
Пример кода: Простота в действии
Обучение современной модели с помощью Ultralytics интуитивно Ultralytics . Python упрощает определение архитектуры и настройку гиперпараметров.
from ultralytics import YOLO
# Load the latest YOLO26 model (nano version for edge devices)
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
# YOLO26 automatically handles anchor-free assignment and efficient dataloading
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
# NMS-free output is returned directly, ready for downstream logic
predictions = model("https://ultralytics.com/images/bus.jpg")
# Display the results
predictions[0].show()
Сценарии использования и рекомендации
Выбор подходящей модели зависит от ваших конкретных ограничений, связанных с интеграцией экосистемы, доступностью оборудования и ресурсами для разработки.
- Выберите PP-YOLOE+, если ваша инфраструктура уже глубоко интегрирована с экосистемой Baidu PaddlePaddle. Это отличный вариант для статической обработки изображений, где максимальное использование mAP на серверах является приоритетом, и у вас есть инженерные возможности для управления зависимостями, специфичными для Paddle.
- ВыберитеYOLO, если вы проводите исследования в области поиска нейронных архитектур или вам требуется специальная оптимизация задержки на поддерживаемом оборудовании. Его легкая головка делает его эффективным для высокопроизводительной видеоаналитики, при условии, что вы можете управлять его сложным процессом обучения.
- Выберите Ultralytics для оптимального баланса скорости, точности и удобства разработчиков. Его конструкция NMS упрощает логику развертывания, а удаление DFL делает его исключительно быстрым на процессорах и периферийных устройствах. Независимо от того, создаете ли вы интеллектуальные системы для розничной торговли или автономных сельскохозяйственных роботов, надежная документация и активная поддержка сообщества гарантируют, что ваш проект будет актуален и в будущем.
Для пользователей, заинтересованных в других эффективных архитектурах, в документации также рассматриваются такие модели, как YOLO11 и RT-DETR, предоставляя широкий набор инструментов для решения любых задач в области компьютерного зрения.
Заключение
Как PP-YOLOE+, так иYOLO значительный вклад в развитие технологии обнаружения объектов без использования якорей. PP-YOLOE+ усовершенствовал процесс обучения с помощью выравнивания задач, аYOLO мощь NAS и дистилляции. Однако сложность их соответствующих конвейеров обучения и привязка к экосистеме могут стать препятствием для многих команд.
Ultralytics выделяется благодаря демократизации этих передовых функций. Благодаря сочетанию архитектурыNMS, оптимизации MuSGD и превосходной производительности на периферии, он предлагает комплексное решение, которое масштабируется от прототипа до производства с минимальными затруднениями. Для разработчиков, стремящихся к максимальной производительности и эффективности, Ultralytics отраслевым стандартом.