PP-YOLOE+ vs YOLO11: всестороннее техническое сравнение

Выбор оптимальной модели для detectирования объектов требует тщательного анализа архитектуры, скорости inference и возможностей интеграции. В этом руководстве представлено подробное техническое сравнение между PP-YOLOE+, высокоточной моделью из экосистемы Baidu PaddlePaddle, и Ultralytics YOLO11, последней современной эволюцией в серии YOLO. Хотя обе платформы предлагают надежные возможности detectирования, YOLO11 отличается превосходной вычислительной эффективностью, унифицированной многозадачной структурой и беспрецедентной простотой использования для разработчиков.

PP-YOLOE+: Высокая точность в экосистеме PaddlePaddle

PP-YOLOE+ — это усовершенствованная версия PP-YOLOE, разработанная исследователями Baidu. Это одноэтапный детектор объектов без anchor, предназначенный для повышения скорости сходимости обучения и производительности задач downstream. Построенный исключительно в рамках PaddlePaddle framework, он использует CSPRepResNet backbone и динамическую стратегию назначения меток для достижения конкурентоспособной accuracy на эталонных тестах, таких как COCO.

Авторы: Авторы PaddlePaddle
Организация:Baidu
Дата: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:https://github.com/PaddlePaddle/PaddleDetection/
Документация:https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

Ключевые архитектурные особенности

Архитектура PP-YOLOE+ фокусируется на улучшении компромисса между скоростью и точностью. Она включает в себя Efficient Task-aligned Head (ET-Head) для лучшей балансировки задач классификации и локализации. Модель использует механизм назначения меток, известный как Task Alignment Learning (TAL), который помогает выбирать высококачественные положительные примеры во время обучения. Однако, поскольку она в значительной степени зависит от экосистемы PaddlePaddle, интеграция ее в рабочие процессы на основе PyTorch часто требует сложных процессов преобразования модели.

Узнайте больше о PP-YOLOE+

Ultralytics YOLO11: Новый стандарт для Vision AI

Ultralytics YOLO11 представляет собой передовой уровень компьютерного зрения в реальном времени. Разработанный Гленном Джохером и Цзин Цю, он опирается на успех YOLOv8, чтобы предоставить модель, которая является более быстрой, более точной и значительно более эффективной. YOLO11 — это не просто детектор объектов; это универсальная базовая модель, способная обрабатывать сегментацию экземпляров, оценку позы, классификацию изображений и обнаружение ориентированных ограничивающих рамок (OBB) в рамках единой унифицированной кодовой базы.

Авторы: Гленн Джокер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Документация:https://docs.ultralytics.com/models/yolo11/

Архитектура и преимущества

YOLO11 представляет собой усовершенствованную архитектуру, которая максимально повышает эффективность извлечения признаков при минимизации вычислительных затрат. В ней используется улучшенная конструкция backbone и head, которая уменьшает общее количество параметров по сравнению с предыдущими поколениями и конкурентами, такими как PP-YOLOE+. Это уменьшение сложности позволяет увеличить скорость inference как на периферийных устройствах, так и на облачных GPU без ущерба для точности. Кроме того, YOLO11 разработан с учетом эффективности памяти, требуя меньше памяти GPU во время обучения по сравнению с моделями на основе transformer или более старыми тяжелыми архитектурами.

Узнайте больше о YOLO11

Анализ производительности: Метрики и бенчмарки

Сравнение показателей производительности выявляет отчетливые различия в эффективности и масштабируемости между двумя моделями. YOLO11 стабильно демонстрирует превосходный баланс скорости и точности, особенно при учете требуемых вычислительных ресурсов.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Интерпретация эффективности и скорости

Данные подчеркивают значительное преимущество YOLO11 с точки зрения эффективности модели. Например, YOLO11x соответствует 54,7 mAP PP-YOLOE+x, но достигает этого, используя всего 56,9M параметров по сравнению с огромными 98,42M параметрами модели PaddlePaddle. Это представляет собой сокращение размера модели более чем на 40%, что напрямую коррелирует с более низкими требованиями к хранению и более быстрым временем загрузки.

С точки зрения вывода в реальном времени, YOLO11 превосходит PP-YOLOE+ по всем размерам моделей на эталонных тестах T4 GPU. Эта разница имеет жизненно важное значение для приложений, чувствительных к задержкам, таких как автономное вождение или высокоскоростная промышленная сортировка. Кроме того, доступность эталонных тестов CPU для YOLO11 подчеркивает его оптимизацию для различных аппаратных сред, включая те, в которых отсутствуют специализированные ускорители.

Методология обучения и простота использования

Пользовательский опыт между этими двумя моделями значительно различается, в основном из-за их базовых экосистем.

Преимущество экосистемы Ultralytics

Ultralytics YOLO11 выигрывает от зрелой, хорошо поддерживаемой экосистемы, которая уделяет первоочередное внимание производительности разработчиков.

Простота использования: Благодаря простому Python API разработчики могут загружать, обучать и развертывать модели, используя всего несколько строк кода. Порог вхождения исключительно низок, что делает передовой ИИ доступным как для новичков, так и для экспертов.
Эффективность обучения: YOLO11 поддерживает эффективное обучение с легкодоступными предварительно обученными весами. Фреймворк автоматически обрабатывает сложные задачи, такие как аугментация данных и настройка гиперпараметров.
Требования к памяти: Модели YOLO оптимизированы для потребления меньшего количества памяти CUDA во время обучения по сравнению с другими архитектурами, что позволяет пользователям обучать большие пакеты или более высокие разрешения на оборудовании потребительского класса.

Простой интерфейс Python

Обучение модели YOLO11 на пользовательском наборе данных так же просто, как указать на YAML-файл:

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")

# Train the model
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Рабочий процесс PP-YOLOE+

Работа с PP-YOLOE+ обычно требует использования фреймворка PaddlePaddle. Хотя эта экосистема и является мощной, она менее распространена, чем PyTorch, что может привести к более крутой кривой обучения для команд, уже работающих в средах PyTorch или TensorFlow. Пользовательское обучение часто включает в себя изменение сложных файлов конфигурации, а не использование оптимизированного программного интерфейса, и ресурсы сообщества, хотя и растут, менее обширны, чем глобальное сообщество YOLO.

Универсальность и применение в реальных условиях

Основное различие между ними заключается в их универсальности. PP-YOLOE+ в первую очередь ориентирован на обнаружение объектов. В отличие от этого, YOLO11 — это многозадачный центр.

YOLO11: За пределами обнаружения

Архитектура YOLO11 поддерживает широкий спектр задач компьютерного зрения:

Сегментация экземпляров: Точное выделение контуров объектов для таких приложений, как анализ медицинских изображений или восприятие автономных транспортных средств.
Оценка позы: Отслеживание ключевых точек для спортивной аналитики или мониторинга физиотерапии.
Ориентированные ограничивающие рамки (obb): Обнаружение вращающихся объектов, что критически важно для аэрофотосъемки и спутникового анализа.

Идеальные варианты использования

Производство и контроль качества: Высокая скорость YOLO11 позволяет ему не отставать от быстрых сборочных линий, обнаруживая дефекты в режиме реального времени. Его возможности segment могут дополнительно определять точную форму дефектов.
Периферийные вычисления: Благодаря балансу производительности и меньшему количеству параметров, YOLO11 является превосходным выбором для развертывания на периферийных устройствах, таких как NVIDIA Jetson или Raspberry Pi.
Умные города: Для таких приложений, как мониторинг трафика, способность YOLO11 отслеживать объекты и оценивать скорость предлагает комплексное решение в одной модели.

Вывод: Рекомендуемый выбор

В то время как PP-YOLOE+ остается эффективным детектором в сфере PaddlePaddle, Ultralytics YOLO11 выделяется как превосходный выбор для подавляющего большинства разработчиков и исследователей.

YOLO11 предлагает более выгодный компромисс между скоростью и точностью, потребляет меньше вычислительных ресурсов и обеспечивает непревзойденную универсальность для решения различных задач компьютерного зрения. В сочетании с активным сообществом, обширной документацией и бесшовной интеграцией с такими инструментами, как Ultralytics HUB, YOLO11 позволяет пользователям создавать и развертывать надежные решения на основе ИИ с большей эффективностью и легкостью.

Для тех, кто стремится использовать весь потенциал современного компьютерного зрения без ограничений, связанных с блокировкой фреймворка, YOLO11 — это оптимальный путь.

Изучите другие сравнения

Чтобы лучше понять, как YOLO11 соотносится с конкурентами, изучите наши другие подробные сравнения: