PP-YOLOE+ против YOLOv6. YOLOv6: подробное исследование обнаружения объектов в реальном времени
Область обнаружения объектов в реальном времени быстро развивается, а фреймворки расширяют границы точности и задержки. Двумя значимыми новичками в этой области являются PP-YOLOE+, эволюция детекторов PaddlePaddle , и YOLOv6.YOLOv6, промышленная модель от Meituan. Обе архитектуры направлены на оптимизацию компромисса между скоростью и точностью, но подходят к решению проблемы с помощью разных философий проектирования и нацелены на разные среды развертывания.
Обзор модели
Понимание происхождения этих моделей помогает прояснить архитектурные решения и идеальные варианты использования.
PP-YOLOE+
Авторы: PaddlePaddle
Организация:Baidu
Дата: 2022-04-02
Ссылки:Arxiv | GitHub
PP-YOLOE+ — это оптимизированная версия PP-YOLOE, разработанная PaddlePaddle компании Baidu. Она основана на парадигме без анкеров, усовершенствованной базовой структуре CSPRepResNet и новой стратегии Task Alignment Learning (TAL). Она разработана для тесной интеграции с PaddlePaddle и обеспечивает надежную поддержку различных аппаратных бэкэндов через PaddleLite.
YOLOv6-3.0
Авторы: Чуй Ли, Лулу Ли, Ифэй Гэн, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Кэ, Сяомин Сюй и Сянсян Чу
Организация:Meituan
Дата: 13.01.2023
Ссылки:Arxiv | GitHub
YOLOv6.YOLOv6, часто называемый «Full-Scale Reloading», разработан отделом визуального интеллекта компании Meituan. В отличие от академических исследовательских моделей, которые сосредоточены исключительно на FLOP, YOLOv6. YOLOv6 разработан для реальных промышленных приложений, в частности для оптимизации пропускной способности графических процессоров, таких как NVIDIA T4. Он использует гибридную стратегию обучения, называемую Anchor-Aided Training (AAT), для максимального повышения производительности.
Сравнение технической архитектуры
Основные различия между этими двумя моделями заключаются в конструкции головок, стратегиях обучения и оптимизации основной структуры.
Архитектура PP-YOLOE+
PP-YOLOE+ использует масштабируемую магистраль на основе CSPRepResNet, которая использует перепараметризуемые свертки для балансирования способности извлечения признаков со скоростью вывода. Ключевой инновацией является Efficient Task-aligned Head (ET-head). Традиционные одноступенчатые детекторы часто страдают от несоответствия между достоверностью классификации и точностью локализации. PP-YOLOE+ решает эту проблему с помощью Task Alignment Learning (TAL), стратегии присвоения меток, которая динамически выбирает положительные образцы на основе взвешенной комбинации оценок классификации и регрессии.
Архитектура YOLOv6-3.0
YOLOv6.YOLOv6 уделяет большое внимание проектированию нейронных сетей с учетом аппаратных возможностей. В ней представлена RepBi-PAN, двунаправленная сеть агрегации путей, усиленная блоками в стиле RepVGG, что повышает эффективность слияния характеристик. Наиболее заметной особенностью версии 3.0 является Anchor-Aided Training (AAT). Хотя модель развертывается как детектор без якорей для обеспечения скорости, она использует вспомогательную ветвь на основе якорей во время обучения для стабилизации сходимости и повышения точности, эффективно получая «лучшее из обоих миров».
Предупреждение: объяснение перепараметризации
Обе модели используют структурную перепараметризацию. Во время обучения сеть использует сложные многоветвленные структуры (такие как соединения ResNet) для изучения богатых характеристик. Во время вывода эти ветви математически объединяются в один слой свертки. Эта техника, популяризованная RepVGG, значительно снижает затраты на доступ к памяти и уменьшает задержку вывода без потери точности.
Метрики производительности
В следующей таблице сравниваются результаты различных масштабов моделей на COCO .
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
YOLOv6.YOLOv6 демонстрирует явное преимущество в GPU (TensorRT ), особенно в масштабе Nano (n), что делает его высокоэффективным для обработки больших объемов видео. PP-YOLOE+ часто достигает сопоставимой или немного более высокой точности (mAP) в более крупных масштабах, но с другим профилем эффективности параметров.
Преимущество Ultralytics
Хотя PP-YOLOE+ и YOLOv6. YOLOv6 обладают впечатляющими возможностями, многие разработчики отдают предпочтение балансу производительности, простоте использования и поддержке экосистемы. Именно здесь Ultralytics , в частности YOLO11 и передовые YOLO26, демонстрируют отличные результаты.
Почему стоит выбрать Ultralytics?
- Простота использования: Ultralytics опыт «от нуля до героя». В отличие от исследовательских репозиториев, которые требуют сложной настройки среды, Ultralytics доступны через простую установку pip и унифицированный Python .
- Хорошо поддерживаемая экосистема: Ultralytics и репозиторий GitHub предлагают постоянные обновления, обеспечивая совместимость с новейшими драйверами, форматами экспорта (ONNX, TensorRT, CoreML) и оборудованием.
- Универсальность: хотя YOLOv6 в первую очередь YOLOv6 механизмом обнаружения, Ultralytics сегментацию экземпляров, оценку положения, классификацию и задачи ориентированной ограничивающей рамки (OBB) в рамках одной библиотеки.
- Эффективность обучения: Ultralytics оптимизированы для снижения потребления памяти во время обучения. Это резко контрастирует с моделями на основе трансформаторов (такими как RT-DETR), которые часто требуют значительного CUDA и более длительного времени обучения.
Сила YOLO26
Выпущенный в январе 2026 года, YOLO26 представляет собой вершину эффективности для развертывания на периферии и в облаке. Он решает общие проблемы в конвейерах развертывания с помощью нескольких революционных функций:
- Сквозной дизайн NMS: YOLO26 устраняет необходимость в постобработке с помощью алгоритма Non-Maximum Suppression (NMS). Это снижает изменчивость задержки и упрощает логику развертывания, концепция, впервые примененная в YOLOv10.
- Ускорение CPU до 43%: благодаря удалению Distribution Focal Loss (DFL) и оптимизации архитектуры YOLO26 значительно ускорил работу на процессорах, что делает его идеальным выбором для периферийного искусственного интеллекта на таких устройствах, как Raspberry Pi или мобильные телефоны.
- Оптимизатор MuSGD: вдохновленный стабильностью обучения LLM, оптимизатор MuSGD (гибрид SGD Muon) обеспечивает более быструю конвергенцию и стабильное выполнение обучения.
- ProgLoss + STAL: усовершенствованные функции потери улучшают обнаружение мелких объектов, что имеет решающее значение для изображений с дронов и датчиков IoT.
Пример кода
Обучение современной модели с помощью Ultralytics сложности:
from ultralytics import YOLO
# Load the latest YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
Варианты использования и реальные применения
Выбор правильной модели часто зависит от конкретных ограничений вашего проекта.
Идеально подходит для PP-YOLOE+
- Анализ статических изображений: среды, в которых задержка менее важна, чем абсолютная точность, например, анализ спутниковых изображений высокого разрешения для городского планирования.
- PaddlePaddle : команды, уже использующие стек Baidu для других задач искусственного интеллекта, смогут легко интегрировать эту технологию.
Идеально подходит для YOLOv6-3.0
- Промышленная инспекция: высокоскоростные производственные линии, требующие обнаружения дефектов на быстро движущихся конвейерных лентах. Высокая TensorRT является здесь важным преимуществом.
- Видеоаналитика: одновременная обработка нескольких видеопотоков на одном GPU для обеспечения безопасности или мониторинга трафика.
Идеально подходит для Ultralytics YOLO26 / YOLO11)
- Edge Computing: благодаря ускоренному на 43% CPU YOLO26 идеально подходит для устройств с батарейным питанием, интеллектуальных камер и мобильных приложений.
- Робототехника: конструкцияNMS снижает джиттер задержки, что имеет решающее значение для циклов обратной связи в реальном времени, необходимых для автономной навигации.
- Мультимодальные проекты: приложения, требующие как обнаружения объектов, так и оценки положения (например, спортивная аналитика), могут использовать одну библиотеку, что упрощает кодовую базу.
Заключение
Как PP-YOLOE+, так и YOLOv6. YOLOv6 являются значительным вкладом в развитие компьютерного зрения. PP-YOLOE+ расширяет границы точности без использования якорей в экосистеме Paddle, а YOLOv6. YOLOv6 обеспечивает исключительную пропускную способность для промышленных рабочих нагрузок GPU.
Однако для разработчиков, которые ищут универсальное, перспективное решение, охватывающее все от обучения в облаке до развертывания на периферии, Ultralytics является лучшим выбором. Сочетание инференцииNMS, эффективного использования памяти при обучении и широкой поддержки задач делает его рекомендуемым выбором для современной разработки ИИ. Независимо от того, создаете ли вы решение для умного города или настраиваемого сельскохозяйственного бота, Ultralytics предоставляет инструменты, которые помогут вам быстрее перейти к производству.
Для более подробного изучения рекомендуем ознакомиться с документацией по YOLOv8 или специализированной YOLO для обнаружения открытого словаря.