YOLOv6-3.0 vs. PP-YOLOE+: подробное техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое обеспечивает баланс между точностью, скоростью и вычислительными затратами для любого проекта в области компьютерного зрения. На этой странице представлено всестороннее техническое сравнение двух мощных моделей: YOLOv6-3.0, разработанной для промышленных применений, и PP-YOLOE+, универсальной модели из экосистемы PaddlePaddle. Мы проанализируем их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь разработчикам сделать осознанный выбор.
YOLOv6-3.0: разработан для промышленной скорости
YOLOv6-3.0 был разработан исследователями из Meituan и выпущен в начале 2023 года. Он специально разработан для промышленных приложений, где скорость инференса является главным приоритетом без значительного ущерба для точности. Модель основана на предыдущих архитектурах YOLO с акцентом на аппаратную конструкцию и оптимизацию обучения.
- Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
- Организация: Meituan
- Дата: 13.01.2023
- Arxiv: https://arxiv.org/abs/2301.05586
- GitHub: https://github.com/meituan/YOLOv6
- Документация: https://docs.ultralytics.com/models/yolov6/
Архитектура и ключевые особенности
YOLOv6-3.0 представляет несколько архитектурных инноваций, направленных на максимальную эффективность. Его конструкция основана на Efficient Reparameterization Backbone, которая позволяет оптимизировать структуру сети после обучения для более быстрого инференса. Он также включает в себя Hybrid Blocks, которые обеспечивают баланс между возможностями извлечения признаков и вычислительной эффективностью. Модель использует самодистилляцию во время обучения для дальнейшего повышения производительности — метод, который помогает небольшим моделям учиться у более крупных и мощных.
Сильные и слабые стороны
Преимущества:
- Исключительная скорость инференса: YOLOv6 — один из самых быстрых доступных детекторов объектов, особенно его небольшие варианты, что делает его идеальным для инференса в реальном времени.
- Адаптация к оборудованию: Модель оптимизирована для эффективной работы на различных аппаратных платформах, включая CPU и GPU.
- Поддержка квантования: Предлагает надежную поддержку квантования моделей, что имеет решающее значение для развертывания на периферийных устройствах с ограниченными ресурсами.
Слабые стороны:
- Ограниченная универсальность: YOLOv6 - это в первую очередь модель обнаружения объектов. Ей не хватает встроенных возможностей для решения нескольких задач (например, сегментации, оценки позы), которые есть в более комплексных фреймворках, таких как Ultralytics YOLOv8.
- Интеграция в экосистему: Будучи open-source, ее экосистема не так обширна и активно поддерживается, как платформа Ultralytics. Это может привести к уменьшению поддержки сообщества и замедлению интеграции новых функций.
Идеальные варианты использования
YOLOv6-3.0 превосходен в сценариях, где скорость является наиболее важным фактором:
- Промышленная автоматизация: Отлично подходит для высокоскоростного контроля качества на производственных линиях, например, в производстве.
- Наблюдение в реальном времени: Эффективно для таких приложений, как мониторинг трафика и системы безопасности, требующие немедленного анализа.
- Edge Computing: Его эффективность и мобильно-оптимизированные варианты (YOLOv6Lite) делают его подходящим для развертывания на таких устройствах, как NVIDIA Jetson.
PP-YOLOE+: Универсальность Anchor-Free
PP-YOLOE+, разработанный Baidu как часть их пакета PaddleDetection, является anchor-free детектором объектов, выпущенным в 2022 году. Он направлен на обеспечение надежного баланса между точностью и эффективностью, с акцентом на упрощение конвейера обнаружения и повышение производительности за счет передовых стратегий обучения.
- Авторы: Авторы PaddlePaddle
- Организация: Baidu
- Дата: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Документация: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Архитектура и ключевые особенности
Основным нововведением PP-YOLOE+ является его конструкция без привязки к якорям, которая устраняет необходимость в предопределенных ограничивающих рамках и упрощает головную часть модели. Это уменьшает количество гиперпараметров и может улучшить обобщение. Архитектура включает в себя магистральную сеть CSPRepResNet backbone, сеть Path Aggregation Feature Pyramid Network (PAFPN) для эффективного слияния признаков и разделенную головную часть для классификации и локализации. Он также использует Task Alignment Learning (TAL), специализированную функцию потерь, которая лучше согласовывает две подзадачи.
Сильные и слабые стороны
Преимущества:
- Надежный баланс между точностью и скоростью: Модели PP-YOLOE+ обеспечивают конкурентоспособную точность в различных размерах, часто достигая высоких показателей mAP, сохраняя при этом приемлемую скорость инференса.
- Простота Anchor-Free (Anchor-Free Simplicity): Конструкция упрощает процесс обучения и устраняет сложность, связанную с настройкой якорных прямоугольников.
- Экосистема PaddlePaddle: Он глубоко интегрирован во фреймворк PaddlePaddle, предлагая удобство работы разработчикам, уже использующим эту экосистему.
Слабые стороны:
- Зависимость от фреймворка: Основная оптимизация для PaddlePaddle может создать барьер для пользователей, работающих с более распространенными фреймворками, такими как PyTorch. Перенос моделей и использование инструментов сообщества может быть более сложным.
- Сообщество и поддержка: Сообщество и доступные ресурсы могут быть менее обширными по сравнению с глобально популярными моделями в экосистеме Ultralytics, что потенциально замедляет разработку и устранение неполадок.
Идеальные варианты использования
PP-YOLOE+ — это надежный детектор общего назначения, подходящий для широкого спектра приложений:
- Проверка качества в промышленности: Высокая точность ценна для обнаружения незначительных дефектов в продукции.
- Умная розничная торговля: Может использоваться для таких приложений, как управление запасами и мониторинг полок.
- Автоматизация переработки: Эффективно определяет различные материалы для автоматизированных систем сортировки.
Сравнение производительности: YOLOv6-3.0 против PP-YOLOE+
Производительность YOLOv6-3.0 и PP-YOLOE+ на наборе данных COCO выявляет их различные философии проектирования.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Примечание: Показатели скорости могут варьироваться в зависимости от оборудования, программного обеспечения (TensorRT, ONNX, OpenVINO), размера пакета и конкретных конфигураций. Значения mAP сообщаются для набора данных COCO val.
Как видно из таблицы, YOLOv6-3.0 явно отдает приоритет скорости и эффективности. Модель YOLOv6-3.0n демонстрирует самое быстрое время инференса с наименьшим количеством параметров и FLOPs, что делает ее отличным выбором для приложений с высокой пропускной способностью. В отличие от нее, PP-YOLOE+ демонстрирует сильную ориентацию на точность, при этом модель PP-YOLOE+x достигает наивысшего показателя mAP, равного 54.7. При сравнении моделей со схожим размером, таких как YOLOv6-3.0l и PP-YOLOE+l, они демонстрируют очень близкую производительность как по скорости, так и по точности, хотя PP-YOLOE+l немного эффективнее с точки зрения параметров и FLOPs.
Заключение и рекомендации
И YOLOv6-3.0, и PP-YOLOE+ — это высокопроизводительные модели обнаружения объектов, но они отвечают разным приоритетам. YOLOv6-3.0 — это идеальный выбор для приложений, где максимальная скорость и эффективность являются обязательными, особенно в промышленных условиях. PP-YOLOE+ — отличный вариант для пользователей, которым нужен сбалансированный детектор с высокой точностью и которые чувствуют себя комфортно, работая в рамках PaddlePaddle.
Однако для разработчиков и исследователей, ищущих современную модель, сочетающую в себе высокую производительность с беспрецедентной простотой использования и универсальностью, Ultralytics YOLOv8 и последняя версия YOLO11 представляют собой превосходную альтернативу.
Вот почему модели Ultralytics выделяются:
- Хорошо поддерживаемая экосистема: Ultralytics предоставляет комплексную экосистему с активной разработкой, обширной документацией и мощной поддержкой сообщества. Такие инструменты, как Ultralytics HUB, оптимизируют весь жизненный цикл ML, от обучения до развертывания.
- Универсальность: В отличие от YOLOv6 и PP-YOLOE+, модели Ultralytics представляют собой многозадачные структуры, поддерживающие обнаружение, сегментацию, оценку позы, классификацию и отслеживание в рамках единой унифицированной архитектуры.
- Простота использования: Благодаря простому API и понятным руководствам, начать работу с моделями Ultralytics YOLO очень просто, что значительно сокращает время разработки.
- Производительность и эффективность: Модели Ultralytics разработаны для оптимального баланса между скоростью и точностью и отличаются высокой эффективностью использования памяти во время обучения и инференса.
Тем, кто изучает другие архитектуры, также может быть полезно сравнить эти модели с другими, такими как YOLOX или RT-DETR на основе трансформеров.