YOLOv9 PP-YOLOE+: технический анализ современных методов обнаружения объектов
Ландшафт обнаружения объектов в реальном времени определяется постоянным стремлением к повышению точности и снижению задержки. Двумя значительными факторами, способствующими этой эволюции, являются YOLOv9, представленная исследовательской группой, стоящей за YOLOv7, и PP-YOLOE+, усовершенствованная версия из PaddlePaddle компании Baidu. В данном анализе рассматриваются их архитектурные инновации, тестовые результаты и пригодность для различных сценариев развертывания, чтобы помочь вам выбрать подходящий инструмент для ваших проектов в области компьютерного зрения.
Краткое изложение
YOLOv9 сосредоточен на преодолении потери информации в глубоких сетях с помощью программируемой градиентной информации (PGI) и обобщенной эффективной сети агрегации слоев (GELAN). Он отлично подходит для сценариев, требующих высокой точности при умеренных вычислительных ресурсах. PP-YOLOE+, напротив, глубоко оптимизирован для PaddlePaddle и отличается унифицированной архитектурой «облако-периферия», которая использует масштабируемое назначение и динамическое назначение меток для точной локализации.
Хотя обе модели являются мощными, разработчики часто предпочитают Ultralytics YOLO , такие как современная YOLO26, из-за их непревзойденной простоты использования, обширной документации и беспроблемной интеграции в глобальную экосистему с открытым исходным кодом.
YOLOv9: программируемые градиенты для усовершенствованного обучения
YOLOv9 проблему «информационного узкого места», присущую глубоким нейронным сетям, когда важные данные теряются в результате последовательного понижения разрешения карт признаков.
Ключевые архитектурные особенности
- Программируемая информация о градиенте (PGI): вспомогательная система контроля, которая генерирует надежные градиенты для обновления весов сети, обеспечивая сохранение критически важной семантической информации в глубоких слоях.
- Архитектура GELAN: обобщенная сеть эффективной агрегации слоев сочетает в себе преимущества CSPNet и ELAN, оптимизируя планирование градиентного пути для максимальной эффективности параметров.
- Интеграция с Ultralytics: YOLOv9 полностью YOLOv9 в Ultralytics , что позволяет пользователям использовать привычные инструменты для обучения, валидации и развертывания.
YOLOv9 :
Авторы: Chien-Yao Wang, Hong-Yuan Mark Liao
Организация: Институт информационных наук, Academia Sinica
Дата: 21.02.2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
PP-YOLOE+: Эволюция PaddleDetection
PP-YOLOE+ — это обновленная версия PP-YOLOE, разработанная как надежная базовая платформа для промышленных приложений. Она построена на основе парадигмы без анкеров, которая упрощает работу датчика обнаружения и улучшает обобщение для объектов различной формы.
Ключевые архитектурные особенности
- Механизм без анкеров: устраняет необходимость в заранее определенных анкерных рамках, сокращая настройку гиперпараметров и улучшая производительность на объектах с нестандартными пропорциями.
- CSPRepResStage: усовершенствование основной структуры, в котором используются методы перепараметризации для обеспечения баланса между стабильностью обучения и скоростью вывода.
- Task Alignment Learning (TAL): динамическая стратегия присвоения меток, которая явно согласовывает оценку классификации с качеством локализации, обеспечивая высокую точность обнаружения в пространстве.
PP-YOLOE+ Детали:
Авторы: PaddlePaddle
Организация: Baidu
Дата: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle
Сравнение производительности
При выборе модели крайне важно найти оптимальный баланс между скоростью и точностью. В таблице ниже приведены показатели производительности на COCO , который является стандартным тестом для обнаружения объектов.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Анализ
- Эффективность параметров: YOLOv9 достигает сопоставимого или более высокого mAP средней средней точности) с меньшим количеством параметров, особенно в средней (M) и компактной (C) версиях. Это означает меньшие требования к хранению и потенциально меньшее использование памяти во время вывода.
- Скорость вывода: хотя PP-YOLOE+ демонстрирует конкурентоспособную скорость на графических процессорах T4, архитектура YOLOv9 в значительной степени оптимизирована для градиентного потока, что может привести к лучшей конвергенции во время обучения.
- Зависимость от фреймворка: YOLOv9 нативным образом на PyTorch, доминирующем фреймворке для исследований и промышленности. PP-YOLOE+ требует PaddlePaddle , что может вызвать трудности для команд, уже работающих в TensorFlow PyTorch TensorFlow .
Преимущество Ultralytics
Хотя сравнение конкретных архитектур является полезным, экосистема, окружающая модель, часто является решающим фактором для долгосрочного успеха проекта.
Простота использования и экосистема
Ultralytics , включая YOLOv9 более новую YOLO26, разработаны для немедленной продуктивности. Python абстрагирует сложный шаблонный код, позволяя разработчикам загружать, обучать и развертывать модели всего за несколько строк.
from ultralytics import YOLO
# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
В отличие от этого, PP-YOLOE+ обычно использует конфигурационные файлы и интерфейсы командной строки, специфичные для PaddleDetection, что может усложнить процесс настройки.
Универсальность в различных задачах
Важным преимуществом Ultralytics является ее поддержка широкого спектра задач компьютерного зрения, выходящих за рамки простого обнаружения ограничивающих прямоугольников. Независимо от того, нужна ли вам сегментация экземпляров, оценка позы или обнаружение ориентированных ограничивающих прямоугольников (OBB), рабочий процесс остается неизменным. Такая универсальность имеет решающее значение для динамичных проектов, которые могут развиваться от простого обнаружения до сложного анализа поведения.
Интегрированное развертывание
Ultralytics путь к производству. Вы можете легко экспортировать обученные модели в такие форматы, как ONNX, TensorRTи OpenVINO с помощью одной команды, обеспечивая совместимость с различным оборудованием, от периферийных устройств до облачных серверов.
Гарантия будущего с YOLO26
Для разработчиков, начинающих новые проекты в 2026 году, YOLO26 представляет собой вершину эффективности и производительности.
YOLO26 представляет несколько революционных функций, которые превосходят как YOLOv9 PP-YOLOE+:
- Полная NMS: благодаря устранению необходимости в постобработке с помощью алгоритма Non-Maximum Suppression (NMS) YOLO26 значительно сокращает задержку и сложность развертывания.
- Оптимизация для CPU: благодаря удалению Distribution Focal Loss (DFL) и архитектурным оптимизациям YOLO26 обеспечивает до 43 % более быстрое вычисление на ЦП, что делает его идеальным решением для пограничных вычислений.
- Оптимизатор MuSGD: вдохновленный обучением LLM, оптимизатор MuSGD стабилизирует обучение и ускоряет сходимость.
- Усовершенствованные функции потерь: сочетание ProgLoss и STAL значительно улучшает обнаружение мелких объектов, что является распространенной проблемой в таких областях, как воздушное наблюдение и медицинская визуализация.
Случаи использования
Контроль производства в режиме реального времени
Для высокоскоростных сборочных линий YOLOv9 предлагает отличную пропускную способность. Однако, если система контроля работает на периферийных устройствах без специальных графических процессоров (например, Raspberry Pi или промышленные ПК начального уровня), YOLO26 является лучшим выбором благодаря CPU и меньшему объему памяти по сравнению с альтернативными вариантами, требующими больших трансформаторов.
Умное управление дорожным движением в городах
PP-YOLOE+ является приемлемым вариантом для статических камер дорожного движения, если инфраструктура уже построена на экосистеме Baidu. Однако для динамических систем, требующих отслеживания транспортных средств и анализа безопасности пешеходов, Ultralytics предоставляют встроенную поддержку отслеживания (BoT-SORT, ByteTrack) и превосходную обработку окклюзий с помощью передовых технологий дополнения.
Мониторинг сельского хозяйства
В точном земледелии для выявления болезней сельскохозяйственных культур часто требуется определять мелкие, едва заметные признаки. YOLO26 превосходит другие модели благодаря функции ProgLoss, которая повышает точность локализации мелких объектов по сравнению с подходами на основе якорей, используемыми в более старых моделях. Кроме того, Ultralytics упрощает управление наборами данных и обучение моделей для агрономов, которые могут не быть экспертами в области глубокого обучения.
Заключение
YOLOv9 PP-YOLOE+ вносят значительный вклад в развитие компьютерного зрения. PP-YOLOE+ является сильным конкурентом в PaddlePaddle , предлагая надежное обнаружение без анкоров. YOLOv9 границы хранения информации в глубоких сетях, обеспечивая высокую эффективность.
Однако для большинства разработчиков и исследователей YOLO Ultralytics YOLO предлагают оптимальный баланс производительности, простоты использования и универсальности. С выпуском YOLO26 пользователи получают доступ к сквозному обнаружению NMS, более быстрому CPU и комплексному набору инструментов, которые оптимизируют весь жизненный цикл MLOps.
Для получения дополнительной информации о других высокопроизводительных моделях ознакомьтесь с нашей документацией по YOLO11 и RT-DETR.