YOLOv9 YOLO: достижения в области обнаружения объектов в реальном времени
Эволюция обнаружения объектов в реальном времени характеризовалась постоянным стремлением к оптимальному балансу между точностью и задержкой. В этом подробном сравнении мы рассмотрим две значимые архитектуры: YOLOv9, известную благодаря программируемой градиентной информации (PGI) и обобщенной эффективной сети агрегации слоев (GELAN), и YOLO, семейство моделей, оптимизированное с помощью нейронного архитектурного поиска (NAS) и методов репараметризации.
Мы также представляем новейшее поколение YOLO26, которое еще больше расширяет эти границы благодаря сквозной конструкции NMS и оптимизации для периферийных устройств.
Сравнительные показатели эффективности
В следующей таблице представлено прямое сравнение ключевых показателей эффективности на наборе данных COCO . YOLOv9 превосходную эффективность параметров и зачастую более высокую точность для сопоставимых размеров моделей.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv9: Программируемая градиентная информация
YOLOv9 представляет собой значительный скачок в разработке архитектуры глубокого обучения, решая проблему информационного узкого места, присущего глубоким сетям.
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация:Институт информатики, Academia Sinica
- Дата: 2024-02-21
- Arxiv:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
- GitHub:WongKinYiu/yolov9
Ключевые архитектурные инновации
- Программируемая информация о градиенте (PGI): по мере углубления сетей важная информация о характеристиках часто теряется в процессе прямой передачи. PGI вводит вспомогательную обратимое ветвление, которое предоставляет надежную информацию о градиенте основной ветви во время обучения. Это гарантирует, что сеть сохраняет важные характеристики для точного обнаружения, эффективно решая проблему «информационного бутылочного горлышка» без увеличения затрат на вывод.
- GELAN Backbone: Generalized Efficient Layer Aggregation Network (GELAN) сочетает в себе лучшие аспекты CSPNet и ELAN. Она позволяет гибко выбирать вычислительные блоки (такие как ResBlocks или CSP-блоки) при максимальном использовании параметров. В результате получаются легкие, но невероятно мощные модели.
Эти инновации делают YOLOv9 для обнаружения объектов общего назначения и особенно подходящим для сохранения мелких деталей в сложных сценах.
YOLO: оптимизация поиска нейронной архитектуры
YOLO фокусируется на автоматическом обнаружении эффективных архитектур и использовании методов дистилляции для повышения производительности.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан, Сюю Сунь
- Организация: Alibaba Group
- Дата: 2022-11-23
- Arxiv:DAMO-YOLO: Отчет о проектировании системы обнаружения объектов в реальном времени
- GitHub:tinyvision/DAMO-YOLO
Основные характеристики архитектуры
YOLO технологию под названием Neural Architecture Search (NAS) для построения своей основы, MAE-NAS. Этот подход направлен на поиск оптимальной структуры сети в рамках определенных ограничений по задержке. Кроме того, он использует Efficient RepGFPN (Re-parameterized Generalized Feature Pyramid Network) для объединения характеристик в разных масштабах. Модель также в значительной степени опирается на «ZeroHead» и улучшение дистилляции, когда более крупная модель-учитель направляет обучение более мелкой модели-ученика для повышения ее точности.
Несмотря на инновационность, использование NAS и сложных дистилляционных конвейеров может затруднять воспроизведение результатов или модификацию архитектуры для индивидуальных задач по сравнению с модульной конструкцией YOLOv9.
Ultralytics : экосистема и простота использования
Хотя обе архитектуры вносят весомый теоретический вклад, практический опыт разработчиков значительно различается. Ultralytics , включая YOLOv9 YOLO26, обеспечивают беспроблемную работу без каких-либо затруднений.
Оптимизированный рабочий процесс
ОбучениеYOLO часто требует сложных конфигурационных файлов и специальных настроек среды (таких как PaddlePaddle определенные CUDA ). В отличие от этого,Python Ultralytics стандартизирует рабочий процесс. Вы можете загружать, обучать и развертывать современные модели за считанные минуты.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Универсальность и поддержка задач
Ultralytics не ограничиваются ограничивающими прямоугольниками. Фреймворк изначально поддерживает сегментацию экземпляров, оценку позы и обнаружение ориентированных ограничивающих прямоугольников (OBB). Такая универсальность позволяет командам переключаться между задачами без необходимости изучения новых библиотек. Напротив,YOLO в первую очередьYOLO на стандартное обнаружение и в меньшей степени поддерживает эти сложные последующие задачи.
Эффективность обучения и память
YOLO Ultralytics YOLO разработаны с учетом эффективности. Как правило, они требуют меньшего GPU во время обучения по сравнению с архитектурами с интенсивным использованием трансформаторов или моделями, сгенерированными NAS, которые могут иметь нерегулярные схемы доступа к памяти. Это позволяет исследователям обучать надежные модели на потребительском оборудовании, демократизируя доступ к высокопроизводительному компьютерному зрению.
Приложения в реальном мире
Выбор подходящей модели зависит от ограничений развертывания и целей по производительности.
Идеальные сценарии использования для YOLOv9.
- Аналитика розничной торговли: высокая точность YOLOv9c делает его отличным инструментом для обнаружения товаров на переполненных полках, где часто возникают ситуации, когда один товар закрывает другой.
- Медицинская визуализация: архитектура PGI помогает сохранять важную информацию об особенностях, что имеет решающее значение при обнаружении небольших аномалий на медицинских сканах или выявлении переломов.
- Общее наблюдение: для стандартных систем безопасности, где требуется баланс между высоким mAP разумным FPS.
Идеальные варианты использованияYOLO
- Ограниченный поиск оборудования: если вы проводите исследование NAS, чтобы найти магистраль, специально адаптированную к очень уникальным ограничениям оборудования, где стандартные магистрали не справляются.
- Академический бенчмаркинг: для исследователей, сравнивающих эффективность методов дистилляции с перепараметризацией структуры.
Почему YOLO26 — это будущее
Для разработчиков, начинающих новые проекты в 2026 году, YOLO26 предлагает наиболее привлекательный набор функций. Он основан на сильных сторонах YOLOv9 представляет собой сквозную конструкцию NMS, что устраняет необходимость в постобработке с помощью Non-Maximum Suppression. Это значительно упрощает развертывание и сокращает задержку, особенно на периферийных устройствах.
Ключевые инновации YOLO26 включают:
- MuSGD Optimizer: гибрид SGD Muon, который стабилизирует обучение и ускоряет сходимость, обеспечивая стабильность обучения больших языковых моделей (LLM) для зрения.
- Удаление DFL: удаление распределительной фокальной потери упрощает график модели, что упрощает экспорт в такие форматы, как ONNX и TensorRT .
- Улучшенное обнаружение мелких объектов: благодаря ProgLoss и STAL, YOLO26 отлично подходит для аэрофотосъемки и применения в дронах.
Обеспечьте будущее своего развертывания
Переход на YOLO26 гарантирует, что ваше приложение будет использовать все преимущества новейших достижений в области оптимизации пограничных вычислений. Нативная сквозная архитектура обеспечивает более быстрое выполнение выводов на процессорах и нейропроцессорах, что крайне важно для IoT-устройств с батарейным питанием.
Заключение
В то время какYOLO интересные концепции, касающиеся поиска нейронной архитектуры и дистилляции, YOLOv9 и более новая версия YOLO26 предлагают более практичное, мощное и удобное решение для подавляющего большинства приложений компьютерного зрения. Ultralytics гарантирует разработчикам доступ к лучшим инструментам для обучения, отслеживания и развертывания моделей, подкрепленный обширной документацией и поддержкой сообщества.
Для более подробного изучения архитектур моделей рекомендуем ознакомиться с нашими сравнениями YOLOv10 YOLO или YOLO11 YOLOv9.