YOLOv9 YOLO11: соединяя архитектурные инновации и готовность к производству
Область обнаружения объектов в реальном времени быстро развивается, и каждое новое поколение расширяет границы точности, скорости и эффективности. В этом сравнении подробно рассматриваются YOLOv9, известной своими теоретическими прорывами в области градиентной информации, и YOLO11, мощным инструментом Ultralytics, предназначенным для беспроблемного развертывания и универсального использования.
Хотя обе модели происходят от легендарной YOLO , они служат разным целям в экосистеме компьютерного зрения. В этом руководстве анализируются их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь разработчикам выбрать подходящий инструмент для своих конкретных нужд.
Резюме: Инновации против экосистемы
YOLOv9 сосредоточен на решении фундаментальной проблемы потери информации в глубоких сетях с помощью новых архитектурных концепций, таких как Programmable Gradient Information (PGI). Это отличный выбор для академических исследований и сценариев, требующих максимального сохранения характеристик в сложных наборах данных.
YOLO11, напротив, разработан для реального мира. Являясь неотъемлемой частью Ultralytics , он предлагает непревзойденную простоту использования, превосходную скорость вывода на периферийном оборудовании и встроенную поддержку широкого спектра задач, выходящих за рамки простого обнаружения. Для разработчиков, создающих коммерческие приложения, YOLO11 более оптимизированный путь от обучения до развертывания.
Технические характеристики и производительность
В следующей таблице показаны различия в производительности моделей на COCO . Хотя YOLOv9 высокую теоретическую производительность, YOLO11 значительные преимущества в скорости и эффективности параметров, особенно в более компактных вариантах моделей, которые имеют решающее значение для пограничного ИИ.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv9: глубокое погружение в программируемые градиенты
YOLOv9 внедрен для решения проблемы «информационного бутылочного горлышка» в глубоких нейронных сетях. По мере углубления сетей входные данные часто теряют важную информацию, прежде чем достигают уровней прогнозирования.
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 21 февраля 2024 г.
- Arxiv:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
Ключевые архитектурные особенности
- Программируемая информация о градиенте (PGI): PGI генерирует надежные градиенты через вспомогательную ветвь контроля, обеспечивая обучение основной ветви надежным характеристикам даже в очень глубоких архитектурах. Это особенно полезно для исследования динамики градиентного спуска.
- GELAN (Generalized Efficient Layer Aggregation Network): новая архитектура, которая оптимизирует использование параметров, сочетая в себе лучшие аспекты CSPNet и ELAN. Это позволяет YOLOv9 высокой точности с относительно легкой структурой по сравнению со старымиUltralytics
YOLO11: разработан для производства и универсальности
YOLO11 кульминацию опыта Ultralytics в поддержке миллионов специалистов в области искусственного интеллекта. Он уделяет приоритетное внимание практической полезности, гарантируя, что модели не только точны по тестам, но и просты в обучении, экспорте и запуске на различном оборудовании, от NVIDIA до устройств Raspberry Pi.
- Авторы: Гленн Джохер, Цзин Цю
- Организация:Ultralytics
- Дата: 27 сентября 2024 г.
- Репозиторий:Ultralytics
Преимущество Ultralytics
YOLO11 благодаря интеграции с более широкой Ultralytics . Она включает в себя:
- Эффективность использования памяти: YOLO11 во время обучения требует значительно меньше CUDA по сравнению с архитектурами, в которых широко используются трансформеры, или неоптимизированными репозиториями. Это демократизирует доступ к обучению, позволяя пользователям точно настраивать современные модели на потребительских графических процессорах, таких как RTX 3060 или 4070.
- Широкая поддержка задач: В отличие от YOLOv9, который в основном ориентирован на обнаружение в своем базовом репозитории, YOLO11 поддерживает:
- Экспорт: экспорт в форматы, такие как ONNX, TensorRT, CoreML и TFLite YOLO11 идеальным YOLO11 для мобильных и встроенных систем.
Оптимизированное обучение с Ultralytics
Для обучения YOLO11 минимальный объем шаблонного кода. Вы можете начать обучение на пользовательском наборе данных за считанные секунды с помощью Python :
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Реальные примеры использования
Выбор между этими двумя моделями в значительной степени зависит от ограничений развертывания и целей проекта.
Идеальные сценарии для YOLOv9
- Академический бенчмаркинг: Исследователи, изучающие топологию сетей и информационные потоки, найдут концепции PGI в YOLOv9 для поиска нейронных архитектур.
- Высокоточное извлечение признаков: для задач, в которых критически важно улавливать мельчайшие детали на медицинских изображениях высокого разрешения, магистраль GELAN обеспечивает высокую репрезентативную мощность.
- Стандартное развертывание GPU : в средах, где задержка менее важна, чем выжатие последних 0,1% mAP, более крупная модель YOLOv9e является сильным конкурентом.
Идеальные сценарии для YOLO11
- Edge AI и IoT: благодаря превосходной скорости CPU (например, 1,5 мс для YOLO11n по сравнению с 2,3 мс для YOLOv9t на GPU T4, а на CPU разница еще больше), YOLO11 идеально YOLO11 для навигации дронов и интеллектуальных камер.
- Коммерческий SaaS: Стабильность и активное обслуживание Ultralytics гарантируют, что коммерческие приложения остаются безопасными и обновляются до последних PyTorch .
- Многозадачные конвейеры: приложения, требующие одновременного обнаружения и отслеживания, такие как спортивная аналитика, извлекают выгоду из способности YOLO11 переключаться между задачами без изменения базовой структуры.
- Обучение с ограниченными ресурсами: стартапы и студенты с ограниченным аппаратным обеспечением могут обучать эффективные YOLO11 без высоких затрат на облачные вычисления, связанных с более тяжелыми архитектурами.
Будущее: взгляд на YOLO26
Хотя YOLOv9 YOLO11 отличным выбором, область компьютерного зрения никогда не стоит на месте. Ultralytics недавно Ultralytics YOLO26, модель, которая переопределяет эффективность для 2026 года и далее.
YOLO26 основан на опыте, полученном при разработке обеих архитектур, но представляет собой нативный сквозной дизайн NMS, впервые примененный в YOLOv10. Это устраняет необходимость в постобработке с помощью алгоритма Non-Maximum Suppression, что значительно упрощает процессы развертывания.
Почему стоит выбрать YOLO26?
- Скорость: до 43% более быстрое CPU по сравнению с предыдущими поколениями, достигнутое за счет удаления Distribution Focal Loss (DFL) и оптимизации выполнения графа.
- Стабильность: использует новый оптимизатор MuSGD, гибрид SGD Muon (вдохновленный обучением LLM), обеспечивающий стабильность обучения большими партиями для задач визуального восприятия.
- Точность: функции ProgLoss + STAL, которые значительно улучшают распознавание мелких объектов, что является распространенной проблемой при анализе спутниковых изображений.
Разработчикам, начинающим сегодня новые проекты, настоятельно YOLO11 оценить YOLO26 наряду с YOLO11 , чтобы обеспечить будущую совместимость своих приложений.
Заключение
YOLOv9 YOLO11 важные вехи в истории обнаружения объектов. YOLOv9 существенные теоретические улучшения в области сохранения информации в глубоких сетях. Однако YOLO11 (и более новая версия YOLO26) в целом предлагает более практичный пакет для большинства пользователей благодаря интегрированной Ultralytics , превосходному соотношению скорости и точности, а также простоте развертывания.
Используя Ultralytics , разработчики могут легко экспериментировать с обеими моделями, сравнивать их производительность на пользовательских наборах данных и всего за несколько кликов внедрять наиболее эффективную модель в производство.
Дополнительная литература
- Сравнение моделей: посмотрите, как эти модели соотносятся с YOLOv8 и RT-DETR.
- Управление данными: узнайте, как эффективно аннотировать данные для этих моделей с помощью Ultralytics .
- Развертывание: изучите руководства по экспорту моделей в TensorRT для максимальной GPU .