YOLOv9 vs. YOLO11: Глубокий технический анализ современной детекции объектов
Быстрое развитие компьютерного зрения постоянно расширяет границы возможного в области обнаружения объектов в реальном времени. При сравнении ведущих архитектур YOLOv9 и Ultralytics YOLO11 выделяются как монументальные прорывы, каждый из которых служит своим уникальным техническим потребностям. YOLOv9 представил новые способы сохранения потока градиентов во время обучения глубоких сетей, в то время как YOLO11 произвел революцию в экосистеме универсального зрения благодаря беспрецедентной эффективности, универсальности и простоте использования.
Это всеобъемлющее техническое сравнение анализирует их архитектуры, метрики производительности, требования к памяти и идеальные сценарии развертывания, чтобы помочь вам выбрать оптимальную модель для вашего следующего проекта в области ИИ.
Подготовьте ваш проект к будущему с YOLO26
Хотя YOLOv9 и YOLO11 являются отличными моделями, недавно выпущенный YOLO26 представляет собой следующий шаг вперед. Он имеет сквозную NMS-free архитектуру для упрощенного развертывания, до 43% более быструю инференцию на CPU и инновационный оптимизатор MuSGD для быстрой сходимости. Для всех новых производственных проектов YOLO26 настоятельно рекомендуется.
Технические характеристики и авторство
Понимание происхождения этих моделей обеспечивает важный контекст для их архитектурных решений и зависимостей от фреймворков.
YOLOv9
YOLOv9 привнес сильный академический акцент на информационные узкие места глубокого обучения, уделяя первостепенное внимание максимальной точности признаков за счет пользовательских сетевых блоков.
- Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
- Организация:Институт информатики, Academia Sinica
- Дата: 21 февраля 2024 г.
- Arxiv:https://arxiv.org/abs/2402.13616
- GitHub:https://github.com/WongKinYiu/yolov9
Ultralytics YOLO11
YOLO11 был разработан с нуля для производственных сред, с акцентом на баланс между высочайшей точностью, скоростью развертывания в реальных условиях и многозадачной универсальностью.
- Авторы: Гленн Джочер и Цзин Цю
- Организация:Ultralytics
- Дата: 27 сентября 2024 г.
- GitHub:https://github.com/ultralytics/ultralytics
Архитектурные инновации
Программируемая градиентная информация в YOLOv9
YOLOv9 представляет концепцию Programmable Gradient Information (PGI) наряду с Generalized Efficient Layer Aggregation Network (GELAN). По мере углубления нейронных сетей они часто страдают от информационных узких мест, когда критически важные детали теряются в процессе прямого распространения. PGI решает эту проблему, предоставляя надежные обновления градиентов, которые сохраняют детальную пространственную информацию, в то время как GELAN максимизирует эффективность параметров. Это делает YOLOv9 особенно подходящим для задач, требующих высокой точности признаков, хотя он полагается на стандартное Non-Maximum Suppression (NMS) во время постобработки, что может вызывать задержки на периферийных устройствах.
Оптимизированная эффективность в YOLO11
YOLO11 основана на многолетних фундаментальных исследованиях для создания высокооптимизированной архитектуры. Она превосходит предыдущие итерации, снижая вычислительные затраты при максимизации извлечения признаков. В отличие от традиционных конвейеров NMS, которые ограничивают производительность CPU, YOLO11 использует усовершенствованные головы обнаружения, достигающие невероятного баланса между задержкой и точностью. Кроме того, YOLO11 отличается изначально более низким потреблением памяти как во время обучения модели, так и во время инференса по сравнению с тяжелыми Transformer моделями, которые часто обучаются медленнее и требуют огромных объемов памяти CUDA.
Сравнение метрик производительности
При сравнении этих моделей на стандартном наборе данных COCO обе демонстрируют невероятные возможности, но проявляются компромиссы между общим количеством параметров и скоростью работы.
Ниже представлен подробный анализ метрик производительности YOLO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Анализ результатов
- Скорость и аппаратная эффективность: YOLO11 стабильно превосходит YOLOv9 по скорости вывода. Например, YOLO11n достигает поразительных 1,5 мс на NVIDIA T4 GPU с использованием TensorRT, что делает его чрезвычайно жизнеспособным для строгих конвейеров реального времени.
- Вычислительные требования: Модели YOLO11 обычно требуют меньше FLOPs (например, 68.0B для YOLO11m против 76.3B для YOLOv9m), что приводит к меньшему энергопотреблению на периферийных устройствах с батарейным питанием, таких как Raspberry Pi или мобильное оборудование.
- Паритет точности: Хотя YOLOv9e немного превосходит YOLO11x по абсолютному mAP (55,6 против 54,7), YOLO11 достигает пиковой точности со значительно меньшей задержкой (11,3 мс против 16,77 мс), демонстрируя более выгодный баланс производительности для реальных развертываний.
Экосистема и простота использования
Хотя сырые метрики важны, экосистема фреймворка часто определяет успех проекта. Именно здесь преимущество Ultralytics по-настоящему проявляется.
Оригинальный репозиторий YOLOv9 является узкоспециализированным, предлагая передовую исследовательскую реализацию. Однако платформа Ultralytics и соответствующий ей пакет с открытым исходным кодом предлагают упрощенный пользовательский опыт, простой API и обширную документацию, что значительно сокращает время выхода на рынок.
Многозадачная универсальность
YOLOv9 преимущественно ориентирован на detect ограничивающих рамок. В отличие от него, YOLO11 представляет собой унифицированный многозадачный инструмент, нативно поддерживающий:
- Сегментация экземпляров
- Оценка позы
- Ориентированные ограничивающие рамки (OBB)
- Классификация изображений
Простое развертывание
Использование экосистемы Ultralytics позволяет разработчикам бесшовно экспортировать модели в множество форматов с помощью одной строки кода на Python. Будь то ONNX, OpenVINO, TFLite или CoreML, переход от обучения к производству не требует усилий.
from ultralytics import YOLO
# Load a highly efficient YOLO11 model
model = YOLO("yolo11n.pt")
# Train rapidly on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to OpenVINO for Intel CPU acceleration
model.export(format="openvino")
Идеальные варианты использования
Когда применять YOLOv9
YOLOv9 — это фантастический инструмент для исследовательских сред или сценариев, где приоритетом является исключительная точность признаков, а задержка оборудования не является основным ограничением. Его архитектура GELAN может быть очень выгодной в анализе медицинских изображений, где detect мельчайших пиксельных вариаций имеет решающее значение.
Почему YOLO11 — лучший выбор
Для разработчиков, инженеров и производственных команд настоятельно рекомендуется YOLO11. Он превосходно работает в средах, требующих высокоскоростного, масштабируемого развертывания:
- Аналитика умной розничной торговли: Бесшовное отслеживание товаров и клиентов с использованием стандартных процессоров Intel.
- Автономные дроны: Где архитектуры с низким количеством операций (FLOPs) сохраняют заряд батареи, при этом обеспечивая надежное обнаружение мелких объектов.
- Динамические проекты: Рабочие процессы, которые могут начинаться с detect, но затем требуют оценки позы или segmentation.
Взгляд в будущее: Следующая эволюция
Хотя YOLO11 представляет собой состояние искусства для своего поколения, ландшафт компьютерного зрения продолжает развиваться. Пользователям, исследующим границы ИИ, также следует обратить внимание на YOLO26.
Внедряя сквозную безальтернативную архитектуру NMS, впервые исследованную в YOLOv10, YOLO26 представляет оптимизатор MuSGD (гибрид SGD и Muon) для беспрецедентной стабильности обучения. Благодаря удалению Distribution Focal Loss (DFL) для упрощения экспорта и передовым механизмам потерь, таким как ProgLoss и STAL, YOLO26 обеспечивает до 43% более быструю инференцию на CPU. Для современных проектов он предлагает идеальное сочетание академических инноваций и готовности к производственному использованию. Кроме того, команды, переходящие с устаревших систем, таких как Ultralytics YOLOv8, обнаружат, что переход на YOLO26 или YOLO11 будет абсолютно беспроблемным благодаря унифицированному API Ultralytics.