YOLOv9 против YOLO11: технический глубокий анализ современного обнаружения объектов
Стремительное развитие компьютерного зрения постоянно расширяет границы возможного в реальном времени в области обнаружения объектов. При сравнении ведущих архитектур YOLOv9 и Ultralytics YOLO11 выделяются как монументальные шаги вперед, каждый из которых отвечает своим техническим потребностям. YOLOv9 представил новые способы сохранения градиентного потока во время обучения глубоких сетей, в то время как YOLO11 произвел революцию в экосистеме зрения общего назначения благодаря непревзойденной эффективности, универсальности и простоте использования.
Этот всесторонний технический сравнительный анализ рассматривает их архитектуры, показатели производительности, требования к памяти и идеальные сценарии развертывания, чтобы помочь тебе выбрать оптимальную модель для твоего следующего AI-проекта.
Хотя YOLOv9 и YOLO11 — отличные модели, недавно выпущенная YOLO26 представляет собой следующий шаг вперед. Она отличается дизайном без NMS (end-to-end NMS-free) для упрощенного развертывания, ускорением инференса на CPU до 43% и инновационным оптимизатором MuSGD для быстрой сходимости. Для всех новых производственных проектов настоятельно рекомендуется YOLO26.
Технические характеристики и авторство
Понимание истории этих моделей дает необходимый контекст для их архитектурных решений и зависимостей от фреймворков.
YOLOv9
YOLOv9 внес сильный академический акцент на информационные узкие места в глубоком обучении, отдавая приоритет максимальной точности признаков с помощью пользовательских сетевых блоков.
- Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
- Организация: Institute of Information Science, Academia Sinica
- Дата: 21 февраля 2024 г.
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
Ultralytics YOLO11
YOLO11 была разработана с нуля для производственных сред, фокусируясь на балансе топовой точности, реальной скорости развертывания и многозадачной универсальности.
- Авторы: Гленн Джочер (Glenn Jocher) и Цзин Цю (Jing Qiu)
- Организация: Ultralytics
- Дата: 27 сентября 2024 г.
- GitHub: https://github.com/ultralytics/ultralytics
Архитектурные инновации
Программируемая градиентная информация в YOLOv9
YOLOv9 вводит концепцию программируемой градиентной информации (PGI) наряду с сетью Generalized Efficient Layer Aggregation Network (GELAN). По мере того как нейронные сети становятся глубже, они часто страдают от информационных узких мест, где критические детали теряются в процессе прямого прохода. PGI решает эту проблему, предоставляя надежные градиентные обновления, которые сохраняют мелкозернистую пространственную информацию, в то время как GELAN максимизирует эффективность параметров. Это делает YOLOv9 особенно подходящей для задач, требующих высокой точности признаков, хотя она полагается на стандартное подавление немаксимумов (NMS) при постобработке, что может вносить задержку на граничных устройствах (edge devices).
Оптимизированная эффективность в YOLO11
YOLO11 опирается на годы фундаментальных исследований для создания высокооптимизированной архитектуры. Она улучшает предыдущие итерации за счет снижения вычислительных затрат при одновременной максимизации извлечения признаков. В отличие от традиционных конвейеров NMS, которые замедляют работу CPU, YOLO11 использует уточненные детекционные головы, достигающие невероятного баланса между задержкой и точностью. Более того, YOLO11 обладает существенно меньшим потреблением памяти как во время обучения модели, так и при инференсе по сравнению с тяжелыми моделями Transformer, которые часто медленнее обучаются и требуют огромного количества памяти CUDA.
Сравнение показателей производительности
При сравнении этих моделей на стандартном датасете COCO обе демонстрируют невероятные возможности, но проявляются компромиссы между количеством параметров и скоростью работы.
Ниже представлен детальный разбор показателей производительности YOLO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Анализ результатов
- Скорость и аппаратная эффективность: YOLO11 стабильно превосходит YOLOv9 по скорости инференса. Например, YOLO11n достигает поразительных 1.5 мс на GPU NVIDIA T4 с использованием TensorRT, что делает ее невероятно жизнеспособной для жестких конвейеров реального времени.
- Вычислительные требования: Модели YOLO11 обычно требуют меньше FLOPs (например, 68.0B для YOLO11m против 76.3B для YOLOv9m), что выражается в меньшем энергопотреблении на устройствах с батарейным питанием, таких как Raspberry Pi или мобильное оборудование.
- Паритет точности: Хотя YOLOv9e немного превосходит YOLO11x по абсолютному mAP (55.6 против 54.7), YOLO11 достигает своей пиковой точности с существенно меньшей задержкой (11.3 мс против 16.77 мс), демонстрируя более выгодный баланс производительности для реальных развертываний.
Экосистема и простота использования
Хотя необработанные метрики важны, экосистема фреймворка часто определяет успех проекта. Именно здесь по-настоящему проявляется преимущество Ultralytics.
Оригинальный репозиторий YOLOv9 является узкоспециализированным и предлагает внедрение передовых исследований. Однако платформа Ultralytics и соответствующий пакет с открытым исходным кодом предлагают оптимизированный пользовательский опыт, простой API и обширную документацию, которые значительно сокращают время выхода на рынок.
Многозадачная универсальность
YOLOv9 фокусируется преимущественно на обнаружении ограничивающих рамок (bounding box). В отличие от нее, YOLO11 — это унифицированная многозадачная мощная система, нативно поддерживающая:
- Сегментацию экземпляров
- Оценку позы
- Ориентированные ограничивающие рамки (OBB)
- Классификацию изображений
Бесшовное развертывание
Использование экосистемы Ultralytics позволяет разработчикам легко экспортировать модели в множество форматов с помощью одной строки кода на Python. Будь то ONNX, OpenVINO, TFLite или CoreML, переход от обучения к производству происходит без усилий.
from ultralytics import YOLO
# Load a highly efficient YOLO11 model
model = YOLO("yolo11n.pt")
# Train rapidly on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to OpenVINO for Intel CPU acceleration
model.export(format="openvino")Идеальные сценарии использования
Когда использовать YOLOv9
YOLOv9 — фантастический инструмент для сред, ориентированных на исследования, или сценариев, где приоритетом является экстремальная точность признаков, а аппаратная задержка не является главным ограничением. Ее архитектура GELAN может быть крайне выгодна в анализе медицинских изображений, где критически важно обнаружение мельчайших вариаций пикселей.
Почему YOLO11 — лучший выбор
Для разработчиков, инженеров и производственных команд YOLO11 настоятельно рекомендуется. Она превосходна в средах, требующих высокоскоростного и масштабируемого развертывания:
- Умная розничная аналитика: Отслеживание продуктов и клиентов с использованием стандартных процессоров Intel.
- Автономные дроны: Где архитектуры с низким количеством FLOPs сохраняют заряд батареи, при этом обеспечивая надежное обнаружение малых объектов.
- Динамические проекты: Рабочие процессы, которые могут начинаться как обнаружение, но позже развиваться до необходимости оценки позы или сегментации.
Взгляд в будущее: Следующая эволюция
Хотя YOLO11 представляет собой современный уровень техники для своего поколения, ландшафт компьютерного зрения продолжает развиваться. Пользователям, исследующим границы AI, также стоит обратить внимание на YOLO26.
Пионерски используя дизайн без NMS (end-to-end NMS-free), впервые исследованный в YOLOv10, YOLO26 вводит оптимизатор MuSGD (гибрид SGD и Muon) для беспрецедентной стабильности обучения. Благодаря удалению функции Distribution Focal Loss (DFL) для упрощения экспорта и передовым механизмам потерь, таким как ProgLoss и STAL, YOLO26 достигает ускорения инференса на CPU до 43%. Для современных проектов она предлагает идеальное сочетание академических инноваций и готовности к производству. Более того, команды, обновляющие системы с таких устаревших решений, как Ultralytics YOLOv8, найдут переход на YOLO26 или YOLO11 абсолютно бесшовным благодаря унифицированному API Ultralytics.