Перейти к содержанию

YOLO11 YOLOv9: подробное изучение архитектуры и производительности

Выбор правильной модели обнаружения объектов — это важное решение, которое влияет на скорость, точность и масштабируемость ваших приложений компьютерного зрения. В этом руководстве представлено всестороннее техническое сравнение между YOLO11, мощной итерацией от Ultralytics, и YOLOv9, архитектурой, известной своей программируемой градиентной информацией (PGI).

Обе модели представляют собой значительный шаг вперед в истории моделей зрения, однако они удовлетворяют несколько разные потребности в сфере разработки искусственного интеллекта.

Обзор модели

YOLO11

YOLO11 основан на надежной Ultralytics , обеспечивающей оптимальный баланс между вычислительной эффективностью и точностью обнаружения. Он разработан как универсальная, готовая к производству модель, которая легко интегрируется в современные рабочие процессы MLOps.

  • Авторы: Гленн Джочер и Цзин Цю
  • Организация:Ultralytics
  • Дата: сентябрь 2024 г.
  • Основные преимущества: скорость в реальном времени, простота использования, широкая поддержка задач (обнаружение, сегментация, классификация, поза, OBB).

Узнайте больше о YOLO11

YOLOv9

YOLOv9 представил новые концепции, такие как GELAN (Generalized Efficient Layer Aggregation Network) и PGI, для решения проблемы потери информации в глубоких сетях. Хотя он достигает высокой точности на академических тестах, для обучения часто требует больше вычислительных ресурсов.

  • Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
  • Организация: Institute of Information Science, Academia Sinica, Taiwan
  • Дата: февраль 2024 г.
  • Фокус: Максимизация эффективности параметров и уменьшение информационного узкого места в глубоких CNN.

Узнайте больше о YOLOv9

Анализ производительности

При оценке этих моделей необходимо учитывать компромисс между задержкой (скоростью) и mAP (точность) имеет первостепенное значение. Ultralytics оптимизировали YOLO11 обеспечения превосходной пропускной способности как на периферийных устройствах, так и на графических процессорах.

Сравнение ключевых показателей

В следующей таблице показаны различия в производительности на COCO . Обратите внимание, что YOLO11 сопоставимой или более высокой точности при значительно меньшей задержке, что является критическим фактором для приложений, требующих вывода в реальном времени.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Интерпретация данных

Хотя YOLOv9e поднимает верхний предел точности (55,6% mAP), это достигается за счет значительного снижения скорости (16,77 мс против 11,3 мс для YOLO11x). Для большинства коммерческих приложений YOLO11 представляет собой более практичный «золотой середины», обеспечивая высокую точность при скорости, достаточной для обработки видеопотоков с высокой частотой кадров.

Архитектурные различия

Фундаментальное различие заключается в их философии проектирования. YOLOv9 на глубоких теоретических усовершенствованиях градиентного потока, в то время как YOLO11 на практической инженерии для развертывания и универсальности.

YOLOv9: PGI и GELAN

YOLOv9 программируемую градиентную информацию (PGI) для предотвращения потери семантической информации при прохождении данных через глубокие слои. По сути, она обеспечивает вспомогательную ветвь контроля во время обучения, которая удаляется во время вывода. В сочетании с архитектурой GELAN это позволяет модели быть легкой, но точной. Это делает ее интересной темой для тех, кто изучает поиск нейронных архитектур и градиентный поток.

YOLO11: Усовершенствованные C3k2 и C2PSA

YOLO11 блок C3k2, усовершенствованную версию узкого места CSP, использовавшегося в предыдущих итерациях, оптимизированную для GPU . Он также включает C2PSA (Cross-Stage Partial with Spatial Attention), который улучшает способность модели фокусироваться на критических особенностях в сложных сценах. Эта архитектура специально настроена для уменьшения FLOP без ущерба для возможностей извлечения особенностей, что приводит к впечатляющим показателям скорости, представленным выше.

Эффективность обучения и экосистема

Одним из наиболее значительных преимуществ выбора Ultralytics является окружающая экосистема.

Простота использования и документация

Для обучения YOLO11 минимальный объем шаблонного кода.Python Ultralytics стандартизирует этот процесс, делая его доступным даже для начинающих. В отличие от этого, хотя YOLOv9 , его нативная реализация может потребовать более сложных конфигурационных файлов и ручной настройки.

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 with just one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Требования к памяти

Ultralytics славятся своей эффективностью использования памяти. YOLO11 оптимизирована для обучения на потребительском оборудовании с ограниченной CUDA . Это явное преимущество по сравнению со многими моделями на основе трансформаторов или более старыми архитектурами, которые страдают от перегрузки памяти во время этапов обратного распространения.

Универсальность в различных задачах

В то время как YOLOv9 в первую очередь YOLOv9 детектором объектов, YOLO11 является многозадачным мощным инструментом. В рамках одной и той же структуры вы можете легко переключаться между:

Будущее искусственного интеллекта в области зрения: YOLO26

Для разработчиков, стремящихся к абсолютному передовому уровню, Ultralytics YOLO26. Эта модель представляет собой следующее поколение искусственного интеллекта в области зрения, в котором учтены уроки, извлеченные из YOLO11 YOLOv10.

YOLO26 отличается встроенной сквозной конструкцией NMS, что исключает необходимость в постобработке с помощью Non-Maximum Suppression. Это обеспечивает более быстрое выведение и упрощает процессы развертывания. В нем также используется оптимизатор MuSGD, гибрид SGD Muon, который обеспечивает стабильную динамику обучения, аналогичную той, что наблюдается при обучении Large Language Model (LLM). Благодаря оптимизированным функциям потерь, таким как ProgLoss + STAL, YOLO26 превосходно справляется с обнаружением небольших объектов, что делает его лучшим выбором для 2026 года и далее.

Узнайте больше о YOLO26

Идеальные варианты использования

Когда выбирать YOLOv9

  • Академические исследования: отлично подходит для изучения теоретических пределов сохранения информации CNN и программирования градиента.
  • Анализ статических изображений: в таких сценариях, как медицинская визуализация (например, обнаружение опухолей), где скорость вывода заключений является второстепенной по сравнению с извлечением максимальной детализации из одного кадра.

Когда следует выбирать YOLO11

  • Развертывание Edge AI: идеально подходит для устройств, таких как Raspberry Pi или NVIDIA , где TFLite форматы экспорта, такие как TensorRT TFLite .
  • Коммерческое производство: для аналитики розничной торговли, мониторинга «умных» городов или контроля качества производства, где надежность, скорость и поддержка имеют решающее значение.
  • Сложные конвейеры: когда ваше приложение требует выполнения нескольких задач машинного зрения (например, обнаружение человека и оценка его позы) с использованием единого API.

Заключение

YOLO11 YOLOv9 исключительные инструменты в арсенале инженера по компьютерному зрению. Однако для большинства реальных приложений YOLO11 (и более новая версия YOLO26) предлагает превосходный баланс скорости, точности и удобства для разработчиков. Благодаря активному Ultralytics и частым обновлениям, он гарантирует, что ваши проекты останутся актуальными и эффективными в будущем.

Для более глубокого изучения вам также может быть интересно сравнить эти модели с RT-DETR для обнаружения на основе трансформаторов или изучить облегченную версию YOLOv10 .


Комментарии