Перейти к содержанию

YOLOv9 vs. YOLOv8: Глубокий технический анализ современной детекции объектов

Ландшафт компьютерного зрения в реальном времени значительно развился за последние несколько лет, каждая новая модель расширяет теоретические границы возможного как на периферийных устройствах, так и на облачных серверах. При сравнении новой архитектуры YOLOv9 с очень популярным фреймворком Ultralytics YOLOv8 разработчики часто сталкиваются с выбором между передовыми теоретическими градиентными путями и тщательно проверенной, готовой к производству экосистемой.

Это всеобъемлющее руководство сопоставляет эти два мощных решения, анализируя их архитектурные инновации, метрики производительности и идеальные сценарии развертывания, чтобы помочь вам выбрать правильную модель для вашего следующего проекта в области искусственного интеллекта.

Технические характеристики и авторство

Понимание происхождения этих моделей обеспечивает важный контекст для их соответствующих проектных решений.

YOLOv9 Разработанный Чэнь-Яо Ван и Хун-Юань Марком Ляо в Институте информатики, Academia Sinica, Тайвань, YOLOv9 был выпущен 21 февраля 2024 года. Основное исследование сосредоточено на решении проблемы информационного узкого места в глубоких нейронных сетях. Вы можете ознакомиться с оригинальной исследовательской статьей YOLOv9 на Arxiv или просмотреть исходный код в официальном репозитории YOLOv9 на GitHub.

Узнайте больше о YOLOv9

Ultralytics YOLOv8 Разработанный Гленном Джочером, Аюшем Чаурасией и Цзин Цю в Ultralytics, YOLOv8 был запущен 10 января 2023 года. Он зарекомендовал себя как отраслевой стандарт универсальности, предлагая унифицированный API для огромного разнообразия задач компьютерного зрения. Исходный код поддерживается в основном репозитории Ultralytics на GitHub, обеспечивая непрерывные обновления и долгосрочную стабильность.

Узнайте больше о YOLOv8

Архитектурные инновации

YOLOv9: Программируемая градиентная информация

Отличительной особенностью YOLOv9 является внедрение программируемой градиентной информации (PGI) и обобщенной эффективной сети агрегации слоев (GELAN). По мере углубления сверточных нейронных сетей они обычно теряют критически важную информацию о признаках в процессе прямого распространения. PGI решает эту проблему узкого места информации, сохраняя точные градиенты, используемые для обновления весов, что обеспечивает надежное извлечение признаков. Эта архитектура максимизирует эффективность параметров, позволяя YOLOv9 достигать высокой точности при меньшем количестве операций с плавающей запятой (FLOPs).

YOLOv8: Универсальная рабочая лошадка

YOLOv8 представил оптимизированный безъякорный механизм обнаружения, который сокращает количество предсказаний ограничивающих рамок и ускоряет Non-Maximum Suppression (NMS) во время постобработки. Его модуль C2f (Cross-Stage Partial Bottleneck с двумя свертками) улучшает поток градиентов по сети по сравнению со старыми моделями. Что более важно, YOLOv8 был разработан с учетом универсальности, нативно поддерживая обнаружение объектов, сегментацию экземпляров, оценку позы, классификацию изображений и извлечение ориентированных ограничивающих рамок (OBB) из коробки.

Интеграция в экосистему

Хотя YOLOv9 предлагает исключительные метрики raw detect, нативная интеграция его в сложные конвейеры может быть сложной задачей. Использование YOLOv9 через фреймворк Ultralytics устраняет этот пробел, предоставляя доступ к нашим надёжным инструментам экспорта и развертывания.

Баланс производительности и бенчмарки

Компромисс между скоростью и точностью является наиболее критическим фактором при развертывании моделей компьютерного зрения. Ниже представлено подробное сравнение размеров моделей, задержки и средней средней точности, оцененных на стандартном наборе данных COCO.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

При анализе метрик YOLOv9 демонстрирует выдающееся соотношение параметров к точности. Модель YOLOv9c достигает впечатляющего показателя mAP в 53,0% при использовании всего 25,3 млн параметров. Однако YOLOv8 сохраняет значительное преимущество в требованиях к памяти и скорости инференса на аппаратных ускорителях, особенно вариант YOLOv8n, который показывает время в 1,47 мс на установке NVIDIA TensorRT.

Преимущество экосистемы Ultralytics

Важным фактором при выборе архитектуры является простота использования и окружающая программная экосистема. Управление зависимостями, написание пользовательских загрузчиков данных и обработка сложных скриптов экспорта могут замедлить разработку. Интегрированная экосистема Ultralytics устраняет эти сложности.

Независимо от того, выбираете ли вы YOLOv8 или YOLOv9 (которая полностью поддерживается в библиотеке Ultralytics), вы получаете преимущества от унифицированного API, автоматических методов аугментации данных и упрощенного экспорта в формат ONNX. Кроме того, архитектуры Ultralytics обычно отличаются высокооптимизированной эффективностью обучения, избегая массивного раздувания памяти CUDA, обычно связанного с большими моделями на основе трансформеров.

Пример кода для обучения

Обучение любой из моделей с использованием API python не представляет сложности и требует всего нескольких строк кода.

from ultralytics import YOLO

# Load the preferred model (swap 'yolov9c.pt' with 'yolov8n.pt' as needed)
model = YOLO("yolov8n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance metrics
metrics = model.val()

# Export to ONNX for production deployment
model.export(format="onnx")

Сценарии использования и рекомендации

Выбор между YOLOv9 и YOLOv8 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбирать YOLOv9

YOLOv9 — отличный выбор для:

  • Исследования информационного узкого места: Академические проекты, изучающие архитектуры Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
  • Исследования по оптимизации потока градиентов: Исследования, направленные на понимание и снижение потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинг обнаружения с высокой точностью: Сценарии, где высокая производительность YOLOv9 в бенчмарке COCO необходима в качестве эталонной точки для архитектурных сравнений.

Когда выбирать YOLOv8

YOLOv8 рекомендуется для:

  • Универсальное многозадачное развертывание: Проекты, требующие проверенной модели для обнаружения, сегментации, классификации и оценки позы в экосистеме Ultralytics.
  • Устоявшиеся производственные системы: Существующие производственные среды, уже построенные на архитектуре YOLOv8 со стабильными, хорошо протестированными конвейерами развертывания.
  • Широкая поддержка сообщества и экосистемы: Приложения, использующие обширные учебные пособия, сторонние интеграции и активные ресурсы сообщества YOLOv8.

Когда выбирать Ultralytics (YOLO26)

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Взгляд в будущее: Появление YOLO26

Хотя YOLOv8 и YOLOv9 невероятно функциональны, ландшафт компьютерного зрения быстро меняется. Для современных развертываний мы настоятельно рекомендуем использовать Ultralytics YOLO26, выпущенную в январе 2026 года.

YOLO26 представляет собой смену парадигмы в работе детекторов объектов в производственной среде. Он характеризуется нативной сквозной архитектурой без NMS, эффективно устраняя задержку и недетерминированное поведение постобработки. Для лучшей поддержки периферийных и маломощных аппаратных средств YOLO26 включает полную ликвидацию DFL (Distribution Focal Loss), что значительно упрощает экспорт для мобильных устройств.

Кроме того, YOLO26 использует новаторский оптимизатор MuSGD, гибрид SGD и Muon, который обеспечивает стабильность обучения на уровне LLM для задач компьютерного зрения, что приводит к значительно более быстрой сходимости. Благодаря ускорению вывода на CPU до 43% и интеграции ProgLoss + STAL для значительно улучшенного распознавания мелких объектов, YOLO26 является бесспорным выбором для новых корпоративных инициатив.

Узнайте больше о YOLO26

Альтернативные архитектуры

В зависимости от ограничений вашего оборудования, вы также можете быть заинтересованы в сравнении этих моделей с Ultralytics YOLO11 для сбалансированных задач общего назначения, или в изучении моделей на основе трансформеров, таких как RT-DETR, для специализированных высокоточных исследований.

Реальные приложения и варианты использования

Выбор между YOLOv8 и YOLOv9 во многом зависит от ограничений вашего проекта и целевого оборудования.

  • Здравоохранение и медицинская визуализация: Когда важен каждый пиксель, например, в системах обнаружения опухолей, архитектура GELAN в YOLOv9 исключительно хорошо сохраняет мелкие детали, снижая количество ложноотрицательных результатов при критически важных диагнозах.
  • Аналитика розничной торговли и запасов: Для интеллектуальных систем супермаркетов, отслеживающих плотно заполненные полки, YOLOv9 обеспечивает необходимый mAP для надежного разделения перекрывающихся объектов.
  • Умные города и мониторинг дорожного движения: В условиях динамичной логистики и управления дорожным движением сверхнизкая задержка и доказанная надежность YOLOv8 делают его идеальным для одновременного track транспортных средств по нескольким видеопотокам.
  • Развертывание на периферийных устройствах: При развертывании на ограниченных устройствах, таких как Raspberry Pi или мобильное оборудование, высокооптимизированные блоки C2f YOLOv8 (и оптимизации CPU YOLO26) обеспечивают гораздо более плавный и энергоэффективный конвейер вывода.

Комментарии