YOLOv9 против YOLOv10: технический глубокий анализ эволюции обнаружения объектов в реальном времени

Сфера компьютерного зрения в реальном времени претерпела значительные изменения, что во многом обусловлено исследователями, которые постоянно расширяют границы производительности и эффективности. При анализе эволюции современных моделей компьютерного зрения YOLOv9 и YOLOv10 представляют собой две важные вехи. Обе модели, выпущенные в начале 2024 года, предложили архитектурные решения, меняющие парадигму и направленные на решение давних проблем глубоких нейронных сетей — от «узких мест» в передаче информации до задержек при постобработке.

Это всестороннее техническое сравнение рассматривает их архитектуры, показатели производительности и идеальные сценарии развертывания, помогая тебе ориентироваться в сложностях современных экосистем обнаружения объектов.

Происхождение моделей и архитектурные прорывы

Понимание истории создания и теоретических основ этих моделей критически важно для выбора подходящей архитектуры для твоего проекта по компьютерному зрению.

YOLOv9: освоение потока информации

Представленная 21 февраля 2024 года, YOLOv9 решает теоретическую проблему потери информации при прохождении данных через глубокие нейронные сети.

YOLOv9 представляет Generalized Efficient Layer Aggregation Network (GELAN), которая максимизирует использование параметров, объединяя сильные стороны CSPNet и ELAN. Кроме того, она использует Programmable Gradient Information (PGI) — механизм вспомогательного контроля, гарантирующий сохранение критически важной пространственной информации глубокими слоями. Это делает YOLOv9 исключительно мощной для задач, требующих высокой точности передачи признаков, таких как анализ медицинских изображений или дистанционное наблюдение.

Узнай больше о YOLOv9

YOLOv10: эффективность «от конца до конца» в реальном времени

Выпущенная вскоре после этого, 23 мая 2024 года, YOLOv10 переосмысливает конвейер развертывания, устраняя одно из самых известных «узких мест» задержки при обнаружении объектов: немаксимальное подавление (NMS).

YOLOv10 использует согласованные двойные назначения во время обучения, что обеспечивает архитектуру, изначально не требующую NMS. Это устраняет накладные расходы на постобработку при выводе, значительно снижая задержку. В сочетании с целостным дизайном модели, ориентированным на баланс эффективности и точности, YOLOv10 достигает выдающихся результатов, снижая вычислительные затраты (FLOPs) при сохранении конкурентоспособной точности, что делает ее крайне привлекательной для задач периферийных вычислений.

Узнать больше о YOLOv10

Сравнение производительности и метрик

При сравнении этих двух мощных систем на стандартном наборе данных MS COCO проявляются четкие компромиссы между чистой точностью и задержкой вывода.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Анализ данных

  1. Задержка против точности: Модели YOLOv10 в целом обеспечивают превосходную скорость вывода. Например, YOLOv10s достигает 46,7% mAP всего за 2,66 мс на TensorRT, по сравнению с YOLOv9s, которой требуется 3,54 мс для практически идентичного показателя 46,8% mAP.
  2. Высочайшая точность: Для исследовательских сценариев, требующих максимальной точности обнаружения, YOLOv9e остается грозным выбором, достигая впечатляющих 55,6% mAP. Ее архитектура PGI гарантирует надежное извлечение даже малозаметных признаков.
  3. Эффективность: YOLOv10 превосходит аналоги в эффективности FLOPs. Это напрямую приводит к снижению энергопотребления, что является критически важным показателем для устройств с питанием от батареи, использующих модели ИИ для компьютерного зрения.
Совет по развертыванию

Если ты развертываешь модели на CPU или аппаратном обеспечении с ограниченными ресурсами, например на Raspberry Pi, архитектура YOLOv10 без использования NMS обычно обеспечивает более плавный конвейер за счет устранения недетерминированных этапов постобработки.

Преимущество Ultralytics: обучение и экосистема

Хотя архитектурные различия имеют решающее значение, окружающая программная экосистема во многом определяет успех проекта. И YOLOv9, и YOLOv10 полностью интегрированы в экосистему Ultralytics, обеспечивая непревзойденный опыт для разработчика.

Простота использования и эффективность памяти

В отличие от сложных архитектур на основе Transformer, которые страдают от огромного потребления памяти, модели Ultralytics YOLO разработаны для оптимального использования памяти GPU. Это позволяет исследователям использовать большие размеры пакетов (batch sizes) на потребительском оборудовании, делая передовой ИИ более доступным.

Единый API на Python абстрагирует сложности аугментации данных и настройки гиперпараметров. Ты можешь легко переключаться между архитектурами, просто меняя строку файла весов.

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Нужно ли тебе регистрировать метрики в MLflow или экспортировать модель в TensorRT для быстрого аппаратного развертывания — платформа Ultralytics поддерживает это «из коробки».

Идеальные сценарии использования

Выбор между этими моделями зависит от ограничений твоего развертывания:

Задел на будущее: переход к YOLO26

Хотя YOLOv8, YOLOv9 и YOLOv10 — отличные модели, разработчикам, стремящимся создавать современные ИИ-решения, стоит рассмотреть Ultralytics YOLO26, выпущенную в январе 2026 года.

YOLO26 представляет собой конечный синтез предыдущих поколений, объединяя лучшие аспекты точности YOLOv9 и эффективности YOLOv10.

Ключевые инновации YOLO26

  • Сквозной дизайн без NMS: Основываясь на наработках YOLOv10, YOLO26 изначально исключает постобработку NMS для более простого развертывания.
  • Оптимизатор MuSGD: Гибрид SGD и Muon, привносящий передовые инновации обучения LLM в компьютерное зрение для невероятно стабильной и быстрой сходимости.
  • До 43% более быстрый вывод на CPU: Специально оптимизировано для периферийных вычислений и устройств без выделенных GPU.
  • Удаление DFL: Distribution Focal Loss была удалена, чтобы упростить экспорт моделей и повысить совместимость с маломощными устройствами.
  • ProgLoss + STAL: Эти улучшенные функции потерь привносят значительные улучшения в распознавание мелких объектов, сравниваясь с возможностями YOLOv9 или превосходя их.

Для исследователей, оценивающих устаревшие архитектуры, RT-DETR и YOLO11 также являются хорошо документированными альтернативами в экосистеме Ultralytics. Однако для максимальной универсальности во всех задачах компьютерного зрения переход на YOLO26 на платформе Ultralytics гарантирует, что ты используешь вершину возможностей open-source ИИ для зрения.

Комментарии