YOLOv9 против YOLOv10: Технический глубокий анализ эволюции обнаружения объектов в реальном времени
Ландшафт компьютерного зрения в реальном времени претерпел огромные достижения, в значительной степени благодаря исследователям, постоянно расширяющим границы производительности и эффективности. При анализе эволюции передовых моделей зрения YOLOv9 и YOLOv10 представляют собой две критические вехи. Выпущенные в начале 2024 года, обе модели представили парадигмально меняющие архитектурные решения для решения давних проблем в глубоких нейронных сетях, от информационных узких мест до задержки постобработки.
Этот всесторонний технический обзор исследует их архитектуры, метрики производительности и идеальные сценарии развертывания, помогая вам ориентироваться в сложностях современных экосистем обнаружения объектов.
Истоки модели и архитектурные прорывы
Понимание происхождения и теоретических основ этих моделей крайне важно для выбора правильной архитектуры для вашего конкретного проекта в области компьютерного зрения.
YOLOv9: Освоение информационного потока
Представленный 21 февраля 2024 года, YOLOv9 решает теоретическую проблему потери информации по мере прохождения данных через глубокие нейронные сети.
- Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
- Организация:Институт информатики, Academia Sinica, Тайвань
- Ссылка:Статья YOLOv9 на arXiv
- Репозиторий:YOLOv9 GitHub
YOLOv9 представляет Generalized Efficient Layer Aggregation Network (GELAN), которая максимизирует использование параметров, объединяя преимущества CSPNet и ELAN. Кроме того, он использует Programmable Gradient Information (PGI) — вспомогательный механизм обучения с учителем, обеспечивающий сохранение глубокими слоями критически важной пространственной информации. Это делает YOLOv9 исключительно мощным для задач, требующих высокой точности признаков, таких как анализ медицинских изображений или удаленное наблюдение.
YOLOv10: Сквозная эффективность в реальном времени
Выпущенный вскоре после этого, 23 мая 2024 года, YOLOv10 переосмысливает конвейер развертывания, устраняя одно из самых известных узких мест задержки в обнаружении объектов: Non-Maximum Suppression (NMS).
- Авторы: Ao Wang, Hui Chen, Lihao Liu, и др.
- Организация:Университет Цинхуа
- Ссылка:Статья YOLOv10 на arXiv
- Репозиторий:YOLOv10 GitHub
YOLOv10 использует согласованные двойные назначения во время обучения, что обеспечивает нативную архитектуру без NMS. Это устраняет накладные расходы на постобработку во время вывода, значительно снижая задержку. В сочетании с комплексным подходом к проектированию модели, ориентированным на эффективность и точность, YOLOv10 достигает выдающегося баланса, снижая вычислительные затраты (FLOPs) при сохранении конкурентоспособной точности, что делает его весьма привлекательным для приложений периферийных вычислений.
Сравнение производительности и метрик
При бенчмаркинге этих двух мощных систем на стандартном наборе данных MS COCO выявляются явные компромиссы между чистой точностью и задержкой инференса.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Анализ данных
- Задержка против точности: Модели YOLOv10 обычно обеспечивают превосходную скорость инференса. Например, YOLOv10s достигает 46.7% mAP всего за 2.66 мс на TensorRT, по сравнению с YOLOv9s, которому требуется 3.54 мс для почти идентичного 46.8% mAP.
- Высочайшая точность: Для исследовательских сценариев, требующих максимальной точности detect, YOLOv9e остается мощным выбором, достигая впечатляющих 55.6% mAP. Его архитектура PGI обеспечивает надежное извлечение тонких признаков.
- Эффективность: YOLOv10 превосходит по эффективности FLOPs. Это напрямую приводит к снижению энергопотребления, что является критически важным показателем для устройств с батарейным питанием, работающих с моделями компьютерного зрения на базе ИИ.
Совет по развертыванию
Если вы развертываете на CPU или периферийном оборудовании с ограниченными ресурсами, таком как Raspberry Pi, архитектура YOLOv10 без NMS обычно обеспечивает более плавный конвейер за счет устранения недетерминированных этапов постобработки.
Преимущества Ultralytics: Обучение и экосистема
Хотя архитектурные различия критичны, окружающая программная экосистема в значительной степени определяет успех проекта. Обе модели, YOLOv9 и YOLOv10, полностью интегрированы в экосистему Ultralytics, обеспечивая беспрецедентный опыт для разработчиков.
Простота использования и эффективность использования памяти
В отличие от сложных архитектур на основе трансформеров, страдающих от чрезмерного потребления памяти, модели Ultralytics YOLO разработаны для оптимального использования памяти GPU. Это позволяет исследователям использовать большие размеры пакетов на потребительском оборудовании, делая передовой ИИ доступным.
Унифицированный Python API абстрагирует сложности аугментации данных и настройки гиперпараметров. Вы можете беспрепятственно переключаться между архитектурами, просто изменив строку файла весов.
from ultralytics import YOLO
# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Validate the model's performance
metrics = model.val()
# Export the trained model to ONNX format for deployment
model.export(format="onnx")
Независимо от того, нужно ли вам регистрировать метрики в MLflow или экспортировать в TensorRT для высокоскоростного аппаратного развертывания, платформа Ultralytics поддерживает это нативно.
Идеальные варианты использования
Выбор между этими моделями зависит от ограничений вашего развертывания:
- Выбирайте YOLOv9, если: Вы работаете над задачами обнаружения мелких объектов, такими как аэрофотоснимки с дронов или обнаружение мелких опухолей, где сохранение признаков архитектурой GELAN обеспечивает высочайшую точность.
- Выбирайте YOLOv10, если: Ваша основная цель — инференс в реальном времени на периферийных устройствах. NMS-free архитектура делает его идеальным для автономной робототехники, мониторинга трафика в реальном времени и интеллектуального видеонаблюдения.
Перспективы на будущее: Переход к YOLO26
Хотя YOLOv8, YOLOv9 и YOLOv10 являются отличными моделями, разработчикам, стремящимся создавать современные ИИ-решения, следует рассмотреть Ultralytics YOLO26, выпущенный в январе 2026 года.
YOLO26 представляет собой высший синтез предыдущих поколений, объединяя лучшие аспекты точности YOLOv9 и эффективности YOLOv10.
Ключевые инновации YOLO26
- Сквозная архитектура без NMS: Основываясь на принципах, заложенных YOLOv10, YOLO26 изначально исключает постобработку NMS для упрощения развертывания.
- Оптимизатор MuSGD: Гибрид SGD и Muon, переносящий передовые инновации в обучении LLM в компьютерное зрение для невероятно стабильной и быстрой сходимости.
- До 43% более быстрый инференс на CPU: Специально оптимизирован для периферийных вычислений и устройств без выделенных GPU.
- Удаление DFL: Distribution Focal Loss была удалена для упрощения экспорта модели и повышения совместимости с маломощными устройствами.
- ProgLoss + STAL: Эти улучшенные функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, соответствуя или превосходя возможности YOLOv9.
Для исследователей, оценивающих устаревшие архитектуры, RT-DETR и YOLO11 также являются хорошо задокументированными альтернативами в экосистеме Ultralytics. Однако для максимальной универсальности во всех задачах компьютерного зрения переход на YOLO26 на платформе Ultralytics гарантирует использование вершины открытого ИИ в области зрения.