Перейти к содержанию

YOLOv10 YOLOv9: прогресс в области обнаружения объектов в реальном времени

2024 год ознаменовался периодом быстрых инноваций в области обнаружения объектов, когда были выпущены две значимые архитектуры: YOLOv10 и YOLOv9. Хотя обе модели направлены на расширение границ скорости и точности, они достигают этого с помощью принципиально разных архитектурных концепций.

YOLOv10 на устранении задержки вывода, вызванной постобработкой, за счет конструкции NMS, тогда как YOLOv9 сохранении информации в глубоких сетях с помощью программируемой градиентной информации (PGI).

Сравнение производительности

В следующей таблице представлено подробное сравнение этих моделей по стандартным тестам. Данные показывают компромисс между эффективностью параметров, скоростью вывода и точностью обнаружения (mAP).

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

YOLOv10: Пионер сквозных решений

YOLOv10, разработанный исследователями из Университета Цинхуа, представляет собой переход к сквозной обработке. Выпущенный 23 мая 2024 года Ао Ван, Хуэй Чен и их коллегами, он устраняет узкое место, связанное с немаксимальным подавлением (NMS).

Узнайте больше о YOLOv10

Ключевые архитектурные особенности

  • ОбучениеNMS: благодаря использованию последовательных двойных заданий YOLOv10 необходимость в NMS вывода. Это сокращает задержку и упрощает процессы развертывания, особенно для приложений пограничного вычисления.
  • Комплексный дизайн эффективности: архитектура оптимизирует различные компоненты для снижения вычислительных затрат (FLOP) при сохранении высокой производительности.
  • Улучшенная задержка: как показано в таблице, YOLOv10 обычно обеспечивают более низкое время вывода по сравнению с YOLOv9 при аналогичном уровне точности.

Технические детали можно найти в статьеYOLOv10 .

YOLOv9: Освоение информационного потока

YOLOv9, выпущенная 21 февраля 2024 года Чень-Яо Ван и Хонг-Юань Марк Ляо из Академии Синика, посвящена теоретической проблеме потери информации в глубоких нейронных сетях.

Узнайте больше о YOLOv9

Ключевые архитектурные особенности

  • Архитектура GELAN: обобщенная сеть эффективной агрегации уровней сочетает в себе преимущества CSPNet и ELAN для максимального использования параметров.
  • Программируемая градиентная информация (PGI): этот вспомогательный механизм контроля гарантирует, что глубокие слои сохраняют критически важную информацию для точного обнаружения, что делает модель высокоэффективной для задач, требующих высокой точности.
  • Высокая точность: модель YOLOv9e достигает впечатляющего показателяmAPval в 55,6%, превосходя многих современных конкурентов по точности обнаружения.

Для более глубокого изучения темы прочитайте статьюYOLOv9 .

Обучение и простота использования

Обе модели полностью интегрированы в Ultralytics , обеспечивая единый и беспрепятственный опыт для разработчиков. Независимо от того, используете ли вы YOLOv10 YOLOv9, Python Ultralytics упрощает процесс обучения, пополнения данных и ведения журналов.

Пример кода

Обучение модели на пользовательском наборе данных или стандартном тесте, таком как COCO8 сложности. Фреймворк автоматически обрабатывает различия в архитектуре.

from ultralytics import YOLO

# Load a model (Choose YOLOv10 or YOLOv9)
model = YOLO("yolov10n.pt")  # or "yolov9c.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

Эффективность памяти

YOLO Ultralytics YOLO разработаны для оптимального использования GPU . По сравнению с архитектурами на основе трансформаторов или более старыми моделями обнаружения, они позволяют обрабатывать более крупные пакеты данных на потребительском оборудовании, делая передовые технологии искусственного интеллекта доступными для более широкой аудитории.

Идеальные варианты использования

Выбор между YOLOv10 YOLOv9 зависит от конкретных ограничений вашей среды развертывания.

Когда выбирать YOLOv10

  • Ограничения по низкой задержке: если ваше приложение работает на мобильных устройствах или встроенных системах, где важна каждая миллисекунда, конструкция YOLOv10 NMS YOLOv10 значительное преимущество.
  • Простое развертывание: устранение этапов постобработки упрощает экспорт в такие форматы, как ONNX или TensorRT, что снижает риск несовместимости операторов.
  • Видео в реальном времени: идеально подходит для управления дорожным движением или высокоскоростных производственных линий, где пропускная способность имеет решающее значение.

Когда выбирать YOLOv9

  • Максимальная точность: для исследовательских приложений или сценариев, где точность имеет первостепенное значение (например, анализ медицинских изображений), архитектура YOLOv9e, усовершенствованная с помощью PGI, обеспечивает превосходные результаты.
  • Обнаружение мелких объектов: Благодаря сохранению богатых характеристик GELAN, YOLOv9 эффективен для обнаружения мелких или закрытых объектов на аэрофотоснимках.
  • Сложные сцены: в условиях высокой визуальной загруженности программируемая информация о градиенте помогает модели более эффективно различать значимые объекты.

Будущее уже наступило: YOLO26

Хотя YOLOv9 YOLOv10 мощными инструментами, область компьютерного зрения быстро развивается. Ultralytics выпустила YOLO26, модель, которая синтезирует лучшие характеристики предыдущих поколений и одновременно внедряет революционные оптимизации.

Узнайте больше о YOLO26

YOLO26 — рекомендуемый выбор для новых проектов, обеспечивающий превосходный баланс скорости, точности и универсальности.

Почему стоит перейти на YOLO26?

  • Беспрерывная работа NMS: как и YOLOv10, YOLO26 изначально работает в беспрерывном режиме. Это устраняет необходимость в NMS , обеспечивая более быстрое выведение и упрощенные конвейеры развертывания.
  • Оптимизатор MuSGD: Вдохновленный инновациями в области обучения больших языковых моделей (LLM) (в частности, Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD оптимизатора Muon. Это приводит к значительно более стабильному обучению и более быстрой конвергенции.
  • Удаление DFL: благодаря удалению Distribution Focal Loss (распределение фокальной потери) YOLO26 оптимизирует архитектуру модели, делая ее более удобной для экспорта и совместимой с более широким спектром периферийных/маломощных устройств.
  • Резкий скачок производительности: оптимизации, специально направленные на CPU , обеспечивают скорость, на 43 % превышающую скорость предыдущих поколений, что делает его мощным инструментом для периферийного искусственного интеллекта.
  • Универсальность задач: В отличие от версий v9 и v10, ориентированных на обнаружение, YOLO26 включает в себя специализированные улучшения для всех задач:
    • Сегментация: новая семантическая потеря сегментации и многомасштабный протокол.
    • Поза: оценка остаточной логарифмической вероятности (RLE) для высокоточных ключевых точек.
    • OBB: Специализированная потеря угла для решения проблем границ в задачах ориентированной ограничивающей рамки.

Оптимизированный рабочий процесс с Ultralytics

Разработчики могут использовать Ultralytics (ранее HUB) для управления всем жизненным циклом своих моделей YOLO26. От аннотирования наборов данных до обучения в облаке и развертывания на периферийных устройствах — платформа предоставляет унифицированный интерфейс, который ускоряет вывод продукта на рынок.

Заключение

Оба YOLOv10 и YOLOv9 представляют собой важные вехи в истории обнаружения объектов. YOLOv10 , что архитектуры NMS могут достигать передовых показателей, а YOLOv9 важность потока градиентной информации в глубоких сетях.

Однако для разработчиков, которые ищут самое надежное, универсальное и перспективное решение, YOLO26 является лучшим выбором. Благодаря сочетанию конструкции NMS с революционным оптимизатором MuSGD и обширной поддержкой задач, YOLO26 предлагает оптимальный баланс производительности для современных приложений компьютерного зрения.

  • YOLO11 — надежный предшественник YOLO26, известный своей стабильностью.
  • YOLOv8 — универсальная классическая модель, широко используемая в промышленности.
  • RT-DETR — детектор реального времени на основе трансформатора.

Комментарии