Перейти к содержанию

YOLO26 против YOLOv9: Открывая новое поколение AI для зрения в реальном времени

По мере ускорения развития области компьютерного зрения разработчики и исследователи постоянно ищут модели, которые предлагают идеальный баланс скорости, точности и простоты развертывания. Этот технический анализ сравнивает YOLO26, новейшее унифицированное семейство моделей от Ultralytics, с YOLOv9, моделью, разработанной сообществом и сфокусированной на программируемой градиентной информации. Изучая их архитектуры, метрики производительности и идеальные сценарии использования, мы стремимся направить вас к лучшему решению для ваших проектов машинного обучения.

Краткое изложение

В то время как обе модели расширяют границы detect объектов, YOLO26 представляет собой значительный шаг вперед в готовности к производству и интеграции в экосистему. Она представляет собой нативную сквозную архитектуру (без NMS), значительно упрощающую конвейеры развертывания, и специально оптимизирована для периферийных устройств с ускорением вывода на CPU до 43%. YOLOv9, выпущенная в начале 2024 года, представила новые концепции, такие как программируемая градиентная информация (PGI), для повышения стабильности обучения, но остается более традиционным детектором на основе якорей, требующим NMS.

Детальный анализ модели

Ultralytics YOLO26

Авторы: Гленн Джочер и Цзин Цю
Организация:Ultralytics
Дата: 2026-01-14
Ссылки:GitHub | Docs

YOLO26 разработан не просто как модель, а как комплексное экосистемное решение. Он отказывается от традиционных якорей и не-максимального подавления (NMS) в пользу оптимизированной сквозной архитектуры. Этот выбор дизайна устраняет задержку, часто скрытую в шагах постобработки, что делает его идеальным для приложений реального времени, таких как автономные транспортные средства и робототехника.

Ключевые архитектурные инновации включают удаление Distribution Focal Loss (DFL), что упрощает экспорт в такие форматы, как TensorRT и CoreML. Стабильность обучения повышается благодаря оптимизатору MuSGD, гибриду SGD и Muon (вдохновленному Kimi K2 от Moonshot AI), переносящему инновации в обучении больших языковых моделей в область зрения. Кроме того, внедрение ProgLoss и STAL (Soft-Target Anchor Loss) значительно улучшает detect мелких объектов, что является критически важной возможностью для аэрофотосъемки и устройств IoT.

Узнайте больше о YOLO26

YOLOv9

Авторы: Чиен-Яо Ван и Хун-Юань Марк Ляо
Организация: Институт информационных наук, Academia Sinica, Тайвань
Дата: 2024-02-21
Ссылки:Arxiv | GitHub | Docs

YOLOv9 фокусируется на теории глубокого обучения, в частности, на решении проблемы «информационного узкого места» в глубоких сетях. Его основной вклад — это программируемая градиентная информация (PGI), которая помогает сохранять информацию входных данных при прохождении через глубокие слои, и обобщенная эффективная сеть агрегации слоев (GELAN). Эти особенности позволяют YOLOv9 достигать впечатляющей эффективности параметров. Однако, будучи традиционной моделью на основе якорей, она все еще полагается на NMS для окончательных предсказаний, что может усложнить развертывание на ограниченном оборудовании по сравнению со сквозными решениями.

Сравнение метрик производительности

В следующей таблице представлены различия в производительности на валидационном наборе данных COCO. YOLO26 демонстрирует превосходную эффективность, особенно в скорости CPU, сохраняя при этом конкурентоспособную или превосходящую точность.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Ключевые технические различия

1. Архитектура и поток вывода

Без-NMS дизайн YOLO26 — это смена парадигмы. Обучая модель генерировать предсказания один к одному нативно, конвейер вывода становится простым прямым проходом. Это устраняет эвристический шаг NMS, который часто трудно оптимизировать на периферийных AI-устройствах, таких как FPGA или NPU. Напротив, YOLOv9 полагается на традиционную методологию «предсказать-затем-подавить», которая требует тщательной настройки порогов IoU и добавляет вычислительные накладные расходы во время вывода.

2. Стабильность обучения и сходимость

Оптимизатор MuSGD в YOLO26 представляет собой современный подход к динамике обучения. Гибридизуя SGD с Muon, YOLO26 достигает стабильной сходимости быстрее, чем предыдущие поколения. Это особенно выгодно при обучении на пользовательских наборах данных, где настройка гиперпараметров может быть ресурсоемкой. YOLOv9 использует PGI для помощи в обучении, что теоретически надежно, но может добавить сложности к графу обучения и увеличить использование памяти во время фазы обратного распространения.

3. Оптимизация для периферийных устройств и CPU

Одной из выдающихся особенностей YOLO26 является ускорение вывода на CPU до 43%. Это было достигнуто путем оптимизации архитектуры специально для устройств без мощных GPU, таких как Raspberry Pi или базовые облачные инстансы. Удаление DFL (Distribution Focal Loss) дополнительно сокращает количество математических операций, необходимых для каждой detect-головы. YOLOv9, хотя и эффективна по параметрам благодаря GELAN, не обладает этими специфическими оптимизациями, ориентированными на CPU, что делает YOLO26 явным победителем для развертывания на периферийных устройствах.

Оптимизированный экспорт с Ultralytics

Модели YOLO26 могут быть экспортированы в такие форматы, как ONNX, TensorRT и OpenVINO, одной командой, автоматически обрабатывая без-NMS структуру для бесшовной интеграции.

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="onnx")  # Exports directly without NMS plugins

Экосистема и простота использования

Параметр экосистемы Ultralytics является значительным отличием. YOLO26 полностью интегрирован в ultralytics пакет Python, предлагая стандартизированный API для обучения, валидации и развертывания.

  • Простота: Разработчики могут переключаться между такими задачами, как оценка позы или ориентированное обнаружение объектов (OBB) просто изменив файл весов модели (например, yolo26n-pose.pt или yolo26n-obb.pt). YOLOv9 — это в первую очередь модель обнаружения объектов, с меньшей нативной поддержкой этих специализированных задач.
  • Поддержка: Ultralytics предоставляет обширную документацию, активный форум сообщества и варианты корпоративной поддержки. Это гарантирует, что разработчики никогда не столкнутся с проблемами из-за деталей реализации.
  • Универсальность: Помимо обнаружения, YOLO26 предлагает улучшения, специфичные для задач, такие как оценка остаточного логарифмического правдоподобия (RLE) для позы и специализированная угловая функция потерь для OBB, обеспечивая высокую точность в различных приложениях.

Рекомендации по вариантам использования

Выберите YOLO26, если:

  • Вам требуется самый быстрый в своем классе вывод на CPU или вы развертываете модель на периферийных устройствах (Raspberry Pi, Jetson Nano, мобильные устройства).
  • Ваш конвейер выигрывает от вывода без NMS, что упрощает логику постобработки.
  • Вам требуется поддержка сегментации, оценки позы или классификации в рамках единой унифицированной среды.
  • Вы отдаете приоритет хорошо документированной, активной экосистеме с такими инструментами, как Ultralytics Explorer для анализа наборов данных.
  • Вы работаете с обнаружением мелких объектов, где ProgLoss + STAL обеспечивает измеримое преимущество.

Выберите YOLOv9, если:

  • Вы проводите академические исследования, в частности, по программируемой градиентной информации или вспомогательным методам обучения.
  • Ваша устаревшая инфраструктура тесно связана с конвейерами постобработки на основе якорей, которые трудно мигрировать.

Заключение

В то время как YOLOv9 представила важные теоретические достижения в 2024 году, YOLO26 дорабатывает эти концепции до мощного, готового к производству инструмента для 2026 года и последующих лет. Благодаря своей сквозной архитектуре, значительному ускорению на CPU и надежной поддержке множества задач компьютерного зрения, YOLO26 предлагает более универсальное и перспективное решение для реальных приложений ИИ. Независимо от того, строите ли вы инфраструктуру умного города, системы сельскохозяйственного мониторинга или передовую робототехнику, YOLO26 обеспечивает производительность и надежность, необходимые для успеха.

Для тех, кто заинтересован в изучении предыдущих передовых моделей, документация по YOLO11 и YOLOv8 предлагает дополнительный контекст по эволюции семейства YOLO.


Комментарии