YOLO26 против YOLOv9: следующая эволюция в real-time детекции объектов

Ландшафт компьютерного зрения стремительно меняется, и новые архитектуры постоянно расширяют границы скорости и точности. В этом техническом сравнении мы рассмотрим различия между YOLO26 и YOLOv9, двумя очень влиятельными моделями в области real-time детекции объектов. Хотя обе модели предлагают уникальные архитектурные инновации, понимание их компромиссов в производительности, возможностей развертывания и аппаратных требований имеет решающее значение для выбора правильного инструмента для твоего следующего проекта в области компьютерного зрения.

YOLO26: мощное решение, оптимизированное для edge-устройств

Выпущенная в начале 2026 года, Ultralytics YOLO26 представляет собой качественный скачок в эффективности развертывания и стабильности обучения моделей. Будучи спроектированной как нативно end-to-end фреймворк, она напрямую решает проблемы с развертыванием, которые исторически мешали приложениям edge AI.

Детали модели:

Архитектура и инновации

YOLO26 фундаментально перерабатывает конвейер пост-обработки, внедряя End-to-End NMS-Free Design. Исключая необходимость в NMS (Non-Maximum Suppression), модель достигает значительно меньшей вариативности задержки. Это значительно упрощает развертывание на мобильных и edge-платформах, особенно при экспорте в такие фреймворки, как ONNX и Apple CoreML.

Кроме того, отказ от DFL (Distribution Focal Loss) упрощает процесс экспорта и повышает совместимость с маломощными микроконтроллерами. Для улучшения стабильности обучения YOLO26 интегрирует инновационный MuSGD Optimizer — гибрид стохастического градиентного спуска (SGD) и Muon (вдохновленный инновациями в обучении больших языковых моделей). Это приводит к более быстрой сходимости и более надежному извлечению признаков на сложных датасетах.

Инференс на edge-устройствах

Благодаря архитектурным упрощениям и удалению DFL, YOLO26 достигает до 43% более быстрого CPU-инференса, что делает её идеальным выбором для edge-устройств с ограниченными ресурсами, таких как Raspberry Pi или NVIDIA Jetson Nano.

Для обнаружения сложных объектов в таких сценах, как аэрофотосъемка с дронов, YOLO26 использует обновленные функции потерь ProgLoss + STAL. Они обеспечивают заметные улучшения в распознавании мелких объектов. Кроме того, она обладает улучшениями для конкретных задач, включая multi-scale proto для сегментации экземпляров, RLE (Residual Log-Likelihood Estimation) для оценки позы и специальную функцию потерь угла для обнаружения ориентированных BBox (OBB).

Узнай больше о YOLO26

YOLOv9: программируемая градиентная информация

Представленная в начале 2024 года, YOLOv9 привнесла теоретические достижения в то, как нейронные сети обрабатывают градиентный поток на этапе обучения, фокусируясь на эффективности параметров и сохранении глубоких признаков.

Детали модели:

Архитектура и сильные стороны

YOLOv9 построена вокруг концепции PGI (Programmable Gradient Information) и архитектуры GELAN (Generalized Efficient Layer Aggregation Network). Эти концепции решают проблему информационного узкого места, часто наблюдаемую в глубоких нейронных сетях. Сохраняя важную информацию в процессе прохождения данных, GELAN гарантирует, что градиенты, используемые для обновления весов, остаются надежными. Эта архитектура обеспечивает высокую точность и делает YOLOv9 сильным кандидатом для академических исследований в области теории нейронных сетей и оптимизации путей градиентов с использованием фреймворка PyTorch.

Ограничения

Несмотря на отличную эффективность параметров, YOLOv9 сильно полагается на традиционный NMS для пост-обработки BBox, что может создавать вычислительные узкие места при инференсе на edge-устройствах. Более того, официальный репозиторий в основном сфокусирован на детекции объектов, требуя значительной кастомной инженерной работы для адаптации под специализированные задачи, такие как трекинг или оценка позы.

Узнай больше о YOLOv9

Сравнение производительности

При оценке этих моделей для реального развертывания критически важно сбалансировать точность (mAP), скорость инференса и использование памяти. Модели Ultralytics славятся своими низкими требованиями к памяти как при обучении, так и при инференсе, требуя гораздо меньше памяти CUDA, чем альтернативы на базе Transformer, такие как RT-DETR.

Ниже представлено прямое сравнение производительности YOLO26 и YOLOv9 на датасете COCO. Лучшие значения в каждом столбце выделены жирным.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Примечание: Скорость на CPU для YOLOv9 опущена, так как она сильно варьируется в зависимости от конфигурации NMS и в целом медленнее, чем нативная NMS-free реализация YOLO26.

Варианты использования и рекомендации

Выбор между YOLO26 и YOLOv9 зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.

Когда выбирать YOLO26

YOLO26 — отличный выбор, если:

  • Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.

Когда выбирать YOLOv9

YOLOv9 рекомендуется для:

  • Исследований информационных узких мест: академических проектов, изучающих архитектуры PGI (Programmable Gradient Information) и GELAN (Generalized Efficient Layer Aggregation Network).
  • Изучения оптимизации градиентного потока: исследований, сфокусированных на понимании и смягчении потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинга высокоточного детектирования: сценариев, где высокая производительность YOLOv9 на бенчмарке COCO нужна как точка отсчета для архитектурных сравнений.

Преимущество Ultralytics

Выбор модели — это больше, чем просто чтение бенчмарка точности; окружающая программная экосистема диктует, как быстро ты сможешь пройти путь от сбора данных до продакшена.

Простота использования и экосистема

Python API от Ultralytics предлагает бесшовный опыт "от нуля до профи". Вместо клонирования сложных репозиториев или ручной настройки скриптов распределенного обучения, ты можешь установить пакет через pip и немедленно начать обучение. Активно поддерживаемая экосистема Ultralytics гарантирует частые обновления, автоматизированные интеграции с ML-платформами, такими как Weights & Biases, и обширную документацию.

Другие модели Ultralytics

Если тебе интересно изучить другие модели в экосистеме Ultralytics, ты также можешь рассмотреть YOLO11 или классическую YOLOv8, обе из которых обеспечивают исключительную гибкость для кастомных приложений.

Универсальность для задач компьютерного зрения

Хотя YOLOv9 — это прежде всего движок для детекции, YOLO26 — это универсальный инструмент компьютерного зрения. Используя единый синтаксис, ты можешь легко перейти от детекции объектов к пиксельной сегментации изображений или классификации всего изображения. Эта универсальность снижает технический долг, связанный с поддержкой нескольких разрозненных кодовых баз для различных функций компьютерного зрения.

Эффективное обучение и развертывание

Эффективность обучения — краеугольный камень философии Ultralytics. YOLO26 использует легкодоступные предобученные веса и может похвастаться значительно меньшим использованием памяти по сравнению с громоздкими vision transformers. После обучения встроенные конвейеры экспорта позволяют выполнять конвертацию в оптимизированные форматы, такие как TensorRT или TensorFlow Lite, в один клик, что делает путь к продакшену максимально гладким.

Пример кода: начало работы с YOLO26

Внедрение YOLO26 удивительно просто. Следующий фрагмент Python кода демонстрирует, как загрузить предобученную модель, обучить её на собственных данных и запустить инференс, используя API Ultralytics.

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

Используя скорость, упрощенную архитектуру и надежную экосистему YOLO26, команды могут быстрее выводить на рынок передовые приложения ИИ в области компьютерного зрения с меньшим количеством технических трудностей, чем когда-либо прежде.

Комментарии