Перейти к содержанию

YOLO26 против YOLOv9: Следующая эволюция в обнаружении объектов в реальном времени

Ландшафт компьютерного зрения быстро развивается, с новыми архитектурами, постоянно расширяющими границы скорости и точности. В этом техническом сравнении мы рассмотрим различия между YOLO26 и YOLOv9, двумя весьма влиятельными моделями в области обнаружения объектов в реальном времени. Хотя обе модели предлагают различные архитектурные инновации, понимание их компромиссов в производительности, возможностей развертывания и требований к аппаратному обеспечению имеет решающее значение для выбора правильного инструмента для вашего следующего проекта в области зрения.

YOLO26: Оптимизированное для периферийных устройств мощное решение

Выпущенный в начале 2026 года, Ultralytics YOLO26 представляет собой скачок поколений в эффективности развертывания и стабильности обучения моделей. Разработанный как нативная сквозная платформа, он напрямую решает проблемы узких мест развертывания, которые исторически преследовали периферийные ИИ-приложения.

Подробности модели:

Архитектура и инновации

YOLO26 фундаментально перерабатывает конвейер постобработки, представляя сквозную архитектуру без NMS. Устраняя необходимость в подавлении немаксимумов (NMS), модель достигает значительно меньшей вариативности задержки. Это значительно упрощает развертывание на мобильных и периферийных платформах, особенно при экспорте во фреймворки, такие как ONNX и Apple CoreML.

Кроме того, удаление Distribution Focal Loss (DFL) упрощает процесс экспорта и повышает совместимость с маломощными микроконтроллерами. Для повышения стабильности обучения YOLO26 интегрирует новый оптимизатор MuSGD, гибрид стохастического градиентного спуска (SGD) и Muon (вдохновленный инновациями в обучении больших языковых моделей). Это приводит к более быстрой сходимости и более надежному извлечению признаков на сложных наборах данных.

Инференс на периферийных устройствах

Благодаря архитектурным упрощениям и удалению DFL, YOLO26 обеспечивает до 43% более быструю инференцию на CPU, что делает его идеальным выбором для периферийных устройств с ограниченными ресурсами, таких как Raspberry Pi или NVIDIA Jetson Nano.

Для обнаружения особо сложных объектов на сценах, таких как аэроснимки с дронов, YOLO26 использует обновленные функции потерь ProgLoss + STAL. Они обеспечивают заметные улучшения в полноте распознавания мелких объектов. Кроме того, она обладает специфическими для задач улучшениями, включая многомасштабный прототип для сегментации экземпляров, оценку остаточного логарифмического правдоподобия (RLE) для оценки позы и специализированную угловую функцию потерь для обнаружения ориентированных ограничивающих рамок (OBB).

Узнайте больше о YOLO26

YOLOv9: Программируемая градиентная информация

Представленный в начале 2024 года, YOLOv9 привнес теоретические достижения в то, как нейронные сети обрабатывают поток градиентов на этапе обучения, сосредоточившись на эффективности параметров и сохранении глубоких признаков.

Подробности модели:

Архитектура и сильные стороны

YOLOv9 построен на концепции Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). Эти концепции решают проблему информационного узкого места, часто наблюдаемую в глубоких нейронных сетях. Сохраняя существенную информацию в процессе прямого распространения, GELAN гарантирует, что градиенты, используемые для обновления весов, остаются надежными. Эта архитектура обеспечивает высокую точность и делает YOLOv9 сильным кандидатом для академических исследований в области теории нейронных сетей и оптимизации градиентного пути с использованием фреймворка PyTorch.

Ограничения

Несмотря на превосходную эффективность параметров, YOLOv9 в значительной степени полагается на традиционный NMS для постобработки ограничивающих рамок, что может создавать вычислительные узкие места во время инференса на периферийных устройствах. Кроме того, официальный репозиторий в основном ориентирован на обнаружение объектов, требуя значительных пользовательских инженерных решений для адаптации его к специализированным задачам, таким как tracking или оценка позы.

Узнайте больше о YOLOv9

Сравнение производительности

При оценке этих моделей для реального развертывания критически важен баланс между точностью (mAP), скоростью инференса и использованием памяти. Модели Ultralytics известны своими низкими требованиями к памяти как во время обучения, так и во время инференса, требуя значительно меньше памяти CUDA, чем альтернативы на основе трансформеров, такие как RT-DETR.

Ниже представлено прямое сравнение производительности YOLO26 и YOLOv9 на наборе данных COCO. Лучшие значения в каждом столбце выделены жирным шрифтом.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Примечание: Скорость CPU для YOLOv9 опущена, так как она сильно варьируется в зависимости от конфигурации NMS и, как правило, медленнее, чем собственная реализация YOLO26 без NMS.

Сценарии использования и рекомендации

Выбор между YOLO26 и YOLOv9 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбирать YOLO26

YOLO26 является отличным выбором для:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Когда выбирать YOLOv9

YOLOv9 рекомендуется для:

  • Исследования информационного узкого места: Академические проекты, изучающие архитектуры Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
  • Исследования по оптимизации потока градиентов: Исследования, направленные на понимание и снижение потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинг обнаружения с высокой точностью: Сценарии, где высокая производительность YOLOv9 в бенчмарке COCO необходима в качестве эталонной точки для архитектурных сравнений.

Преимущество Ultralytics

Выбор модели включает в себя нечто большее, чем просто чтение бенчмарка точности; окружающая программная экосистема определяет, как быстро вы сможете перейти от сбора данных к производству.

Простота использования и экосистема

Параметр Ultralytics python API предлагает беспрепятственный путь от новичка до эксперта. Вместо клонирования сложных репозиториев или ручной настройки скриптов распределенного обучения, разработчики могут установить пакет через pip и немедленно начать обучение. Активно поддерживаемый экосистемы Ultralytics гарантирует частые обновления, автоматизированные интеграции с платформами машинного обучения, такими как Weights & Biases, и обширную документацию.

Другие модели Ultralytics

Если вы заинтересованы в изучении других моделей в экосистеме Ultralytics, вы также можете рассмотреть сравнение YOLO11 или классической YOLOv8, обе из которых обеспечивают исключительную гибкость для пользовательских приложений.

Универсальность в задачах компьютерного зрения

В то время как YOLOv9 в основном является движком для detect, YOLO26 — это универсальный инструмент компьютерного зрения. Используя единый унифицированный синтаксис, вы можете легко переключаться от detect объектов к пиксельной сегментации изображений или классификации целых изображений. Такая универсальность снижает технический долг по поддержке нескольких разрозненных кодовых баз для различных функций компьютерного зрения.

Эффективное обучение и развертывание

Эффективность обучения является краеугольным камнем философии Ultralytics. YOLO26 использует легкодоступные предварительно обученные веса и отличается значительно меньшим потреблением памяти по сравнению с громоздкими визуальными трансформерами. После обучения встроенные конвейеры экспорта позволяют выполнять преобразования в оптимизированные форматы, такие как TensorRT или TensorFlow Lite, одним щелчком мыши, упрощая путь к развертыванию.

Пример кода: Начало работы с YOLO26

Реализация YOLO26 удивительно проста. Следующий фрагмент кода на python демонстрирует, как загрузить предварительно обученную модель, обучить ее на пользовательских данных и выполнить инференс с использованием API Ultralytics.

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

Используя скорость, упрощенную архитектуру и надежную экосистему YOLO26, команды могут выводить передовые приложения ИИ для зрения на рынок быстрее и с меньшими техническими препятствиями, чем когда-либо прежде.


Комментарии