YOLOv9 против YOLO26: Сравнительный анализ архитектуры и производительности
Ландшафт обнаружения объектов в реальном времени постоянно развивается, при этом каждая новая итерация приносит значительные улучшения в точности, скорости и эффективности. В этой статье представлено подробное техническое сравнение между YOLOv9, мощной моделью, выпущенной в начале 2024 года, и YOLO26, новейшей передовой моделью от Ultralytics, разработанной для следующего поколения граничных ИИ-приложений.
Обзор модели
Обе модели представляют собой значительные вехи в компьютерном зрении, однако они подходят к проблеме detect с несколько разных архитектурных философий.
YOLOv9: Программируемая градиентная информация
Выпущенная в феврале 2024 года исследователями из Academia Sinica, Тайвань, YOLOv9 представила новые концепции для решения проблемы потери информации в глубоких нейронных сетях.
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 21 февраля 2024 г.
- Ключевое нововведение: Программируемая градиентная информация (PGI) и обобщенная эффективная сеть агрегации слоев (GELAN).
- Фокус: Улучшение использования параметров и потока градиентов во время обучения для максимизации сохранения информации в глубоких слоях.
YOLO26: Эволюция для граничных устройств
Запущенная в январе 2026 года компанией Ultralytics, YOLO26 представляет собой сдвиг парадигмы в сторону сквозной эффективности и упрощенного развертывания, особенно для CPU и граничных устройств.
- Авторы: Гленн Джохер, Цзин Цю
- Организация:Ultralytics
- Дата: 14 января 2026 года
- Ключевое нововведение: Сквозная архитектура без NMS, оптимизатор MuSGD и удаление функции потерь Distribution Focal Loss (DFL).
- Фокус: Минимизация задержки инференса на оборудовании без GPU, упрощение процессов экспорта и стабилизация динамики обучения с использованием методов, вдохновленных большими языковыми моделями (LLM).
Архитектурные различия
Основное различие между этими двумя моделями заключается в конструкции их головной части и формулировке функции потерь, что напрямую влияет на скорость их развертывания и стабильность обучения.
Архитектура YOLOv9
YOLOv9 использует обобщенную эффективную сеть агрегации слоев (GELAN). Эта архитектура обеспечивает гибкую интеграцию различных вычислительных блоков (таких как CSPNet или ELAN) без ущерба для скорости. Введение программируемой градиентной информации (PGI) обеспечивает вспомогательную структуру для обучения. PGI гарантирует, что важная информация о признаках не теряется при распространении через глубокие слои, что является распространенной проблемой в легковесных моделях. Хотя эта структура очень эффективна для достижения точности, она опирается на традиционные механизмы на основе якорей и этапы постобработки, такие как подавление немаксимумов (NMS).
Архитектура YOLO26
YOLO26 использует изначально сквозную архитектуру без NMS. Предсказывая объекты напрямую без необходимости сложной постобработки, YOLO26 значительно снижает задержку, особенно на периферийных устройствах, где NMS может быть вычислительным узким местом.
Ключевые архитектурные изменения в YOLO26 включают:
- Удаление DFL: Функция потерь Distribution Focal Loss была удалена для упрощения графа модели, что делает форматы экспорта, такие как ONNX и TensorRT, более чистыми и быстрыми на чипах с низким энергопотреблением.
- ProgLoss + STAL: Новые функции потерь улучшают распознавание мелких объектов, что является критически важным требованием для таких задач, как анализ аэрофотоснимков и робототехника.
- Оптимизатор MuSGD: Гибрид SGD и Muon (вдохновленный обучением LLM), обеспечивающий более быструю сходимость и уменьшение пиков потребления памяти во время обучения.
Почему важен NMS-Free
Традиционные детекторы объектов предсказывают несколько ограничивающих рамок для одного и того же объекта и используют подавление немаксимумов (NMS) для их фильтрации. Этот шаг часто является последовательным и медленным на CPU. Сквозная архитектура YOLO26 полностью исключает этот шаг, что приводит к ускорению инференса на CPU до 43%.
Сравнение производительности
При оценке этих моделей исследователи обычно рассматривают среднюю точность (mAP) на наборе данных COCO наряду со скоростью инференса.
Метрики бенчмарков
В следующей таблице представлены компромиссы в производительности. В то время как YOLOv9 предлагает высокую точность, YOLO26 достигает превосходных соотношений скорости и точности, особенно на оборудовании с CPU.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Анализ
- Скорость: YOLO26 демонстрирует явное преимущество в скорости инференса. Например, YOLO26n значительно быстрее своих предшественников, что делает его идеальным для обработки видео с высокой частотой кадров.
- Точность: YOLO26 превосходит эквивалентные модели YOLOv9 по mAP, особенно в вариантах nano (n) и small (s), которые наиболее часто используются в производстве.
- Вычислительная мощность: YOLO26 постоянно требует меньше FLOPs (операций с плавающей запятой) для достижения более высокой точности, что указывает на более эффективную архитектуру.
Обучение и удобство использования
Для разработчиков простота обучения и развертывания так же важна, как и сырые метрики.
Экосистема и поддержка
Модели Ultralytics, включая YOLO26, выигрывают от надежной, хорошо поддерживаемой экосистемы. ultralytics пакет python предоставляет унифицированный API для обучение, валидацияи развертывания.
YOLOv9, хотя и мощный, в основном является исследовательским репозиторием. Интеграция его в производственные конвейеры часто требует большей ручной настройки по сравнению с подходом «pip install и готово» фреймворка Ultralytics.
Эффективность обучения
Оптимизатор MuSGD в YOLO26 помогает стабилизировать обучение, уменьшая необходимость в обширной настройке гиперпараметров. Кроме того, модели Ultralytics известны более низким потреблением памяти во время обучения по сравнению с альтернативами на основе трансформеров, что позволяет пользователям обучать модели с большими размерами пакетов на потребительских GPU.
Вот пример того, как легко можно обучить модель YOLO26 с использованием API Ultralytics:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 example dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Идеальные варианты использования
Выбор между этими моделями зависит от ваших конкретных ограничений.
Когда выбирать YOLOv9
- Исследования и академические работы: Если ваша работа включает изучение потока градиентов или воспроизведение конкретных бенчмарков из статьи о YOLOv9.
- Существующие конвейеры: Если у вас есть существующий конвейер, строго настроенный под архитектуру GELAN, и вы не можете легко менять структуры моделей.
Когда выбирать YOLO26
- Граничные вычисления: Благодаря ускорению вывода на CPU до 43%, YOLO26 является превосходным выбором для развертываний на Raspberry Pi, Jetson Nano и мобильных устройствах.
- Приложения реального времени: Архитектура без NMS обеспечивает стабильную задержку, что критически важно для автономного вождения и систем мониторинга безопасности.
- Сложные задачи: YOLO26 предлагает нативную поддержку разнообразных задач помимо detect, включая сегментацию экземпляров, оценку позы и detect ориентированных ограничивающих рамок (OBB).
- Корпоративное производство: Стабильность, поддержка и простота экспорта, обеспечиваемые экосистемой Ultralytics, делают YOLO26 более надежным выбором для коммерческих продуктов.
За пределами Detection
В отличие от стандартного репозитория YOLOv9, YOLO26 поставляется с готовыми к использованию улучшениями, специфичными для задач. Это включает функцию потерь для семантической сегментации для повышения точности масок и оценку остаточного логарифмического правдоподобия (RLE) для более точных ключевых точек оценки позы.
Заключение
В то время как YOLOv9 представил увлекательные концепции, касающиеся программируемых градиентов и сохранения информации, YOLO26 представляет собой практическую эволюцию этих идей в мощное решение, готовое к производству. Его сквозная архитектура без NMS в сочетании с комплексной программной экосистемой Ultralytics делает его рекомендуемым выбором для разработчиков, стремящихся сбалансировать скорость, точность и простоту использования в 2026 году.
Для тех, кто заинтересован в изучении других современных архитектур, документация также охватывает YOLO11, которая остается высокопроизводительной моделью для общих задач компьютерного зрения.