YOLO26 против YOLOv9: следующая эволюция в real-time детекции объектов
Ландшафт компьютерного зрения стремительно меняется, и новые архитектуры постоянно расширяют границы скорости и точности. В этом техническом сравнении мы рассмотрим различия между YOLO26 и YOLOv9, двумя очень влиятельными моделями в области real-time детекции объектов. Хотя обе модели предлагают уникальные архитектурные инновации, понимание их компромиссов в производительности, возможностей развертывания и аппаратных требований имеет решающее значение для выбора правильного инструмента для твоего следующего проекта в области компьютерного зрения.
YOLO26: мощное решение, оптимизированное для edge-устройств
Выпущенная в начале 2026 года, Ultralytics YOLO26 представляет собой качественный скачок в эффективности развертывания и стабильности обучения моделей. Будучи спроектированной как нативно end-to-end фреймворк, она напрямую решает проблемы с развертыванием, которые исторически мешали приложениям edge AI.
Детали модели:
- Авторы: Гленн Джочер (Glenn Jocher) и Цзин Цю (Jing Qiu)
- Организация: Ultralytics
- Дата: 2026-01-14
- GitHub: Репозиторий Ultralytics
- Документация: Документация YOLO26
Архитектура и инновации
YOLO26 фундаментально перерабатывает конвейер пост-обработки, внедряя End-to-End NMS-Free Design. Исключая необходимость в NMS (Non-Maximum Suppression), модель достигает значительно меньшей вариативности задержки. Это значительно упрощает развертывание на мобильных и edge-платформах, особенно при экспорте в такие фреймворки, как ONNX и Apple CoreML.
Кроме того, отказ от DFL (Distribution Focal Loss) упрощает процесс экспорта и повышает совместимость с маломощными микроконтроллерами. Для улучшения стабильности обучения YOLO26 интегрирует инновационный MuSGD Optimizer — гибрид стохастического градиентного спуска (SGD) и Muon (вдохновленный инновациями в обучении больших языковых моделей). Это приводит к более быстрой сходимости и более надежному извлечению признаков на сложных датасетах.
Благодаря архитектурным упрощениям и удалению DFL, YOLO26 достигает до 43% более быстрого CPU-инференса, что делает её идеальным выбором для edge-устройств с ограниченными ресурсами, таких как Raspberry Pi или NVIDIA Jetson Nano.
Для обнаружения сложных объектов в таких сценах, как аэрофотосъемка с дронов, YOLO26 использует обновленные функции потерь ProgLoss + STAL. Они обеспечивают заметные улучшения в распознавании мелких объектов. Кроме того, она обладает улучшениями для конкретных задач, включая multi-scale proto для сегментации экземпляров, RLE (Residual Log-Likelihood Estimation) для оценки позы и специальную функцию потерь угла для обнаружения ориентированных BBox (OBB).
YOLOv9: программируемая градиентная информация
Представленная в начале 2024 года, YOLOv9 привнесла теоретические достижения в то, как нейронные сети обрабатывают градиентный поток на этапе обучения, фокусируясь на эффективности параметров и сохранении глубоких признаков.
Детали модели:
- Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
- Организация: Institute of Information Science, Academia Sinica, Тайвань
- Дата: 2024-02-21
- Arxiv: Статья YOLOv9
- GitHub: Репозиторий YOLOv9
- Документация: Документация YOLOv9
Архитектура и сильные стороны
YOLOv9 построена вокруг концепции PGI (Programmable Gradient Information) и архитектуры GELAN (Generalized Efficient Layer Aggregation Network). Эти концепции решают проблему информационного узкого места, часто наблюдаемую в глубоких нейронных сетях. Сохраняя важную информацию в процессе прохождения данных, GELAN гарантирует, что градиенты, используемые для обновления весов, остаются надежными. Эта архитектура обеспечивает высокую точность и делает YOLOv9 сильным кандидатом для академических исследований в области теории нейронных сетей и оптимизации путей градиентов с использованием фреймворка PyTorch.
Ограничения
Несмотря на отличную эффективность параметров, YOLOv9 сильно полагается на традиционный NMS для пост-обработки BBox, что может создавать вычислительные узкие места при инференсе на edge-устройствах. Более того, официальный репозиторий в основном сфокусирован на детекции объектов, требуя значительной кастомной инженерной работы для адаптации под специализированные задачи, такие как трекинг или оценка позы.
Сравнение производительности
При оценке этих моделей для реального развертывания критически важно сбалансировать точность (mAP), скорость инференса и использование памяти. Модели Ultralytics славятся своими низкими требованиями к памяти как при обучении, так и при инференсе, требуя гораздо меньше памяти CUDA, чем альтернативы на базе Transformer, такие как RT-DETR.
Ниже представлено прямое сравнение производительности YOLO26 и YOLOv9 на датасете COCO. Лучшие значения в каждом столбце выделены жирным.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Примечание: Скорость на CPU для YOLOv9 опущена, так как она сильно варьируется в зависимости от конфигурации NMS и в целом медленнее, чем нативная NMS-free реализация YOLO26.
Варианты использования и рекомендации
Выбор между YOLO26 и YOLOv9 зависит от твоих конкретных требований к проекту, ограничений развертывания и предпочтений в экосистеме.
Когда выбирать YOLO26
YOLO26 — отличный выбор, если:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Когда выбирать YOLOv9
YOLOv9 рекомендуется для:
- Исследований информационных узких мест: академических проектов, изучающих архитектуры PGI (Programmable Gradient Information) и GELAN (Generalized Efficient Layer Aggregation Network).
- Изучения оптимизации градиентного потока: исследований, сфокусированных на понимании и смягчении потери информации в глубоких слоях сети во время обучения.
- Бенчмаркинга высокоточного детектирования: сценариев, где высокая производительность YOLOv9 на бенчмарке COCO нужна как точка отсчета для архитектурных сравнений.
Преимущество Ultralytics
Выбор модели — это больше, чем просто чтение бенчмарка точности; окружающая программная экосистема диктует, как быстро ты сможешь пройти путь от сбора данных до продакшена.
Простота использования и экосистема
Python API от Ultralytics предлагает бесшовный опыт "от нуля до профи". Вместо клонирования сложных репозиториев или ручной настройки скриптов распределенного обучения, ты можешь установить пакет через pip и немедленно начать обучение. Активно поддерживаемая экосистема Ultralytics гарантирует частые обновления, автоматизированные интеграции с ML-платформами, такими как Weights & Biases, и обширную документацию.
Универсальность для задач компьютерного зрения
Хотя YOLOv9 — это прежде всего движок для детекции, YOLO26 — это универсальный инструмент компьютерного зрения. Используя единый синтаксис, ты можешь легко перейти от детекции объектов к пиксельной сегментации изображений или классификации всего изображения. Эта универсальность снижает технический долг, связанный с поддержкой нескольких разрозненных кодовых баз для различных функций компьютерного зрения.
Эффективное обучение и развертывание
Эффективность обучения — краеугольный камень философии Ultralytics. YOLO26 использует легкодоступные предобученные веса и может похвастаться значительно меньшим использованием памяти по сравнению с громоздкими vision transformers. После обучения встроенные конвейеры экспорта позволяют выполнять конвертацию в оптимизированные форматы, такие как TensorRT или TensorFlow Lite, в один клик, что делает путь к продакшену максимально гладким.
Пример кода: начало работы с YOLO26
Внедрение YOLO26 удивительно просто. Следующий фрагмент Python кода демонстрирует, как загрузить предобученную модель, обучить её на собственных данных и запустить инференс, используя API Ultralytics.
from ultralytics import YOLO
# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Uses GPU 0, or use 'cpu' for CPU training
)
# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Display the bounding boxes and confidences
predictions[0].show()Используя скорость, упрощенную архитектуру и надежную экосистему YOLO26, команды могут быстрее выводить на рынок передовые приложения ИИ в области компьютерного зрения с меньшим количеством технических трудностей, чем когда-либо прежде.