YOLOv9 против YOLO26: технический глубокий анализ современного обнаружения объектов
Ландшафт обнаружения объектов в реальном времени значительно эволюционировал за последние несколько лет. Поскольку специалисты по машинному обучению стремятся развертывать модели на самом разном оборудовании, выбор правильной архитектуры становится критически важным. В этом всестороннем техническом руководстве мы сравниваем две важные вехи в области компьютерного зрения: YOLOv9, представленную в начале 2024 года с акцентом на оптимизацию путей градиента, и Ultralytics YOLO26, новейший передовой фреймворк, выпущенный в начале 2026 года, который полностью переосмысливает граничные вычисления и стабильность обучения.
Краткое резюме: происхождение и авторство моделей
Понимание истоков этих моделей глубокого обучения дает ценный контекст относительно их архитектурных решений и целевой аудитории.
YOLOv9
Модель YOLOv9, созданная Чен-Яо Ваном (Chien-Yao Wang) и Хун-Юань Марком Ляо (Hong-Yuan Mark Liao) из Института информационных наук Academia Sinica на Тайване, была выпущена 21 февраля 2024 года. Модель в значительной степени фокусируется на теоретических концепциях глубокого обучения, в частности на решении проблемы «бутылочного горлышка» информации в глубоких сверточных нейронных сетях (CNN).
Ultralytics YOLO26
Модель YOLO26, созданная Гленном Джочером (Glenn Jocher) и Цзин Цю (Jing Qiu) из Ultralytics, была выпущена 14 января 2026 года. Опираясь на колоссальный успех предшественников, таких как YOLO11 и YOLOv8, YOLO26 была спроектирована с нуля для обеспечения готовности к производству, граничным вычислениям и нативной сквозной эффективности.
Готов обновить свой пайплайн компьютерного зрения? Ты можешь легко обучать и развертывать модели YOLO26 в облаке, не написав ни строчки кода, используя Ultralytics Platform.
Архитектурные инновации
Обе модели привносят революционные изменения в то, как нейронные сети обрабатывают визуальные данные, но они подходят к решению проблемы с разных сторон.
Программируемая градиентная информация в YOLOv9
Основным вкладом YOLOv9 в эту область является внедрение программируемой градиентной информации (PGI) и обобщенной сети агрегации эффективных слоев (GELAN). По мере того как нейронные сети становятся глубже, они часто страдают от потери информации в процессе прямого распространения. PGI гарантирует, что градиенты, используемые для обновления весов во время обратного распространения, остаются точными и надежными, что позволяет архитектуре GELAN достигать высокой точности при меньшем количестве параметров.
Однако YOLOv9 в значительной степени полагается на традиционное подавление немаксимумов (NMS) для постобработки, что может стать узким местом с точки зрения задержки при реальном выводе.
Архитектура YOLO26, ориентированная на граничные вычисления
YOLO26 использует радикально иной подход, оптимизируя весь процесс от обучения до развертывания в реальном времени. Она опирается на сквозной дизайн без NMS, впервые примененный в YOLOv10, полностью устраняя необходимость в постобработке NMS. Это обеспечивает невероятно низкую задержку, что делает модель сильно оптимизированной для граничных устройств, таких как Raspberry Pi или NVIDIA Jetson.
Более того, YOLO26 полностью удаляет Distribution Focal Loss (DFL). Это структурное изменение упрощает экспорт моделей в ONNX и обеспечивает значительно лучшую совместимость с микроконтроллерами с низким энергопотреблением.
Для этапа обучения YOLO26 интегрирует новый оптимизатор MuSGD, гибрид стохастического градиентного спуска и Muon (вдохновленный методологиями обучения LLM от Kimi K2 компании Moonshot AI). Это устраняет разрыв между инновациями в обучении больших языковых моделей (LLM) и компьютерным зрением, предлагая значительно более стабильное обучение и более быстрое время сходимости.
Сравнение производительности и метрик
При проведении бенчмаркинга на широко используемом наборе данных COCO обе модели демонстрируют исключительные возможности, но экосистема Ultralytics выигрывает за счет практической скорости вывода и эффективности параметров.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Анализ результатов
- Скорость и эффективность: поскольку YOLO26 использует архитектуру без NMS и упрощенные функции потерь, она обеспечивает до 43% более быстрый вывод на CPU по сравнению с устаревшими архитектурами. Модель YOLO26n работает с поразительной скоростью 1,7 мс на графическом процессоре NVIDIA T4 с использованием TensorRT, что делает ее идеальным выбором для видеопотоков в реальном времени.
- Точность: модель YOLO26x достигает непревзойденного показателя 57,5 mAP, превосходя самую большую модель YOLOv9e при сохранении более низкой задержки.
- Требования к памяти: модели Ultralytics известны своей эффективностью. YOLO26 требует значительно меньше памяти CUDA во время обучения модели и вывода по сравнению со сложными моделями компьютерного зрения на основе трансформеров, что позволяет тебе использовать большие размеры пакетов (batch sizes) на потребительском оборудовании.
Экосистема, простота использования и универсальность
Истинная сила экосистемы Ultralytics заключается в удобстве для пользователя. В то время как исследователям, использующим кодовую базу YOLOv9 на GitHub, приходится разбираться со сложными настройками окружения и ручным написанием скриптов, YOLO26 полностью интегрирована в интуитивно понятный Python API от Ultralytics.
Пример оптимизированного API
Для обучения передовой модели YOLO26 требуется всего несколько строк кода на Python:
from ultralytics import YOLO
# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export natively to ONNX format in a single command
model.export(format="onnx")Непревзойденная универсальность задач
В отличие от YOLOv9, которая в основном предназначена для стандартного обнаружения объектов, YOLO26 из коробки поддерживает широкий спектр задач компьютерного зрения. Архитектура включает специальные улучшения для различных приложений:
- Сегментация экземпляров: включает специализированную функцию потерь семантической сегментации и мультимасштабные прототипы для безупречных масок на уровне пикселей.
- Оценка позы: объединяет оценку остаточного логарифмического правдоподобия (RLE) для отслеживания ключевых точек скелета с исключительной точностью.
- Ориентированные ограничивающие рамки (OBB): включает специализированную функцию потерь по углу, разработанную специально для решения граничных проблем при обнаружении повернутых объектов на аэрофотоснимках.
- Классификация изображений: надежная категоризация целых изображений по стандартам ImageNet.
Все модели YOLO26 выигрывают от бесшовной интеграции с платформой Ultralytics, предлагая встроенную разметку наборов данных, активное обучение и пайплайны для мгновенного развертывания.
Применение в реальных условиях
Выбор между этими моделями часто сводится к среде, в которой они будут развернуты.
IoT и граничная робототехника
Для робототехники, автономных дронов и устройств умного дома IoT YOLO26 является бесспорным чемпионом. Интеграция ProgLoss + STAL приносит заметные улучшения в распознавании мелких объектов, что критически важно для сельскохозяйственного мониторинга с высотных дронов. В сочетании с 43% более быстрым выводом на CPU и дизайном без NMS, YOLO26 может плавно работать на оборудовании без выделенных GPU.
Академические исследования и градиентный анализ
YOLOv9 остается очень уважаемой моделью в академических кругах. Исследователи, изучающие теоретические границы градиентного потока, или те, кто стремится создать пользовательские слои PyTorch на основе концепции PGI, найдут кодовую базу YOLOv9 отличным фундаментом для изучения теории глубокого обучения.
Высокоскоростные производственные пайплайны
В промышленных условиях, таких как автоматизированное обнаружение дефектов на высокоскоростных конвейерных лентах, молниеносная скорость моделей YOLO26 через TensorRT гарантирует, что ни один кадр не будет пропущен, максимизируя пропускную способность систем контроля качества.
Варианты использования и рекомендации
Выбор между YOLOv9 и YOLO26 зависит от требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.
Когда выбирать YOLOv9
YOLOv9 — сильный выбор для:
- Исследований информационных узких мест: академических проектов, изучающих архитектуры PGI (Programmable Gradient Information) и GELAN (Generalized Efficient Layer Aggregation Network).
- Изучения оптимизации градиентного потока: исследований, сфокусированных на понимании и смягчении потери информации в глубоких слоях сети во время обучения.
- Бенчмаркинга высокоточного детектирования: сценариев, где высокая производительность YOLOv9 на бенчмарке COCO нужна как точка отсчета для архитектурных сравнений.
Когда выбирать YOLO26
YOLO26 рекомендуется для:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Заключение
Обе модели представляют собой невероятный шаг вперед для сообщества open-source. YOLOv9 внесла жизненно важные теоретические улучшения в градиентный поток, которые будут вдохновлять архитектуры в ближайшие годы. Однако для современных разработчиков, стартапов и корпоративных команд, ищущих безупречный баланс скорости, точности и легкости развертывания, Ultralytics YOLO26 является однозначной рекомендацией.
Устраняя NMS, внедряя мощный оптимизатор MuSGD и предоставляя непревзойденный набор инструментов для задач обнаружения, сегментации и оценки позы, YOLO26 гарантирует, что твои проекты по компьютерному зрению будут построены на самом надежном и перспективном фреймворке, доступном сегодня.