Перейти к содержанию

YOLOv9 vs. YOLO26: Глубокий технический анализ современной детекции объектов

Ландшафт обнаружения объектов в реальном времени значительно изменился за последние несколько лет. Поскольку специалисты по машинному обучению стремятся развертывать модели на различных аппаратных платформах, выбор правильной архитектуры имеет решающее значение. В этом всестороннем техническом руководстве мы сравниваем две важные вехи в области компьютерного зрения: YOLOv9, представленную в начале 2024 года с акцентом на оптимизацию градиентных путей, и Ultralytics YOLO26, новейший передовой фреймворк, выпущенный в начале 2026 года, который полностью переопределяет инференс на периферии и стабильность обучения.

Краткое резюме: Происхождение модели и авторство

Понимание истоков этих моделей глубокого обучения дает ценный контекст относительно их архитектурных решений и целевой аудитории.

YOLOv9

Разработанная Чэнь-Яо Ваном и Хун-Юань Марком Ляо из Института информационных наук Academia Sinica на Тайване, YOLOv9 была выпущена 21 февраля 2024 года. Модель активно фокусируется на теоретических концепциях глубокого обучения, в частности, решая проблему информационного узкого места в глубоких сверточных нейронных сетях (CNN).

Узнайте больше о YOLOv9

Ultralytics YOLO26

Разработано Гленном Джочером и Цзин Цю в Ultralytics, YOLO26 было выпущено 14 января 2026 года. Основываясь на огромном успехе предшественников, таких как YOLO11 и YOLOv8, YOLO26 было спроектировано с нуля с приоритетом на готовность к производству, развертывание на периферийных устройствах и нативную сквозную эффективность.

Узнайте больше о YOLO26

Попробуйте YOLO26 сегодня

Готовы обновить ваш конвейер компьютерного зрения? Вы можете легко обучать и развертывать модели YOLO26 в облаке без написания кода, используя платформу Ultralytics.

Архитектурные инновации

Обе модели вносят новаторские изменения в то, как нейронные сети обрабатывают визуальные данные, но они подходят к проблеме с разных сторон.

Программируемая градиентная информация в YOLOv9

Основной вклад YOLOv9 в эту область — это внедрение Программируемой Градиентной Информации (ПГИ) и Обобщенной Эффективной Сети Агрегации Слоев (GELAN). По мере углубления нейронных сетей они часто страдают от потери информации в процессе прямого распространения. ПГИ гарантирует, что градиенты, используемые для обновления весов во время обратного распространения, остаются точными и надежными, что позволяет архитектуре GELAN достигать высокой точности при меньшем количестве параметров.

Однако YOLOv9 в значительной степени полагается на традиционное подавление немаксимумов (NMS) для постобработки, что может стать узким местом по задержке во время инференса в реальных условиях.

Архитектура YOLO26, ориентированная на периферийные устройства

YOLO26 применяет радикально иной подход, оптимизируя весь конвейер от обучения до развертывания в реальном времени. Он основан на сквозной архитектуре без NMS, впервые примененной в YOLOv10, полностью устраняя необходимость в постобработке NMS. Это приводит к невероятно низкой задержке, что делает его сильно оптимизированным для периферийных устройств, таких как Raspberry Pi или NVIDIA Jetson.

Кроме того, YOLO26 полностью исключает Distribution Focal Loss (DFL). Это структурное изменение упрощает экспорт модели в ONNX и обеспечивает значительно лучшую совместимость с микроконтроллерами с низким энергопотреблением.

Для этапа обучения YOLO26 интегрирует новый оптимизатор MuSGD, гибрид стохастического градиентного спуска и Muon (вдохновленный методологиями обучения LLM от Kimi K2 Moonshot AI). Это устраняет разрыв между инновациями в обучении больших языковых моделей (LLM) и компьютерным зрением, предлагая значительно более стабильное обучение и более быстрое время сходимости.

Сравнение производительности и метрик

При бенчмаркинге на широко используемом наборе данных COCO обе модели демонстрируют исключительные возможности, но экосистема Ultralytics выделяется практической скоростью инференса и эффективностью параметров.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Анализ результатов

  • Скорость и эффективность: Поскольку YOLO26 использует архитектуру без NMS и упрощенные функции потерь, он обеспечивает до 43% более быстрый вывод на CPU по сравнению с устаревшими архитектурами. Модель YOLO26n работает с невероятной скоростью 1.7 мс на NVIDIA T4 GPU с использованием TensorRT, что делает ее идеальным выбором для видеопотоков в реальном времени.
  • Точность: Модель YOLO26x достигает беспрецедентного 57,5 mAP, превосходя крупнейшую модель YOLOv9e при сохранении более низкой задержки.
  • Требования к памяти: Модели Ultralytics известны своей эффективностью. YOLO26 требует значительно меньше памяти CUDA во время обучения модели и инференса по сравнению со сложными визуальными моделями на основе трансформеров, что позволяет разработчикам использовать большие размеры пакетов на потребительском оборудовании.

Экосистема, простота использования и универсальность

Истинная сила экосистемы Ultralytics заключается в ее пользовательском опыте. В то время как исследователи, использующие кодовую базу GitHub YOLOv9, должны разбираться со сложными настройками окружения и ручным написанием скриптов, YOLO26 полностью интегрирован в интуитивно понятный Python API Ultralytics.

Пример оптимизированного API

Обучение передовой модели YOLO26 требует всего нескольких строк Python-кода:

from ultralytics import YOLO

# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export natively to ONNX format in a single command
model.export(format="onnx")

Непревзойденная универсальность задач

В отличие от YOLOv9, который в основном предназначен для стандартного обнаружения объектов, YOLO26 изначально поддерживает широкий спектр задач компьютерного зрения "из коробки". Архитектура включает специфические улучшения для разнообразных приложений:

  • Сегментация экземпляров: Включает специализированную функцию потерь для семантической сегментации и многомасштабный прототип для безупречных масок на пиксельном уровне.
  • Оценка позы: Интегрирует оценку остаточного логарифмического правдоподобия (RLE) для отслеживания скелетных ключевых точек с исключительной точностью.
  • Ориентированные ограничивающие прямоугольники (obb): Включает специализированную функцию потерь по углу, разработанную специально для решения проблем с границами при обнаружении повернутых объектов на аэрофотоснимках.
  • Классификация изображений: Надежная категоризация для целых изображений на основе стандартов ImageNet.

Интегрированная экосистема

Все модели YOLO26 выигрывают от бесшовной интеграции с платформой Ultralytics, предлагающей встроенную разметку наборов данных, активное обучение и конвейеры мгновенного развертывания.

Приложения в реальном мире

Выбор между этими моделями часто сводится к среде, в которой они будут развернуты.

IoT и граничная робототехника

Для робототехники, автономных дронов и устройств IoT для умного дома YOLO26 является бесспорным чемпионом. Интеграция ProgLoss + STAL приносит заметные улучшения в распознавании мелких объектов, что критически важно для мониторинга сельского хозяйства с высотных дронов. В сочетании с 43% более быстрым выводом на CPU и NMS-free дизайном, YOLO26 может бесперебойно работать на оборудовании без выделенных GPU.

Академические исследования и анализ градиентов

YOLOv9 остается высокоуважаемой моделью в академических кругах. Исследователи, изучающие теоретические границы потока градиентов, или те, кто стремится создавать пользовательские слои PyTorch на основе концепции PGI, найдут кодовую базу YOLOv9 отличной основой для исследования теории глубокого обучения.

Высокоскоростные производственные конвейеры

В промышленных условиях, таких как автоматизированное обнаружение дефектов на высокоскоростных конвейерных лентах, молниеносные скорости TensorRT моделей YOLO26 гарантируют, что кадры не теряются, максимизируя пропускную способность систем контроля качества.

Сценарии использования и рекомендации

Выбор между YOLOv9 и YOLO26 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбирать YOLOv9

YOLOv9 — отличный выбор для:

  • Исследования информационного узкого места: Академические проекты, изучающие архитектуры Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
  • Исследования по оптимизации потока градиентов: Исследования, направленные на понимание и снижение потери информации в глубоких слоях сети во время обучения.
  • Бенчмаркинг обнаружения с высокой точностью: Сценарии, где высокая производительность YOLOv9 в бенчмарке COCO необходима в качестве эталонной точки для архитектурных сравнений.

Когда выбирать YOLO26

YOLO26 рекомендуется для:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Заключение

Обе модели представляют собой невероятные шаги вперед для сообщества открытого исходного кода. YOLOv9 внесла жизненно важные теоретические улучшения в поток градиентов, которые будут вдохновлять архитектуры на долгие годы. Однако для современных разработчиков, стартапов и корпоративных команд, ищущих безупречный баланс скорости, точности и простоты развертывания, Ultralytics YOLO26 является очевидной рекомендацией.

Устранение NMS, внедрение мощного оптимизатора MuSGD и предоставление беспрецедентного набора инструментов для задач detect, segment и определения позы гарантируют, что ваши проекты компьютерного зрения будут построены на самой надёжной и перспективной платформе, доступной сегодня.


Комментарии