YOLO26 против YOLOv5: поколенческий скачок в распознавании объектов
Эволюция компьютерного зрения всегда определялась неустанным стремлением к скорости, точности и доступности. Выбор правильной архитектуры критически важен для успеха любого проекта в области ИИ. В этом подробном руководстве мы сравниваем два монументальных релиза от Ultralytics: первопроходца YOLOv5 и инновационный YOLO26. Хотя обе модели оказали огромное влияние на ландшафт распознавания объектов в реальном времени, их базовые технологии отражают масштабный сдвиг парадигмы в том, как нейронные сети обрабатывают визуальные данные.
Обзор моделей
Прежде чем погрузиться в архитектурные нюансы, давай установим базовые характеристики обеих моделей.
Детали YOLO26:
- Авторы: Гленн Джочер (Glenn Jocher) и Цзин Цю (Jing Qiu)
- Организация: Ultralytics
- Дата: 2026-01-14
- GitHub: https://github.com/ultralytics/ultralytics
- Документация: Документация YOLO26
Детали YOLOv5:
- Автор: Гленн Джочер (Glenn Jocher)
- Организация: Ultralytics
- Дата: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- Документация: Документация YOLOv5
Архитектурные инновации
Шестилетний разрыв между YOLOv5 и YOLO26 представляет собой колоссальный скачок в исследованиях глубокого обучения. YOLOv5 популяризировала широкое использование PyTorch для моделей компьютерного зрения, предложив высокооптимизированный механизм детектирования на основе анкоров, ставший отраслевым стандартом. Однако модель сильно зависела от подавления немаксимумов (NMS) при постобработке, что могло создавать задержки на устройствах с ограниченными ресурсами.
YOLO26 полностью переосмысливает конвейер логического вывода с помощью сквозного дизайна без NMS. Устраняя необходимость в постобработке NMS, YOLO26 обеспечивает более быструю и простую логику развертывания — концепцию, впервые опробованную в YOLOv10, но доведенную до совершенства здесь. Более того, YOLO26 включает функцию удаления DFL (Distribution Focal Loss), что значительно упрощает выходной слой. Это делает экспорт модели в такие форматы, как ONNX и TensorRT, невероятно гладким, обеспечивая отличную совместимость с периферийными устройствами и техникой с низким энергопотреблением.
При обучении YOLO26 использует передовой оптимизатор MuSGD — гибрид SGD и Muon, вдохновленный Kimi K2 от Moonshot AI. Это привносит инновации из обучения LLM в сферу компьютерного зрения, гарантируя высокую стабильность обучения и значительно более быструю сходимость по сравнению с традиционными оптимизаторами SGD или AdamW, используемыми в YOLOv5.
Производительность и метрики
При оценке моделей баланс между средней точностью (mAP) и скоростью логического вывода определяет их пригодность для реальных задач. YOLO26 изначально оптимизирована как для мощных GPU, так и для периферийных CPU.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Тестирование показывает ошеломляющее улучшение. Например, YOLO26n достигает mAP 40.9 по сравнению с 28.0 у YOLOv5n, при этом предлагая до 43% более быстрое выполнение логического вывода на CPU. Это делает YOLO26 значительно эффективнее для встраиваемых систем, таких как Raspberry Pi, или мобильных устройств. Хотя YOLOv5 сохраняет небольшое преимущество в скорости на GPU при использовании TensorRT в масштабе Nano, компромисс в точности явно говорит в пользу YOLO26.
Экосистема обучения и простота использования
Обе модели получают огромную выгоду от хорошо поддерживаемой экосистемы Ultralytics. Они предлагают опыт «от нуля до героя» с оптимизированным Python API, обширной документацией и активной поддержкой сообщества. Однако YOLO26 выводит эффективность обучения на новый уровень.
Модели Ultralytics стабильно требуют значительно меньше памяти CUDA во время обучения по сравнению с альтернативами, перегруженными трансформерами. YOLO26 усиливает этот аспект своими функциями потерь ProgLoss + STAL. Эти достижения приносят заметные улучшения в распознавании мелких объектов без чрезмерного расхода памяти.
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model with the MuSGD optimizer (default for YOLO26)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Run fast, NMS-free inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()Этот простой скрипт позволяет разработчикам быстро итерировать пользовательские наборы данных, беспрепятственно переходя от загрузки данных к готовой к работе модели.
Используя платформу Ultralytics, ты можешь автоматически экспортировать свои обученные модели YOLO26 в форматы, такие как CoreML или TensorFlow Lite, не написав ни строчки кода для конвертации.
Универсальность и идеальные варианты использования
Когда использовать YOLOv5
YOLOv5 остается надежной рабочей лошадкой для устаревших систем. Если у тебя есть промышленный конвейер, жестко привязанный к выводам на основе анкоров, или ты выполняешь логический вывод на старых устройствах NVIDIA Jetson со зрелыми, «замороженными» стеками TensorRT, YOLOv5 предоставляет стабильное и хорошо задокументированное решение.
Когда использовать YOLO26
YOLO26 — это окончательный выбор для современных проектов в области компьютерного зрения. Его универсальность намного превосходит предшественника. В то время как YOLOv5 в основном фокусируется на обнаружении (с последующим добавлением сегментации), YOLO26 предлагает глубокую, нативную поддержку сегментации экземпляров, оценки позы, классификации изображений и ориентированных ограничивающих рамок (OBB).
YOLO26 внедряет улучшения для конкретных задач, такие как специализированная функция потерь для семантической сегментации, оценивание остаточного логарифмического правдоподобия (RLE) для сверхточных ключевых точек позы и расширенная функция потерь угла для OBB, позволяющая решить сложные проблемы границ.
- Edge IoT и робототехника: Архитектура без NMS и ускоренный на 43% логический вывод на CPU делают YOLO26 идеальным решением для навигации роботов в реальном времени и умных домашних камер.
- Аэрофотосъемка: Улучшения ProgLoss + STAL делают обнаружение крошечных объектов с дронов — например, транспортных средств на парковках или посевов на сельскохозяйственных полях — значительно более надежным.
- Видеоаналитика в реальном времени: Будь то отслеживание спортсменов в спортивных трансляциях или мониторинг транспортных потоков, баланс производительности YOLO26 обеспечивает высокий показатель полноты (recall) без пропусков кадров.
В конечном итоге, приверженность Ultralytics созданию доступной высокопроизводительной экосистемы гарантирует, что переход с YOLOv5 на YOLO26 пройдет безболезненно, открывая передовые возможности как для исследователей, так и для разработчиков.