YOLOv10 против YOLO26: Эволюция сквозного детектирования объектов
В последние годы область компьютерного зрения пережила значительные изменения, перейдя от сложных архитектур с тяжелой постобработкой к оптимизированным сквозным моделям. В этом техническом сравнении мы рассмотрим два ключевых этапа этого пути: академический прорыв YOLOv10 и передовую, готовую к промышленному использованию модель YOLO26. Изучив их архитектуры, методологии обучения и возможности развертывания в реальных условиях, ты сможешь принять взвешенное решение при создании своего следующего приложения в области компьютерного зрения.
YOLOv10: Пионер сквозного детектирования объектов
Авторы: Ао Ван, Хуэй Чэнь, Лихао Лю и др.
Организация: Университет Цинхуа
Дата: 2024-05-23
Ссылки: arXiv Paper | Репозиторий GitHub
Выпущенная в середине 2024 года, YOLOv10 стала значительным шагом вперед в академических исследованиях по компьютерному зрению, устранив одно из самых серьезных препятствий в детектировании объектов в реальном времени: Non-Maximum Suppression (NMS). Традиционные детекторы объектов сильно зависели от NMS для фильтрации лишних ограничивающих рамок, что добавляло переменные задержки при инференсе и усложняло развертывание на периферийных устройствах.
Команда Университета Цинхуа представила стратегию последовательного двойного назначения для обучения без использования NMS. Это позволило модели точно предсказывать ограничивающие рамки без необходимости этапа постобработки, что напрямую повысило скорость инференса и снизило порог входа для развертывания на аппаратных ускорителях. Будучи крайне эффективной для стандартных задач детектирования, модель была сфокусирована преимущественно на предсказании рамок и не имела нативной поддержки более сложных задач, таких как сегментация экземпляров или оценка позы.
YOLO26: Новый стандарт для периферийного и облачного компьютерного зрения
Авторы: Гленн Джочер и Цзин Цю
Организация: Ultralytics
Дата: 2026-01-14
Ссылки: Репозиторий GitHub | Платформа Ultralytics
Основываясь на концепциях работы без NMS, предложенных ранее, новая модель YOLO26 представляет собой вершину производительности и универсальности. Разработанная как для академических исследований, так и для промышленного развертывания, она изначально включает в себя сквозной дизайн без NMS, полностью исключая постобработку для более быстрого и простого развертывания на любом поддерживаемом оборудовании.
YOLO26 предлагает ряд революционных архитектурных улучшений. Отказ от Distribution Focal Loss (DFL) значительно упрощает процесс экспорта модели и повышает совместимость с маломощными периферийными устройствами. В дополнение к этим структурным изменениям, YOLO26 достигает ускорения инференса на CPU до 43%, что делает её исключительным выбором для IoT и робототехники, где GPU-ускорение может быть недоступно.
Более того, стабильность обучения и скорость сходимости были радикально улучшены благодаря использованию оптимизатора MuSGD, гибрида SGD и Muon, вдохновленного методами обучения LLM. В сочетании с передовыми функциями потерь, такими как ProgLoss + STAL, YOLO26 демонстрирует заметные улучшения в распознавании мелких объектов. Модель также внедряет специализированные улучшения, включая прототипирование с несколькими масштабами для сегментации, Residual Log-Likelihood Estimation (RLE) для оценки позы и специализированную функцию потерь по углу для решения проблем границ в детектировании ориентированных ограничивающих рамок (OBB).
Для команд, стремящихся масштабировать свои рабочие процессы в области компьютерного зрения, Платформа Ultralytics обеспечивает бесшовную интеграцию с YOLO26, предлагая интуитивно понятную разметку данных, автоматизированное обучение в облаке и возможность развертывания в один клик без необходимости создания сложной MLOps-инфраструктуры.
Сравнение технической производительности
При оценке этих моделей баланс между точностью, размером модели и скоростью инференса имеет решающее значение. В таблице ниже представлена производительность обоих семейств моделей в разных масштабах, оцененная на стандартном наборе данных COCO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Данные наглядно демонстрируют эволюционное преимущество новой архитектуры. YOLO26 достигает более высокого показателя mAP (средняя точность) во всех категориях размеров, сохраняя при этом высокую конкурентоспособность по скорости инференса. Удаление DFL в YOLO26 напрямую способствует исключительной производительности при работе через ONNX на CPU, в чем предыдущие поколения часто уступали.
Методологии обучения и экосистема
Модель полезна ровно настолько, насколько полезна поддерживающая её экосистема. Хотя YOLOv10 предоставила отличную академическую реализацию на базе PyTorch, она зачастую требует ручной настройки для задач, выходящих за рамки базового детектирования.
В отличие от нее, YOLO26 полностью интегрирована в хорошо поддерживаемую экосистему Ultralytics. Это обеспечивает значительно меньшие требования к памяти при обучении по сравнению с трансформерными моделями, такими как RT-DETR, позволяя исследователям тренировать современные сети на потребительском оборудовании. Простота использования не имеет себе равных: предлагается унифицированный API, который автоматически берет на себя аугментацию данных, настройку гиперпараметров и логирование.
Пример кода: Обучение YOLO26
Для обучения универсальной и высокоточной модели требуется всего несколько строк кода на Python:
from ultralytics import YOLO
# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with automatic memory management
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
)
# Export natively to TensorRT without NMS complexities
model.export(format="engine")Реальные приложения и варианты использования
Выбор подходящей архитектуры полностью зависит от ограничений развертывания.
Высокоскоростные периферийные вычисления
Для приложений, требующих быстрого развертывания на микроконтроллерах, робототехнике или устаревших мобильных устройствах, ускорение инференса на CPU на 43% делает YOLO26 безальтернативным выбором. Её архитектура без NMS и DFL легко конвертируется в форматы, такие как OpenVINO и TensorRT, что идеально подходит для видеоаналитики в реальном времени в инфраструктурах «умного города».
Продвинутое многозадачное зрение
В то время как YOLOv10 отлично справляется с чистым детектированием объектов, проекты, требующие глубокого визуального анализа, должны опираться на YOLO26. От сегментации экземпляров в медицинской диагностике до точной оценки позы в спортивной аналитике, YOLO26 предоставляет специфичные для задач функции потерь, которые гарантируют превосходную точность в самых разных областях.
Если твоему проекту необходимо надежное детектирование с открытым словарем, попробуй изучить YOLO-World. Для пользователей, поддерживающих устаревшие пайплайны, YOLO11 остается полностью поддерживаемой и мощной альтернативой в рамках экосистемы Ultralytics.
Варианты использования и рекомендации
Выбор между YOLOv10 и YOLO26 зависит от специфических требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.
Когда выбирать YOLOv10
YOLOv10 — хороший выбор для:
- Обнаружение в реальном времени без NMS: Приложения, которые выигрывают от комплексного обнаружения без Non-Maximum Suppression, что снижает сложность развертывания.
- Сбалансированные компромиссы скорости и точности: Проекты, требующие хорошего баланса между скоростью вывода и точностью обнаружения для моделей различных масштабов.
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
Когда выбирать YOLO26
YOLO26 рекомендуется для:
- Периферийное развертывание без NMS: Приложениям требуется стабильный вывод с низкой задержкой без сложности постобработки Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного GPU-ускорения, где преимущество YOLO26 в виде до 43% более быстрого вывода на CPU является решающим.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэросъемка с дронов или анализ данных IoT-датчиков, где ProgLoss и STAL значительно повышают точность распознавания крошечных объектов.
Заключение
Переход от YOLOv10 к YOLO26 подчеркивает важный сдвиг от академических прототипов к готовым промышленным решениям. Внедряя пионерский дизайн без NMS и улучшая его с помощью оптимизатора MuSGD, ProgLoss и оптимизированной совместимости с периферийными устройствами, YOLO26 устанавливает новый стандарт возможностей в компьютерном зрении реального времени. Для разработчиков, стремящихся достичь наилучшего баланса скорости, точности и удобства, YOLO26 является оптимальной рекомендацией.