YOLOv10 против YOLO26: Эволюция сквозного обнаружения объектов
Ландшафт компьютерного зрения за последние годы стал свидетелем значительных достижений, перейдя от сложных архитектур с интенсивной постобработкой к упрощенным сквозным моделям. Это техническое сравнение углубляется в две основные вехи на этом пути: академический прорыв YOLOv10 и передовую, готовую к корпоративному использованию YOLO26. Изучая их архитектуры, методологии обучения и возможности развертывания в реальном мире, разработчики могут принимать обоснованные решения при создании своих следующих приложений ИИ для зрения.
YOLOv10: Пионер сквозного обнаружения объектов
Авторы: Ao Wang, Hui Chen, Lihao Liu и др.
Организация: Университет Цинхуа
Дата: 2024-05-23
Ссылки: Статья на arXiv | Репозиторий GitHub
Выпущенный в середине 2024 года, YOLOv10 стал значительным шагом вперед в академических исследованиях компьютерного зрения, устранив одно из самых постоянных узких мест в обнаружении объектов в реальном времени: подавление немаксимумов (NMS). Традиционные детекторы объектов сильно зависели от NMS для отфильтровывания избыточных ограничивающих рамок, что добавляло переменную задержку во время инференса и усложняло развертывание на периферийных устройствах.
Команда Университета Цинхуа представила согласованную стратегию двойного назначения для обучения без NMS. Это позволило модели точно предсказывать ограничивающие рамки без необходимости этапа постобработки и фильтрации, напрямую улучшая задержку инференса и снижая барьер для развертывания на аппаратных ускорителях. Хотя модель была высокоэффективна для стандартных задач detect, она в основном фокусировалась на предсказании ограничивающих рамок и не имела встроенной поддержки для более сложных задач, таких как instance segment или оценка позы.
YOLO26: Новый стандарт Vision AI для периферийных и облачных вычислений
Авторы: Гленн Джочер и Цзин Цю
Организация: Ultralytics
Дата: 2026-01-14
Ссылки: Репозиторий GitHub | Платформа Ultralytics
Опираясь на ранее разработанные концепции NMS-free, недавно выпущенный YOLO26 представляет собой вершину производительности и универсальности. Разработанный как для академических исследований, так и для корпоративного развертывания, он изначально включает в себя сквозной NMS-free дизайн, полностью исключая постобработку NMS для более быстрого и простого развертывания на всем поддерживаемом оборудовании.
YOLO26 представляет несколько новаторских архитектурных улучшений. Удаление Distribution Focal Loss (DFL) значительно упрощает процесс экспорта модели и повышает совместимость с маломощными граничными устройствами. В сочетании с этими структурными изменениями YOLO26 достигает до 43% более быстрой инференции на CPU, что делает его исключительным выбором для приложений IoT и робототехники, где ускорение на GPU может быть недоступно.
Кроме того, стабильность обучения и скорость сходимости были революционизированы благодаря использованию оптимизатора MuSGD, гибрида SGD и Muon, вдохновленного методами обучения LLM. В сочетании с продвинутыми функциями потерь, такими как ProgLoss + STAL, YOLO26 демонстрирует заметные улучшения в распознавании мелких объектов. Он также предлагает специфические для задач улучшения, включая многомасштабное прототипирование для segment, оценку остаточного логарифмического правдоподобия (RLE) для оценки позы и специализированную угловую функцию потерь для решения проблем границ при детектировании ориентированных ограничивающих рамок (OBB).
Корпоративное развертывание
Для команд, стремящихся масштабировать свои рабочие процессы компьютерного зрения, платформа Ultralytics обеспечивает бесшовную интеграцию с YOLO26, предлагая интуитивно понятную аннотацию данных, автоматизированное облачное обучение и варианты развертывания в один клик без необходимости в обширной инфраструктуре MLOps.
Сравнение технических характеристик
При оценке этих моделей критически важен баланс между точностью, размером модели и скоростью инференса. В таблице ниже показана производительность обоих семейств моделей в различных масштабах, оцененная на стандартном наборе данных COCO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Данные наглядно демонстрируют эволюционное преимущество новой архитектуры. YOLO26 достигает более высокого mAP (средней точности) во всех размерных категориях, сохраняя при этом высококонкурентные скорости инференса. Удаление DFL в YOLO26 особенно способствует его исключительной производительности на CPU ONNX, метрике, с которой предыдущие поколения часто испытывали трудности.
Методологии обучения и экосистема
Полезность модели определяется только поддерживающей ее экосистемой. Хотя YOLOv10 предлагала отличную академическую реализацию на основе PyTorch, она часто требует ручной настройки для задач, выходящих за рамки базового detect.
В отличие от этого, YOLO26 полностью интегрирован в хорошо поддерживаемую экосистему Ultralytics. Это обеспечивает значительно меньшие требования к памяти во время обучения по сравнению с моделями на основе трансформеров, такими как RT-DETR, что позволяет исследователям обучать современные сети на потребительском оборудовании. Простота использования не имеет себе равных, предлагая унифицированный API, который автоматически обрабатывает аугментацию данных, настройку гиперпараметров и логирование.
Пример кода: Обучение YOLO26
Обучение универсальной, высокоточной модели требует всего нескольких строк Python-кода:
from ultralytics import YOLO
# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with automatic memory management
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
)
# Export natively to TensorRT without NMS complexities
model.export(format="engine")
Реальные приложения и варианты использования
Выбор правильной архитектуры полностью зависит от ограничений развертывания.
Высокоскоростные периферийные вычисления
Для приложений, требующих быстрого развертывания на микроконтроллерах, в робототехнике или на устаревших мобильных устройствах, 43%-ное ускорение вывода на CPU в YOLO26 делает его окончательным выбором. Его архитектура без NMS и DFL легко конвертируется в такие форматы, как OpenVINO и TensorRT, что идеально подходит для аналитики видео в реальном времени в инфраструктуре умного города.
Расширенное многозадачное зрение
Хотя YOLOv10 превосходно справляется с чистым обнаружением ограничивающих рамок, проекты, требующие глубокого визуального понимания, должны полагаться на YOLO26. От сегментации экземпляров в медицинской визуализации до точной оценки позы для спортивной аналитики, YOLO26 предоставляет функции потерь, специфичные для задач, которые гарантируют превосходную точность в различных областях.
Альтернативные варианты
Если ваш проект требует надежного обнаружения с открытым словарем, рассмотрите возможность изучения YOLO-World. Для пользователей, поддерживающих устаревшие конвейеры, YOLO11 остается полностью поддерживаемой и мощной альтернативой в рамках фреймворка Ultralytics.
Сценарии использования и рекомендации
Выбор между YOLOv10 и YOLO26 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда выбирать YOLOv10
YOLOv10 — отличный выбор для:
- Обнаружение в реальном времени без NMS: Приложения, выигрывающие от сквозного обнаружения без Non-Maximum Suppression, что снижает сложность развертывания.
- Сбалансированный компромисс между скоростью и точностью: Проекты, требующие оптимального баланса между скоростью инференса и точностью обнаружения для моделей различных масштабов.
- Приложения с предсказуемой задержкой: Сценарии развертывания, где критически важны предсказуемые времена инференса, например, в робототехнике или автономных системах.
Когда выбирать YOLO26
YOLO26 рекомендуется для:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Заключение
Переход от YOLOv10 к YOLO26 подчеркивает ключевой сдвиг от академического доказательства концепции к готовым к производству корпоративным решениям. Приняв новаторскую NMS-free архитектуру и улучшив ее с помощью оптимизатора MuSGD, ProgLoss и упрощенной совместимости с периферийными устройствами, YOLO26 устанавливает новый стандарт для возможностей в компьютерном зрении реального времени. Для разработчиков, стремящихся достичь наилучшего баланса скорости, точности и удобства использования, YOLO26 выделяется как окончательная рекомендация.