Перейти к содержанию

YOLOv10 против YOLO26: Эволюция сквозного обнаружения объектов

Ландшафт компьютерного зрения за последние годы стал свидетелем значительных достижений, перейдя от сложных архитектур с интенсивной постобработкой к упрощенным сквозным моделям. Это техническое сравнение углубляется в две основные вехи на этом пути: академический прорыв YOLOv10 и передовую, готовую к корпоративному использованию YOLO26. Изучая их архитектуры, методологии обучения и возможности развертывания в реальном мире, разработчики могут принимать обоснованные решения при создании своих следующих приложений ИИ для зрения.

YOLOv10: Пионер сквозного обнаружения объектов

Авторы: Ao Wang, Hui Chen, Lihao Liu и др.
Организация: Университет Цинхуа
Дата: 2024-05-23
Ссылки: Статья на arXiv | Репозиторий GitHub

Выпущенный в середине 2024 года, YOLOv10 стал значительным шагом вперед в академических исследованиях компьютерного зрения, устранив одно из самых постоянных узких мест в обнаружении объектов в реальном времени: подавление немаксимумов (NMS). Традиционные детекторы объектов сильно зависели от NMS для отфильтровывания избыточных ограничивающих рамок, что добавляло переменную задержку во время инференса и усложняло развертывание на периферийных устройствах.

Команда Университета Цинхуа представила согласованную стратегию двойного назначения для обучения без NMS. Это позволило модели точно предсказывать ограничивающие рамки без необходимости этапа постобработки и фильтрации, напрямую улучшая задержку инференса и снижая барьер для развертывания на аппаратных ускорителях. Хотя модель была высокоэффективна для стандартных задач detect, она в основном фокусировалась на предсказании ограничивающих рамок и не имела встроенной поддержки для более сложных задач, таких как instance segment или оценка позы.

Узнайте больше о YOLOv10

YOLO26: Новый стандарт Vision AI для периферийных и облачных вычислений

Авторы: Гленн Джочер и Цзин Цю
Организация: Ultralytics
Дата: 2026-01-14
Ссылки: Репозиторий GitHub | Платформа Ultralytics

Опираясь на ранее разработанные концепции NMS-free, недавно выпущенный YOLO26 представляет собой вершину производительности и универсальности. Разработанный как для академических исследований, так и для корпоративного развертывания, он изначально включает в себя сквозной NMS-free дизайн, полностью исключая постобработку NMS для более быстрого и простого развертывания на всем поддерживаемом оборудовании.

YOLO26 представляет несколько новаторских архитектурных улучшений. Удаление Distribution Focal Loss (DFL) значительно упрощает процесс экспорта модели и повышает совместимость с маломощными граничными устройствами. В сочетании с этими структурными изменениями YOLO26 достигает до 43% более быстрой инференции на CPU, что делает его исключительным выбором для приложений IoT и робототехники, где ускорение на GPU может быть недоступно.

Кроме того, стабильность обучения и скорость сходимости были революционизированы благодаря использованию оптимизатора MuSGD, гибрида SGD и Muon, вдохновленного методами обучения LLM. В сочетании с продвинутыми функциями потерь, такими как ProgLoss + STAL, YOLO26 демонстрирует заметные улучшения в распознавании мелких объектов. Он также предлагает специфические для задач улучшения, включая многомасштабное прототипирование для segment, оценку остаточного логарифмического правдоподобия (RLE) для оценки позы и специализированную угловую функцию потерь для решения проблем границ при детектировании ориентированных ограничивающих рамок (OBB).

Узнайте больше о YOLO26

Корпоративное развертывание

Для команд, стремящихся масштабировать свои рабочие процессы компьютерного зрения, платформа Ultralytics обеспечивает бесшовную интеграцию с YOLO26, предлагая интуитивно понятную аннотацию данных, автоматизированное облачное обучение и варианты развертывания в один клик без необходимости в обширной инфраструктуре MLOps.

Сравнение технических характеристик

При оценке этих моделей критически важен баланс между точностью, размером модели и скоростью инференса. В таблице ниже показана производительность обоих семейств моделей в различных масштабах, оцененная на стандартном наборе данных COCO.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Данные наглядно демонстрируют эволюционное преимущество новой архитектуры. YOLO26 достигает более высокого mAP (средней точности) во всех размерных категориях, сохраняя при этом высококонкурентные скорости инференса. Удаление DFL в YOLO26 особенно способствует его исключительной производительности на CPU ONNX, метрике, с которой предыдущие поколения часто испытывали трудности.

Методологии обучения и экосистема

Полезность модели определяется только поддерживающей ее экосистемой. Хотя YOLOv10 предлагала отличную академическую реализацию на основе PyTorch, она часто требует ручной настройки для задач, выходящих за рамки базового detect.

В отличие от этого, YOLO26 полностью интегрирован в хорошо поддерживаемую экосистему Ultralytics. Это обеспечивает значительно меньшие требования к памяти во время обучения по сравнению с моделями на основе трансформеров, такими как RT-DETR, что позволяет исследователям обучать современные сети на потребительском оборудовании. Простота использования не имеет себе равных, предлагая унифицированный API, который автоматически обрабатывает аугментацию данных, настройку гиперпараметров и логирование.

Пример кода: Обучение YOLO26

Обучение универсальной, высокоточной модели требует всего нескольких строк Python-кода:

from ultralytics import YOLO

# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model efficiently with automatic memory management
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
)

# Export natively to TensorRT without NMS complexities
model.export(format="engine")

Реальные приложения и варианты использования

Выбор правильной архитектуры полностью зависит от ограничений развертывания.

Высокоскоростные периферийные вычисления

Для приложений, требующих быстрого развертывания на микроконтроллерах, в робототехнике или на устаревших мобильных устройствах, 43%-ное ускорение вывода на CPU в YOLO26 делает его окончательным выбором. Его архитектура без NMS и DFL легко конвертируется в такие форматы, как OpenVINO и TensorRT, что идеально подходит для аналитики видео в реальном времени в инфраструктуре умного города.

Расширенное многозадачное зрение

Хотя YOLOv10 превосходно справляется с чистым обнаружением ограничивающих рамок, проекты, требующие глубокого визуального понимания, должны полагаться на YOLO26. От сегментации экземпляров в медицинской визуализации до точной оценки позы для спортивной аналитики, YOLO26 предоставляет функции потерь, специфичные для задач, которые гарантируют превосходную точность в различных областях.

Альтернативные варианты

Если ваш проект требует надежного обнаружения с открытым словарем, рассмотрите возможность изучения YOLO-World. Для пользователей, поддерживающих устаревшие конвейеры, YOLO11 остается полностью поддерживаемой и мощной альтернативой в рамках фреймворка Ultralytics.

Сценарии использования и рекомендации

Выбор между YOLOv10 и YOLO26 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.

Когда выбирать YOLOv10

YOLOv10 — отличный выбор для:

  • Обнаружение в реальном времени без NMS: Приложения, выигрывающие от сквозного обнаружения без Non-Maximum Suppression, что снижает сложность развертывания.
  • Сбалансированный компромисс между скоростью и точностью: Проекты, требующие оптимального баланса между скоростью инференса и точностью обнаружения для моделей различных масштабов.
  • Приложения с предсказуемой задержкой: Сценарии развертывания, где критически важны предсказуемые времена инференса, например, в робототехнике или автономных системах.

Когда выбирать YOLO26

YOLO26 рекомендуется для:

  • Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
  • Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
  • Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Заключение

Переход от YOLOv10 к YOLO26 подчеркивает ключевой сдвиг от академического доказательства концепции к готовым к производству корпоративным решениям. Приняв новаторскую NMS-free архитектуру и улучшив ее с помощью оптимизатора MuSGD, ProgLoss и упрощенной совместимости с периферийными устройствами, YOLO26 устанавливает новый стандарт для возможностей в компьютерном зрении реального времени. Для разработчиков, стремящихся достичь наилучшего баланса скорости, точности и удобства использования, YOLO26 выделяется как окончательная рекомендация.


Комментарии