Перейти к содержанию

YOLO26 против YOLO11: Поколенческий скачок в области визуального ИИ

При создании передовых систем компьютерного зрения выбор правильной модели имеет решающее значение для балансирования точности, задержки и эффективности использования ресурсов. В быстро развивающемся ландшафте искусственного интеллекта Ultralytics продолжает расширять границы возможного. Это подробное техническое сравнение исследует переход от весьма успешной YOLO11 к революционной новой YOLO26, предоставляя инженерам и исследователям в области ИИ необходимые данные для принятия обоснованных архитектурных решений.

Происхождение модели и метаданные

Обе модели были разработаны Ultralytics, но они представляют разные парадигмы в истории моделей обнаружения объектов и многозадачного компьютерного зрения.

Детали YOLO26:

Узнайте больше о YOLO26

Детали YOLO11:

Узнайте больше о YOLO11

Другие архитектуры

Хотя YOLO26 является нашей самой передовой моделью реального времени, пользователи, работающие с высокоспециализированным оборудованием или большими объемами памяти, могут также рассмотреть архитектуры на основе трансформеров, такие как RT-DETR, или новаторскую модель без NMS, YOLOv10.

Архитектурные различия и инновации

Переход от YOLO11 к YOLO26 включает фундаментальные изменения как в архитектуре модели, так и в базовом режиме обучения. В то время как YOLO11 установила надежную основу для обнаружения объектов и многозадачного обучения, YOLO26 полностью перестраивает конвейер развертывания для периферийных вычислений.

Сквозной дизайн без NMS

Одним из наиболее значительных улучшений в YOLO26 является его нативная сквозная архитектура. В отличие от YOLO11, который полагается на постобработку Non-Maximum Suppression (NMS) для фильтрации перекрывающихся ограничивающих рамок, YOLO26 полностью исключает этот шаг. Эта концепция, впервые примененная в YOLOv10, значительно снижает изменчивость задержки и упрощает логику развертывания на различных периферийных устройствах.

Удаление DFL для повышения эффективности на периферии

YOLO11 использует Distribution Focal Loss (DFL) для уточнения оценок ограничивающих рамок. Однако DFL полагается на сложные операции softmax, которые часто плохо поддерживаются маломощными граничными ускорителями. YOLO26 успешно удаляет DFL без ущерба для точности. Это архитектурное упрощение приводит к значительно улучшенной совместимости со встроенными системами и позволяет YOLO26 достигать до 43% более быстрого инференса на CPU по сравнению со своим предшественником.

Оптимизатор MuSGD

Стабильность и скорость обучения имеют первостепенное значение. YOLO26 представляет оптимизатор MuSGD, гибрид стохастического градиентного спуска (SGD) и Muon, в значительной степени вдохновленный инновациями в обучении LLM от Kimi K2 компании Moonshot AI. Этот оптимизатор обеспечивает стабильность обучения языковых моделей в компьютерном зрении, гарантируя более быструю сходимость и уменьшая объем памяти во время обучения по сравнению с тяжелыми трансформерными альтернативами.

ProgLoss и STAL

Для исследователей, работающих с аэрофотоснимками или приложениями для дронов, обнаружение мельчайших объектов является давней проблемой. YOLO26 представляет ProgLoss в сочетании со STAL (Scale-Targeted Attention Loss), обеспечивая заметные улучшения в распознавании мелких объектов по сравнению с YOLO11.

Сравнение производительности и метрик

При прямом сравнении моделей YOLO26 демонстрирует явное превосходство в точности и эффективности для периферийных устройств, при этом сохраняя невероятно низкие требования к памяти, характерные для экосистемы Ultralytics.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Примечание: Модель YOLO26 nano (YOLO26n) демонстрирует улучшение скорости CPU примерно на 31% по сравнению с YOLO11n (38.9 мс против 56.1 мс), подчеркивая ее философию проектирования, ориентированную на периферийные устройства.

Универсальность в задачах компьютерного зрения

Обе модели выигрывают от хорошо поддерживаемой экосистемы Ultralytics, предлагая беспрецедентную простоту использования благодаря унифицированному Python API. Это не просто детекторы объектов; это многозадачные системы. Однако YOLO26 включает несколько специфических для задач усовершенствований:

  • Сегментация экземпляров: YOLO26 использует уточненную функцию потерь семантической сегментации и многомасштабное прототипирование, что позволяет создавать более четкие границы масок, чем YOLO11. Узнайте больше о рабочих процессах сегментации.
  • Оценка позы: Благодаря интеграции оценки остаточного логарифмического правдоподобия (RLE), YOLO26 значительно улучшает точность ключевых точек в сложных человеческих позах. Узнайте о возможностях оценки позы.
  • Ориентированные ограничивающие прямоугольники (OBB): Специализированная функция потерь угла решает исторические проблемы разрыва границ, делая YOLO26 исключительно надежным для detect вращающихся объектов в спутниковых данных. Подробнее о задачах OBB.
  • Классификация изображений: Обе модели эффективно справляются с высокоскоростной классификацией, при этом YOLO26 обеспечивает незначительное улучшение точности top-1 на ImageNet.

Пример кода для обучения и инференса

Ultralytics ценится за удобство для разработчиков. Обучение SOTA-модели или запуск скрипта вывода занимает всего несколько строк кода, минимизируя шаблонный код и максимизируя производительность. Кроме того, обучение моделей YOLO требует значительно меньше памяти CUDA, чем большие трансформерные сети.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset efficiently
# The MuSGD optimizer is automatically enabled for YOLO26
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="0",  # Utilize GPU for accelerated training
)

# Perform NMS-free inference directly on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the clean, instant predictions
results[0].show()

Идеальные варианты использования и стратегии развертывания

Выбор между YOLO26 и YOLO11 полностью зависит от ограничений вашей производственной среды.

Когда развертывать YOLO26

YOLO26 является окончательным выбором для современных, новых проектов. Он специально разработан для:

  • Периферийные вычисления и IoT: Его потрясающая производительность CPU и удаление DFL делают его королем устройств, таких как Raspberry Pi, Coral NPU и мобильные процессоры.
  • Аналитика с дронов и аэроаналитика: Интеграция ProgLoss + STAL делает его уникально способным track крошечные, быстро движущиеся объекты на обширных ландшафтах.
  • Приложения, критичные к задержке: В автономной робототехнике или контроле качества производства конструкция без NMS обеспечивает детерминированную задержку без неожиданных всплесков постобработки.

Когда целесообразно использовать YOLO11

Хотя YOLO26 превосходит, YOLO11 остается невероятно мощной моделью. Вы можете продолжать использовать YOLO11, если:

  • Устаревшие конвейеры: Ваша существующая инфраструктура развертывания на C++ тесно связана со специфическими выходами на основе якорей и логикой NMS старых архитектур.
  • Базовые модели для академических исследований: Вы публикуете исследование и вам нужен общепризнанный стандарт 2024 года для сравнения с вашими новыми алгоритмами.

Мощь экосистемы Ultralytics

Независимо от того, развертываете ли вы YOLO11 или YOLO26, использование моделей Ultralytics означает доступ к хорошо поддерживаемой экосистеме с частыми обновлениями и обширной поддержкой сообщества.

Для корпоративных команд платформа Ultralytics предоставляет комплексное решение для аннотации данных, обучения моделей и бесшовного облачного развертывания. От экспорта обученных весов в CoreML или TensorRT до настройки расширенной оптимизации гиперпараметров, предоставляемые инструменты обеспечивают максимально оптимизированный жизненный цикл вашего ИИ.


Комментарии