Перейти к содержанию

YOLO YOLO11: подробное исследование обнаружения объектов в реальном времени

Область обнаружения объектов постоянно развивается, и исследователи и инженеры стремятся найти баланс между такими конкурирующими требованиями, как точность, скорость вывода и вычислительная эффективность. Две примечательные архитектуры, появившиеся в этой области, — этоYOLO, разработанная Alibaba Group, и YOLO11, мощная итерация от Ultralytics.

В то время какYOLO новые концепции в области поиска нейронных архитектур (NAS) и глубокой перепараметризации, YOLO11 усовершенствованный, ориентированный на пользователя подход, направленный на готовность к производству и универсальность. В этом сравнении рассматриваются архитектурные нюансы, показатели производительности и практические соображения по развертыванию обеих моделей.

Обзор DAMO-YOLO

YOLO высокопроизводительный детектор объектов, предложенный исследователями из DAMO Academy компании Alibaba. Он отличается использованием Neural Architecture Search (NAS) для автоматического проектирования эффективных базовых структур, адаптированных к конкретным ограничениям.

Архитектура объединяет специализированную сеть RepGFPN (Reparameterized Generalized Feature Pyramid Network) для слияния признаков и облегченную головку, получившую название «ZeroHead». Ключевым компонентом стратегии обучения является «AlignedOTA» — метод динамического присвоения меток, разработанный для решения проблем несоответствия между задачами классификации и регрессии. Кроме того, он в значительной степени полагается на дистилляцию из более крупных «учительских» моделей для повышения производительности меньших вариантов.

YOLO11

YOLO11 на наследииYOLO Ultralytics YOLO и усовершенствует дизайн сети CSP (Cross Stage Partial) для максимальной эффективности параметров. В отличие от моделей, ориентированных на исследования, которые могут требовать сложных настроек, YOLO11 для немедленного применения в реальных условиях и предлагает готовое к использованию решение.

YOLO11 конструкцию блока C3k2 и вводит модули C2PSA (Cross Stage Partial with Spatial Attention) для лучшего учета глобального контекста. Он полностью интегрирован в Ultralytics и поддерживает беспрепятственное обучение, валидацию и развертывание на различном оборудовании, включая ЦП, ГП и периферийные устройства.

Узнайте больше о YOLO11

Техническое сравнение

В следующей таблице показаны различия в производительности между моделями. ХотяYOLO высокую теоретическую производительность, YOLO11 обеспечивает более сбалансированный профиль по скорости и точности в практических сценариях, особенно с учетом накладных расходов на экспорт и развертывание.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Архитектура и методологии обучения

YOLO использует MAE-NAS (Masked Autoencoder Neural Architecture Search) для поиска оптимальных базовых структур при определенных ограничениях по задержке. В результате получаются модели, которые теоретически эффективны, но могут быть сложны для модификации или тонкой настройки без исходного конвейера NAS. Процесс обучения сложен и часто требует двухэтапного подхода, при котором сначала обучается тяжелая модель-учитель, чтобы перенести знания в меньшую целевую модель.

YOLO11, напротив, использует созданную вручную, но высокооптимизированную архитектуру, которая обеспечивает баланс между глубиной, шириной и разрешением. Конвейер обучения оптимизирован с использованием стандартных аугментаций и функций потерь, которые не требуют вспомогательных моделей-учителей или сложных этапов дистилляции. Это YOLO11 упрощает обучение YOLO11 на пользовательских наборах данных без глубоких знаний в данной области.

Предупреждение: сложность против удобства использования

В то время как подходYOLO, основанный на NAS, дает математически оптимальные структуры, Ultralytics ставит во главу угла удобство использования. Модель типа YOLO11 обучить с помощью одной CLI . yolo train, тогда как исследовательские репозитории часто требуют сложных конфигурационных файлов и многоэтапной подготовки.

Преимущество Ultralytics

Выбор модели выходит за рамки простого mAP ; он затрагивает весь жизненный цикл проекта машинного обучения. Ultralytics , такие как YOLO11и передовая YOLO26, обладают явными преимуществами, которые упрощают разработку.

Непревзойденная простота использования и экосистема

Ultralytics разработана для уменьшения трений. Для обучения YOLO11 требуется минимальный объем кода, а Python одинаков для всех версий модели. Это контрастирует сYOLO, где пользователи часто имеют дело с кодовой базой исследовательского уровня, которая может не иметь надежной документации или долгосрочного обслуживания.

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100)

Кроме того, Ultralytics предоставляет удобный интерфейс для управления наборами данных, маркировки и обучения в облаке, что позволяет эффективно демократизировать доступ к передовым возможностям компьютерного зрения.

Универсальность в различных задачах

Одним из самых весомых аргументов в пользу использования Ultralytics является его универсальность. В то время какYOLO в первую очередьYOLO детектором объектов, YOLO11 широкий спектр задач компьютерного зрения в рамках одной и той же кодовой базы:

Баланс производительности и эффективность памяти

Ultralytics славятся эффективным использованием ресурсов. YOLO11 требует меньше CUDA во время обучения по сравнению с архитектурами, в которых широко используются трансформеры, или сложными моделями, полученными с помощью NAS. Это позволяет разработчикам обучать более крупные партии на потребительских графических процессорах, ускоряя цикл итераций.

Для вывода YOLO11 оптимизированы для экспорта в такие форматы, как ONNX, TensorRTи CoreML. Это гарантирует, что высокая точность, наблюдаемая в тестах, переносится в реальную производительность на периферийных устройствах, от модулей NVIDIA до Raspberry Pi.

Взгляд в будущее: Мощь YOLO26

Для разработчиков, стремящихся к абсолютному максимуму производительности, Ultralytics YOLO26. Эта модель нового поколения заменяет YOLO11 революционными усовершенствованиями:

  • Сквозной дизайн NMS: YOLO26 устраняет необходимость в постобработке с помощью алгоритма Non-Maximum Suppression (NMS). Этот сквозной подход упрощает процессы развертывания и снижает вариативность задержек — функция, впервые исследованная в YOLOv10.
  • Оптимизатор MuSGD: Вдохновленный инновациями в области обучения больших языковых моделей (LLM) (таких как Kimi K2 от Moonshot AI), YOLO26 использует оптимизатор MuSGD для более быстрой конвергенции и большей стабильности обучения.
  • Оптимизация Edge-First: благодаря удалению Distribution Focal Loss (DFL) и специфическим CPU , YOLO26 достигает до 43% более быстрой инференции на CPU, что делает его лучшим выбором для пограничных вычислений.
  • ProgLoss + STAL: новые функции потери улучшают обнаружение мелких объектов, что является критически важной функцией для приложений с использованием дронов и IoT.

Узнайте больше о YOLO26

Идеальные варианты использования

  • ВыберитеYOLO ,YOLO : вы являетесь исследователем, изучающим эффективность NAS в базовых системах зрительного восприятия, или у вас есть очень специфические аппаратные ограничения, требующие индивидуально подобранной архитектуры, и у вас есть ресурсы для управления сложным процессом дистилляции.
  • Выберите YOLO11 , YOLO11 : вам нужен надежный универсальный детектор, который обеспечивает исключительный баланс между скоростью и точностью. Он идеально подходит для коммерческих приложений, требующих отслеживания, простого обучения на пользовательских данных и широкой совместимости с платформами.
  • Выберите YOLO26, если: вам требуется максимально возможная скорость инференса, особенно на пограничных процессорах, или вам необходимо упростить стек развертывания путем удаления NMS. Это рекомендуемый выбор для новых проектов, требующих передовой эффективности и универсальности.

Заключение

КакYOLO YOLO11 значительный вклад в область компьютерного зрения.YOLO потенциал автоматизированного поиска архитектуры, а YOLO11 практическое применение глубокого обучения с акцентом на удобство использования и поддержку экосистемы.

Для большинства разработчиков и предприятий Ultralytics , основанная на YOLO11 передовой YOLO26, предоставляет самый прямой путь к получению выгоды. Благодаря обширной документации, активной поддержке сообщества и таким инструментам, как Ultralytics , пользователи могут с уверенностью и быстротой перейти от концепции к внедрению.

Для тех, кто интересуется другими архитектурами, в Ultralytics также приведены сравнения с такими моделями, как RT-DETR (Real-Time DEtection TRansformer) и YOLOv9, что позволяет получить полную картину при выборе подходящего инструмента для ваших задач в области искусственного интеллекта.


Комментарии