YOLO YOLO11: подробное исследование обнаружения объектов в реальном времени
Область обнаружения объектов постоянно развивается, и исследователи и инженеры стремятся найти баланс между такими конкурирующими требованиями, как точность, скорость вывода и вычислительная эффективность. Две примечательные архитектуры, появившиеся в этой области, — этоYOLO, разработанная Alibaba Group, и YOLO11, мощная итерация от Ultralytics.
В то время какYOLO новые концепции в области поиска нейронных архитектур (NAS) и глубокой перепараметризации, YOLO11 усовершенствованный, ориентированный на пользователя подход, направленный на готовность к производству и универсальность. В этом сравнении рассматриваются архитектурные нюансы, показатели производительности и практические соображения по развертыванию обеих моделей.
Обзор DAMO-YOLO
YOLO высокопроизводительный детектор объектов, предложенный исследователями из DAMO Academy компании Alibaba. Он отличается использованием Neural Architecture Search (NAS) для автоматического проектирования эффективных базовых структур, адаптированных к конкретным ограничениям.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация:Alibaba Group
- Дата: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
Архитектура объединяет специализированную сеть RepGFPN (Reparameterized Generalized Feature Pyramid Network) для слияния признаков и облегченную головку, получившую название «ZeroHead». Ключевым компонентом стратегии обучения является «AlignedOTA» — метод динамического присвоения меток, разработанный для решения проблем несоответствия между задачами классификации и регрессии. Кроме того, он в значительной степени полагается на дистилляцию из более крупных «учительских» моделей для повышения производительности меньших вариантов.
YOLO11
YOLO11 на наследииYOLO Ultralytics YOLO и усовершенствует дизайн сети CSP (Cross Stage Partial) для максимальной эффективности параметров. В отличие от моделей, ориентированных на исследования, которые могут требовать сложных настроек, YOLO11 для немедленного применения в реальных условиях и предлагает готовое к использованию решение.
- Авторы: Гленн Джочер и Цзин Цю
- Организация:Ultralytics
- Дата: 2024-09-27
- Документация:https://docs.ultralytics.com/models/yolo11/
- GitHub:https://github.com/ultralytics/ultralytics
YOLO11 конструкцию блока C3k2 и вводит модули C2PSA (Cross Stage Partial with Spatial Attention) для лучшего учета глобального контекста. Он полностью интегрирован в Ultralytics и поддерживает беспрепятственное обучение, валидацию и развертывание на различном оборудовании, включая ЦП, ГП и периферийные устройства.
Техническое сравнение
В следующей таблице показаны различия в производительности между моделями. ХотяYOLO высокую теоретическую производительность, YOLO11 обеспечивает более сбалансированный профиль по скорости и точности в практических сценариях, особенно с учетом накладных расходов на экспорт и развертывание.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Архитектура и методологии обучения
YOLO использует MAE-NAS (Masked Autoencoder Neural Architecture Search) для поиска оптимальных базовых структур при определенных ограничениях по задержке. В результате получаются модели, которые теоретически эффективны, но могут быть сложны для модификации или тонкой настройки без исходного конвейера NAS. Процесс обучения сложен и часто требует двухэтапного подхода, при котором сначала обучается тяжелая модель-учитель, чтобы перенести знания в меньшую целевую модель.
YOLO11, напротив, использует созданную вручную, но высокооптимизированную архитектуру, которая обеспечивает баланс между глубиной, шириной и разрешением. Конвейер обучения оптимизирован с использованием стандартных аугментаций и функций потерь, которые не требуют вспомогательных моделей-учителей или сложных этапов дистилляции. Это YOLO11 упрощает обучение YOLO11 на пользовательских наборах данных без глубоких знаний в данной области.
Предупреждение: сложность против удобства использования
В то время как подходYOLO, основанный на NAS, дает математически оптимальные структуры, Ultralytics ставит во главу угла удобство использования. Модель типа YOLO11 обучить с помощью одной CLI . yolo train, тогда как исследовательские репозитории часто требуют сложных конфигурационных файлов и многоэтапной подготовки.
Преимущество Ultralytics
Выбор модели выходит за рамки простого mAP ; он затрагивает весь жизненный цикл проекта машинного обучения. Ultralytics , такие как YOLO11и передовая YOLO26, обладают явными преимуществами, которые упрощают разработку.
Непревзойденная простота использования и экосистема
Ultralytics разработана для уменьшения трений. Для обучения YOLO11 требуется минимальный объем кода, а Python одинаков для всех версий модели. Это контрастирует сYOLO, где пользователи часто имеют дело с кодовой базой исследовательского уровня, которая может не иметь надежной документации или долгосрочного обслуживания.
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100)
Кроме того, Ultralytics предоставляет удобный интерфейс для управления наборами данных, маркировки и обучения в облаке, что позволяет эффективно демократизировать доступ к передовым возможностям компьютерного зрения.
Универсальность в различных задачах
Одним из самых весомых аргументов в пользу использования Ultralytics является его универсальность. В то время какYOLO в первую очередьYOLO детектором объектов, YOLO11 широкий спектр задач компьютерного зрения в рамках одной и той же кодовой базы:
- Сегментация экземпляров: точное маскирование объектов.
- Оценка позы: обнаружение ключевых точек для отслеживания скелета человека.
- Ориентированная ограничивающая рамка (OBB): идеально подходит для аэрофотоснимков и объектов под углом.
- Классификация: Категоризация целого изображения.
Баланс производительности и эффективность памяти
Ultralytics славятся эффективным использованием ресурсов. YOLO11 требует меньше CUDA во время обучения по сравнению с архитектурами, в которых широко используются трансформеры, или сложными моделями, полученными с помощью NAS. Это позволяет разработчикам обучать более крупные партии на потребительских графических процессорах, ускоряя цикл итераций.
Для вывода YOLO11 оптимизированы для экспорта в такие форматы, как ONNX, TensorRTи CoreML. Это гарантирует, что высокая точность, наблюдаемая в тестах, переносится в реальную производительность на периферийных устройствах, от модулей NVIDIA до Raspberry Pi.
Взгляд в будущее: Мощь YOLO26
Для разработчиков, стремящихся к абсолютному максимуму производительности, Ultralytics YOLO26. Эта модель нового поколения заменяет YOLO11 революционными усовершенствованиями:
- Сквозной дизайн NMS: YOLO26 устраняет необходимость в постобработке с помощью алгоритма Non-Maximum Suppression (NMS). Этот сквозной подход упрощает процессы развертывания и снижает вариативность задержек — функция, впервые исследованная в YOLOv10.
- Оптимизатор MuSGD: Вдохновленный инновациями в области обучения больших языковых моделей (LLM) (таких как Kimi K2 от Moonshot AI), YOLO26 использует оптимизатор MuSGD для более быстрой конвергенции и большей стабильности обучения.
- Оптимизация Edge-First: благодаря удалению Distribution Focal Loss (DFL) и специфическим CPU , YOLO26 достигает до 43% более быстрой инференции на CPU, что делает его лучшим выбором для пограничных вычислений.
- ProgLoss + STAL: новые функции потери улучшают обнаружение мелких объектов, что является критически важной функцией для приложений с использованием дронов и IoT.
Идеальные варианты использования
- ВыберитеYOLO ,YOLO : вы являетесь исследователем, изучающим эффективность NAS в базовых системах зрительного восприятия, или у вас есть очень специфические аппаратные ограничения, требующие индивидуально подобранной архитектуры, и у вас есть ресурсы для управления сложным процессом дистилляции.
- Выберите YOLO11 , YOLO11 : вам нужен надежный универсальный детектор, который обеспечивает исключительный баланс между скоростью и точностью. Он идеально подходит для коммерческих приложений, требующих отслеживания, простого обучения на пользовательских данных и широкой совместимости с платформами.
- Выберите YOLO26, если: вам требуется максимально возможная скорость инференса, особенно на пограничных процессорах, или вам необходимо упростить стек развертывания путем удаления NMS. Это рекомендуемый выбор для новых проектов, требующих передовой эффективности и универсальности.
Заключение
КакYOLO YOLO11 значительный вклад в область компьютерного зрения.YOLO потенциал автоматизированного поиска архитектуры, а YOLO11 практическое применение глубокого обучения с акцентом на удобство использования и поддержку экосистемы.
Для большинства разработчиков и предприятий Ultralytics , основанная на YOLO11 передовой YOLO26, предоставляет самый прямой путь к получению выгоды. Благодаря обширной документации, активной поддержке сообщества и таким инструментам, как Ultralytics , пользователи могут с уверенностью и быстротой перейти от концепции к внедрению.
Для тех, кто интересуется другими архитектурами, в Ultralytics также приведены сравнения с такими моделями, как RT-DETR (Real-Time DEtection TRansformer) и YOLOv9, что позволяет получить полную картину при выборе подходящего инструмента для ваших задач в области искусственного интеллекта.