YOLOv5 vs YOLO11: Подробное техническое сравнение
В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для успеха проекта. Двумя наиболее значительными вехами в этой области являются YOLOv5 и недавно выпущенная YOLO11. В то время как YOLOv5 установила легендарный стандарт простоты использования и скорости, YOLO11 расширяет границы точности и эффективности, используя многолетний опыт исследований и разработок.
В этом руководстве представлен подробный технический анализ этих двух архитектур, помогающий разработчикам, исследователям и инженерам принимать обоснованные решения для своих AI applications.
Ultralytics YOLOv5: Надежная рабочая лошадка
YOLOv5, выпущенная в 2020 году, произвела революцию в доступности detectирования объектов. Это была первая модель "You Only Look Once", реализованная изначально на PyTorch, что значительно упростило обучение и развертывание для разработчиков. Ее баланс скорости и точности сделал ее идеальным выбором для всего, от промышленного контроля до автономных транспортных средств.
Технические детали:
- Авторы: Гленн Джокер
- Организация:Ultralytics
- Дата: 26.06.2020
- GitHub:https://github.com/ultralytics/yolov5
- Документация:https://docs.ultralytics.com/models/yolov5/
Ключевые особенности и архитектура
YOLOv5 использует архитектуру на основе якорей. Он представил основу CSPDarknet, которая значительно улучшила поток градиента и снизила вычислительные затраты по сравнению с предыдущими итерациями. Модель использует Path Aggregation Network (PANet) neck для увеличения потока информации и интегрирует Mosaic data augmentation во время обучения, метод, который стал стандартом для повышения устойчивости модели к небольшим объектам.
Сильные стороны
YOLOv5 известен своей стабильностью и зрелостью. Благодаря многолетнему тестированию сообществом, экосистема учебных пособий, сторонних интеграций и руководств по развертыванию очень обширна. Это отличный выбор для устаревших систем или периферийных устройств, где уже имеются специальные аппаратные оптимизации для его архитектуры.
Ultralytics YOLO11: Современная эволюция
Запуск запланирован на конец 2024 года, YOLO11 представляет собой передовую технологию в области vision AI. Она основана на уроках, извлеченных из YOLOv5 и YOLOv8, чтобы предоставить модель, которая является более быстрой, более точной и более вычислительно эффективной.
Технические детали:
- Авторы: Гленн Джохер, Цзин Цю
- Организация:Ultralytics
- Дата: 2024-09-27
- GitHub:https://github.com/ultralytics/ultralytics
- Документация:https://docs.ultralytics.com/models/yolo11/
Архитектура и ключевые особенности
YOLO11 представляет значительные архитектурные усовершенствования, включая блоки C3k2 и модули C2PSA (Cross-Stage Partial with Spatial Attention). В отличие от YOLOv5, YOLO11 использует anchor-free detection head, что упрощает процесс обучения, устраняя необходимость в ручном вычислении anchor box. Этот сдвиг в конструкции улучшает обобщение и позволяет модели лучше адаптироваться к различным наборам данных.
Непревзойденная универсальность
Одной из определяющих характеристик YOLO11 является встроенная поддержка нескольких задач компьютерного зрения в рамках единого фреймворка. В то время как YOLOv5 в основном ориентировалась на detect (с последующей поддержкой segment), YOLO11 изначально создавалась для решения следующих задач:
- Обнаружение объектов
- Сегментация экземпляров
- Классификация изображений
- Оценка позы
- Ориентированные ограничивающие рамки (OBB)
Эта универсальность позволяет разработчикам решать сложные задачи робототехники и анализа без переключения между фреймворками.
Сравнение производительности
Переход от YOLOv5 к YOLO11 дает существенный прирост производительности. Метрики показывают, что YOLO11 предлагает превосходный компромисс между скоростью и точностью.
Точность и эффективность
YOLO11 стабильно достигает более высокого Mean Average Precision (mAP) на наборе данных COCO по сравнению с моделями YOLOv5 аналогичного размера. Например, модель YOLO11m превосходит гораздо более крупную YOLOv5x по точности (51,5 против 50,7 mAP), работая при этом с меньшей частью параметров (20,1M против 97,2M). Это резкое уменьшение размера модели приводит к снижению требований к памяти во время обучения и выводов, что является критическим фактором для развертывания на периферийном AI оборудовании с ограниченными ресурсами.
Скорость инференса
Благодаря оптимизированным архитектурным решениям YOLO11 превосходно проявляет себя в скорости инференса на CPU. Модель YOLO11n создает новый эталон для приложений реального времени, показывая всего 56,1 мс на CPU с ONNX, что значительно быстрее, чем ее предшественник.
Эффективность памяти
Модели Ultralytics YOLO11 разработаны для оптимального использования памяти. По сравнению с детекторами на основе трансформеров, такими как RT-DETR, YOLO11 требует значительно меньше памяти CUDA во время обучения, что делает его доступным для разработчиков со стандартными потребительскими GPU.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Обучение и опыт разработчика
Обе модели выигрывают от всеобъемлющей экосистемы Ultralytics, известной своей "простотой использования".
Простая интеграция
YOLO11 интегрирован в современный ultralytics Пакет Python, который объединяет все задачи под простым API. Это позволяет обучать, проверять и развертывать модели всего несколькими строками кода.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Хотя YOLOv5 имеет свой собственный выделенный репозиторий, его также можно легко загрузить через PyTorch Hub или использовать в новой экосистеме для определенных задач. Надежная документация для обеих моделей гарантирует, что независимо от того, выполняете ли вы настройку гиперпараметров или экспортируете в OpenVINO, процесс будет оптимизирован.
Преимущества экосистемы
Выбор модели Ultralytics означает получение доступа к хорошо поддерживаемому набору инструментов. От интеграции с Comet для отслеживания экспериментов до бесшовного управления наборами данных, экосистема поддерживает весь жизненный цикл MLOps. Такая активная разработка гарантирует регулярную поставку патчей безопасности и улучшений производительности.
Идеальные варианты использования
Когда следует выбирать YOLOv5
- Устаревшее оборудование (Legacy Hardware): Если у вас есть существующие edge-устройства (например, более старые Raspberry Pi) с конвейерами, специально оптимизированными для архитектуры YOLOv5.
- Устоявшиеся рабочие процессы: Для проектов, находящихся в режиме глубокой поддержки, где обновление основной архитектуры модели повлечет за собой значительные затраты на рефакторинг.
- Специфические оптимизации GPU: В редких случаях, когда конкретные движки TensorRT сильно настроены для точной структуры слоев YOLOv5.
Когда следует выбирать YOLO11
- Новые разработки: Практически для всех новых проектов YOLO11 является рекомендуемой отправной точкой из-за превосходного соотношения точности и вычислительных затрат.
- Приложения реального времени на CPU: Приложения, работающие на стандартных процессорах, таких как ноутбуки или облачные инстансы, получают огромную выгоду от оптимизации скорости CPU в YOLO11.
- Сложные задачи: Проекты, требующие сегментацию экземпляров или оценку позы наряду с detect.
- Требования к высокой точности: Такие области, как медицинская визуализация или анализ спутниковых изображений, где обнаружение небольших объектов с высокой точностью имеет первостепенное значение.
Заключение
YOLOv5 остается свидетельством эффективного и доступного дизайна ИИ, который за последние несколько лет обеспечил бесчисленные инновации. Однако YOLO11 представляет собой будущее. Благодаря своей передовой архитектуре без привязки к якорям, превосходным показателям mAP и расширенной универсальности, он предоставляет разработчикам более мощный набор инструментов для решения современных задач компьютерного зрения.
Принимая YOLO11, вы не только получаете лучшую производительность, но и обеспечиваете перспективность ваших приложений в рамках процветающей экосистемы Ultralytics.
Изучите другие модели
Если вам интересно сравнить эти архитектуры с другими ведущими моделями, изучите наши подробные сравнения: