YOLOv5 против YOLO11: всестороннее техническое сравнение

При выборе подходящей архитектуры компьютерного зрения для нового проекта крайне важно понимать эволюцию передовых моделей. Переход от ранних архитектур к современным унифицированным фреймворкам демонстрирует значительные скачки как в алгоритмической эффективности, так и в опыте разработки. Это руководство содержит подробное техническое сравнение двух знаковых моделей, разработанных Ultralytics: новаторской YOLOv5 и высокотехнологичной YOLO11.

Знакомство с моделями

Обе эти архитектуры представляют собой важные вехи в области обнаружения объектов в реальном времени, предлагая различные преимущества в зависимости от твоей среды развертывания и требований к поддержке устаревших систем.

YOLOv5: рабочая лошадка индустрии

Выпущенная летом 2020 года, YOLOv5 быстро стала отраслевым стандартом благодаря своей нативной реализации на PyTorch, что значительно снизило порог вхождения для обучения и развертывания. Она отошла от сложных фреймворков Darknet C своих предшественников, предложив Pythonic-подход к построению моделей.

YOLOv5 установила надежную базу для простоты использования и представила мощные методологии обучения, включая продвинутую аугментацию данных mosaic и авто-анкоринг (auto-anchoring). Она остается невероятно популярной среди исследователей, создающих решения на основе хорошо задокументированной, интенсивно протестированной кодовой базы.

Узнай больше о YOLOv5

YOLO11: Унифицированный фреймворк компьютерного зрения

Основываясь на многолетних отзывах и архитектурных исследованиях, YOLO11 была представлена как часть унифицированного фреймворка, способного нативно обрабатывать несколько задач компьютерного зрения. Выходя за рамки просто ограничивающих рамок (bounding boxes), она была разработана с нуля для максимальной универсальности и эффективности.

YOLO11 предлагает оптимизированный пользовательский опыт благодаря Python-пакету ultralytics, который может похвастаться простым API, объединяющим обнаружение объектов, сегментацию экземпляров, классификацию, оценку позы и ориентированные ограничивающие рамки (OBB). Она обеспечивает весьма выгодный баланс между скоростью и точностью, что делает ее идеальной для различных сценариев развертывания в реальном мире.

Узнай больше о YOLO11

Интегрированная платформа

Обе модели выигрывают от хорошо поддерживаемой экосистемы, предоставляемой платформой Ultralytics. Эта интегрированная среда упрощает аннотирование наборов данных, облачное обучение и экспорт моделей для различных целевых аппаратных платформ.

Сравнение производительности и метрик

A direct comparison of these models reveals how architectural refinements translate to tangible performance gains. The table below illustrates the mean Average Precision (mAP) evaluated on the COCO dataset, alongside CPU and GPU inference speeds and parameter counts.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Анализ результатов

Метрики подчеркивают явный скачок в балансе производительности, достигнутый в YOLO11. Например, модель YOLO11n (nano) достигает 39,5% mAP по сравнению с 28,0% у YOLOv5n, одновременно сокращая время вывода на CPU при экспорте через ONNX. Кроме того, YOLO11 поддерживает значительно более низкие требования к памяти во время обучения по сравнению с тяжелыми моделями на основе Transformer, что делает ее очень доступной для развертывания на потребительском оборудовании и граничных устройствах.

Архитектурные различия

Повышение производительности в YOLO11 связано с несколькими ключевыми архитектурными изменениями. В то время как YOLOv5 использовала стандартный бэкбон CSPNet с модулями C3, YOLO11 представила более эффективные блоки извлечения признаков, такие как C2f и более поздний C3k2, которые оптимизируют поток градиента и уменьшают вычислительные затраты.

YOLO11 также оснащена значительно доработанным «головой» (head). Отходя от дизайна на основе анкоров (anchor-based), характерного для старых моделей, новые архитектуры Ultralytics применяют подход без анкоров (anchor-free). Это уменьшает количество предсказаний рамок, оптимизируя конвейер постобработки и улучшая способность модели к обобщению на разных масштабах и соотношениях сторон. Кроме того, эти модели могут похвастаться превосходной эффективностью обучения и легко доступными предобученными весами, которые ускоряют сходимость при работе с дообученными наборами данных.

Реализация и примеры кода

Одной из отличительных особенностей экосистемы Ultralytics является ее простота. Хотя YOLOv5 популяризировала использование torch.hub для быстрого вывода, YOLO11 делает еще один шаг вперед с унифицированным Python-пакетом ultralytics.

Обучение с помощью YOLO11

Загрузка, обучение и валидация модели требуют минимум шаблонного кода. API легко справляется с настройкой гиперпараметров и управлением моделью.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")

# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")

Вывод с использованием устаревшей YOLOv5

Если ты поддерживаешь старый конвейер, YOLOv5 напрямую интегрируется с нативным механизмом загрузки PyTorch, что позволяет легко встроить ее в существующие скрипты вывода.

import torch

# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")

# Print prediction details to the console
results.print()
Гибкость развертывания

Обе модели поддерживают широкие форматы экспорта. Независимо от того, работаешь ли ты с NVIDIA Jetson с использованием TensorRT или с приложением для iOS с использованием CoreML, процесс развертывания подробно описан и поддерживается сообществом.

Идеальные сценарии использования

Выбор между этими моделями во многом зависит от стадии жизненного цикла твоего проекта и конкретных требований.

Когда выбирать YOLOv5

  • Поддержка устаревших кодовых баз: если твоя рабочая среда сильно кастомизирована под структуру репозитория YOLOv5 или специфические методы эволюции гиперпараметров.
  • Академические эталоны: при публикации исследований, требующих прямого сравнительного анализа со стандартами компьютерного зрения 2020-2022 годов.

Когда выбирать YOLO11

  • Многозадачные проекты: когда твое приложение требует сочетания таких задач, как оценка позы и сегментация экземпляров, с использованием единого унифицированного API.
  • Граничные вычисления (Edge Deployments): для сценариев граничных вычислений, где критически важно выжать максимум mAP при заданном вычислительном бюджете (FLOPs).
  • Коммерческие ИИ-решения: идеально подходит для корпоративных приложений в ритейле и безопасности, использующих надежную поддержку платформы Ultralytics.

Следующее поколение: Ultralytics YOLO26

Хотя YOLO11 представляет собой фантастический баланс скорости и точности, область искусственного интеллекта быстро развивается. Для разработчиков, начинающих новые проекты сегодня, мы настоятельно рекомендуем изучить последний стандарт в области Vision AI: Ultralytics YOLO26.

Выпущенная в январе 2026 года, YOLO26 представляет парадигмальные достижения, разработанные специально для современных потребностей развертывания:

  • Сквозной дизайн без NMS: основываясь на концепциях, впервые внедренных в YOLOv10, YOLO26 является нативно сквозной моделью. Она устраняет необходимость в постобработке Non-Maximum Suppression (NMS), значительно упрощая конвейеры развертывания и снижая задержку.
  • Оптимизатор MuSGD: вдохновленный инновациями в обучении LLM от моделей типа Kimi K2 компании Moonshot AI, этот гибрид SGD и Muon обеспечивает невероятно стабильное обучение и значительно более быструю сходимость.
  • Беспрецедентная скорость на CPU: за счет удаления Distribution Focal Loss (DFL) YOLO26 достигает до 43% более быстрого вывода на CPU, что делает ее абсолютно лучшим выбором для граничных устройств и сред без выделенных GPU.
  • Продвинутые функции потерь: интеграция ProgLoss и STAL дает заметные улучшения в распознавании мелких объектов, что критически важно для аналитики дронов, интернета вещей (IoT) и робототехники.
  • Специализированные улучшения задач: внедряются специализированные оптимизации, такие как Residual Log-Likelihood Estimation (RLE) для оценки позы и специализированная функция потерь угла для ориентированных ограничивающих рамок, обеспечивающие превосходную производительность во всех задачах компьютерного зрения.

Узнай больше о YOLO26

Для пользователей, интересующихся специализированными архитектурами помимо стандартного обнаружения объектов, стоит изучить модели, такие как RT-DETR для обнаружения на основе трансформеров или YOLO-World для отслеживания и обнаружения с открытым словарем. Использование этих хорошо поддерживаемых и высокооптимизированных инструментов гарантирует, что твои конвейеры компьютерного зрения останутся эффективными, масштабируемыми и актуальными.

Комментарии