Перейти к содержанию

YOLO11 vs YOLOv7: Подробное техническое сравнение

Ландшафт компьютерного зрения продолжает стремительно развиваться, при этом обнаружение объектов в реальном времени остается на переднем крае приложений ИИ. Выбор правильной архитектуры для вашего проекта требует навигации по сложному компромиссу между скоростью, точностью и простотой развертывания. В этом руководстве мы представляем всестороннее техническое сравнение двух выдающихся архитектур: Ultralytics YOLO11 и YOLOv7.

Предыстория и технические детали модели

Обе модели оказали значительное влияние на сообщество глубокого обучения, но они основаны на разных философиях разработки и эпохах.

Подробности о YOLO11:
Авторы: Гленн Джочер и Цзин Цю
Организация: Ultralytics
Дата: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Документация: https://docs.ultralytics.com/models/yolo11/

Узнайте больше о YOLO11

Сведения о YOLOv7:
Авторы: Чиен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Документация: https://docs.ultralytics.com/models/yolov7/

Узнайте больше о YOLOv7

Архитектурные различия

При анализе внутренних механизмов оба детектора используют передовые концепции, однако их структурные основы различаются.

YOLOv7 представила концепцию расширенных эффективных сетей агрегации слоев (E-ELAN). Эта архитектура была разработана для непрерывного улучшения способности сети к обучению без разрушения исходного градиентного пути, что является важным прорывом, о котором сообщается в их исследовательской работе. YOLOv7 в значительной степени опирается на структурную репараметризацию и надежную методологию «набора бесплатных приемов» во время обучения, повышая общую точность на наборе данных COCO без увеличения затрат на инференс.

В отличие от этого, YOLO11 построен на высокооптимизированной архитектуре Ultralytics. Он делает акцент на более усовершенствованном конвейере извлечения признаков с меньшим количеством параметров, что приводит к снижению потребления памяти во время обучения. YOLO11 достигает очень выгодного баланса производительности, используя меньше вычислительных ресурсов (FLOPs) при сопоставимой или превосходящей точности обнаружения по сравнению с более тяжелыми моделями. Кроме того, YOLO11 изначально поддерживает более широкий спектр задач, что делает его очень универсальным выбором для современных приложений компьютерного зрения.

Эффективность памяти

Одна из выдающихся особенностей моделей Ultralytics YOLO — это их более низкие требования к памяти во время обучения по сравнению с другими передовыми моделями, что позволяет разработчикам обучать мощные сети на потребительском оборудовании PyTorch.

Сравнение производительности и метрик

Для точной оценки применимости в реальных условиях крайне важна оценка таких метрик, как средняя точность (mAP), скорость инференса, параметры модели и вычислительная сложность (FLOPs). В следующей таблице показано, как варианты масштабирования YOLO11 сравниваются с более крупными моделями YOLOv7.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Как видно, модель YOLO11x достигает более высокого показателя 54.7 mAP по сравнению с 53.1 mAP у YOLOv7x, при этом используя значительно меньше параметров (56.9M против 71.3M). Это подчеркивает превосходную архитектурную эффективность YOLO11.

Эффективность обучения и удобство использования экосистемы

Одной из наиболее определяющих характеристик, разделяющих эти две архитектуры, является опыт разработчика и окружающая экосистема.

YOLOv7 по своей сути является репозиторием для академических исследований. Обучение моделей часто требует сложной настройки окружения, ручного управления зависимостями и использования длинных аргументов командной строки. Хотя он поддерживает передовые эксперименты, адаптация кода репозитория YOLOv7 на GitHub для пользовательских производственных сред может быть трудоемкой.

YOLO11 полностью переосмысливает простоту использования. Он полностью интегрирован в платформу Ultralytics — комплексную и хорошо поддерживаемую экосистему, предлагающую бесшовные сквозные рабочие процессы. От аннотации данных и локального обучения до развертывания, унифицированный API python и простой интерфейс командной строки оптимизируют весь процесс.

Сравнение кода

Обучение модели обнаружения объектов с помощью YOLO11 требует всего нескольких строк кода, что значительно снижает порог входа:

from ultralytics import YOLO

# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model effortlessly using the unified API
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Quickly export to ONNX format
model.export(format="onnx")

В отличие от этого, типичная команда обучения YOLOv7 выглядит так, требуя тщательной настройки путей, файлов конфигурации и bash-скриптов:

python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights 'yolov7_training.pt'

YOLO11 также обеспечивает огромную универсальность. В то время как YOLOv7 требует совершенно разных кодовых баз или значительных модификаций для поддержки задач, выходящих за рамки detect (таких как pose или segment), YOLO11 справляется с обнаружением объектов, сегментацией экземпляров, классификацией изображений, оценкой позы и обнаружением ориентированных ограничивающих рамок (OBB) в рамках единой, согласованной структуры.

Упрощенный экспорт

Экспорт YOLO11 в такие форматы, как TensorRT или OpenVINO, требует всего одной команды, что снижает типичные проблемы с поддержкой операторов, возникающие при работе с устаревшими моделями.

Реальные приложения и идеальные сценарии использования

Выбор между YOLOv7 и YOLO11 полностью зависит от объема проекта и ограничений развертывания.

Когда рассмотреть YOLOv7:

  • Бенчмаркинг устаревших моделей: Академические исследователи, изучающие конструкции градиентных путей, могут использовать YOLOv7 в качестве эталона для оценки новых свёрточных нейронных сетей.
  • Существующие пользовательские конвейеры: Команды с сильно кастомизированными конвейерами C++ или CUDA, построенными специально вокруг уникальной логики декодирования ограничивающих рамок YOLOv7.

Когда выбрать YOLO11:

  • Коммерческое производство: Приложения в умной розничной торговле или диагностике здравоохранения значительно выигрывают от поддерживаемой кодовой базы YOLO11 и высокой стабильности.
  • Среды с ограниченными ресурсами: Легковесный формат YOLO11n делает его исключительно подходящим для развертывания на мобильных и периферийных устройствах через ONNX.
  • Многозадачные проекты: Если одному приложению необходимо идентифицировать человека, отобразить его скелет (позу) и сегментировать объект, который он держит, YOLO11 предлагает унифицированное решение.

Передовой край: Движение вперед с YOLO26

Хотя YOLO11 является весьма надежным выбором, инновации в искусственном интеллекте никогда не спят. Для инженеров, начинающих новые проекты сегодня, настоятельно рекомендуется изучить Ultralytics YOLO26.

Выпущенный в январе 2026 года, YOLO26 представляет сквозной дизайн без NMS, полностью устраняя узкие места задержки, связанные с постобработкой Non-Maximum Suppression. Кроме того, YOLO26 включает революционный оптимизатор MuSGD, вдохновленный методологиями обучения LLM, для обеспечения более быстрой сходимости. Благодаря целенаправленным улучшениям функции потерь с помощью ProgLoss + STAL и ускорению инференса на CPU до 43% за счет удаления DFL, YOLO26 специально оптимизирован для граничных вычислений и представляет собой текущую вершину визуального ИИ.

Узнайте больше о YOLO26

Для пользователей, заинтересованных в специализированных альтернативных структурах, изучение трансформер-основанного RT-DETR или динамических моделей YOLO-World с открытым словарем также может принести полезные результаты для различных развертываний компьютерного зрения.


Комментарии