YOLO11 против YOLOv7: подробное техническое сравнение

Сфера компьютерного зрения продолжает стремительно развиваться, а обнаружение объектов в реальном времени остается на переднем крае применения ИИ. Выбор подходящей архитектуры для твоего проекта требует поиска сложного баланса между скоростью, точностью и простотой развертывания. В этом руководстве мы предлагаем всестороннее техническое сравнение двух выдающихся архитектур: Ultralytics YOLO11 и YOLOv7.

История создания моделей и технические детали

Обе модели оказали значительное влияние на сообщество глубокого обучения, но они основаны на разных философиях разработки и появились в разное время.

Подробности YOLO11:
Авторы: Гленн Джочер и Цзин Цю
Организация: Ultralytics
Дата: 27.09.2024
GitHub: https://github.com/ultralytics/ultralytics
Документация: https://docs.ultralytics.com/models/yolo11/

Узнай больше о YOLO11

Подробности YOLOv7:
Авторы: Чиен-Яо Ван, Алексей Бочковский и Хонг-Юань Марк Ляо
Организация: Институт информатики, Academia Sinica, Тайвань
Дата: 06.07.2022
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Документация: https://docs.ultralytics.com/models/yolov7/

Узнай больше о YOLOv7

Архитектурные различия

Анализируя внутренние механизмы, можно увидеть, что обе модели используют передовые концепции, однако их структурные основы различаются.

YOLOv7 представила концепцию сетей с расширенной эффективной агрегацией слоев (E-ELAN). Эта архитектура была разработана для постоянного улучшения обучающей способности сети без нарушения исходного пути градиента, что является важным прорывом, описанным в их научной статье. YOLOv7 сильно опирается на структурную репараметризацию и надежную методологию «набора бесплатных трюков» (bag-of-freebies) при обучении, что повышает общую точность на наборе данных COCO без увеличения затрат на инференс.

В отличие от нее, YOLO11 построена на основе высокооптимизированной архитектуры Ultralytics. В ней сделан акцент на более совершенном конвейере извлечения признаков с меньшим количеством параметров, что ведет к снижению использования памяти при обучении. YOLO11 достигает очень выгодного баланса производительности, используя меньше вычислительных ресурсов (FLOPs) и при этом соответствуя точности обнаружения более тяжелых моделей или превосходя ее. Кроме того, YOLO11 изначально поддерживает более широкий спектр задач, что делает ее крайне универсальным выбором для современных приложений компьютерного зрения.

Эффективность использования памяти

Одной из выдающихся особенностей моделей Ultralytics YOLO является их меньшее потребление памяти во время обучения по сравнению с другими современными моделями, что позволяет разработчикам обучать мощные сети на потребительском оборудовании PyTorch.

Сравнение производительности и метрик

Для точной оценки жизнеспособности в реальных условиях необходимо анализировать такие метрики, как средняя точность (mAP), скорость инференса, количество параметров модели и вычислительная сложность (FLOPs). В следующей таблице показано сравнение масштабируемых версий YOLO11 с более крупными моделями YOLOv7.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Как можно заметить, модель уровня YOLO11x достигает более высокого показателя 54.7 mAP по сравнению с 53.1 mAP у YOLOv7x, при этом используя значительно меньше параметров (56.9 млн против 71.3 млн). Это подчеркивает превосходную архитектурную эффективность YOLO11.

Эффективность обучения и удобство экосистемы

Одной из наиболее определяющих характеристик, разделяющих эти две архитектуры, является опыт разработчика и окружающая экосистема.

YOLOv7 — это по сути академический исследовательский репозиторий. Обучение моделей часто требует сложной настройки окружения, ручного управления зависимостями и использования длинных аргументов командной строки. Хотя она поддерживает передовые эксперименты, адаптация кода репозитория YOLOv7 на GitHub для пользовательских производственных сред может потребовать много времени.

YOLO11 полностью меняет представление о простоте использования. Она полностью интегрирована в платформу Ultralytics — комплексную и хорошо поддерживаемую экосистему, предлагающую бесшовные сквозные рабочие процессы. От разметки данных и локального обучения до развертывания, единый Python API и простой интерфейс командной строки упрощают весь процесс.

Сравнение кода

Обучение модели обнаружения объектов с помощью YOLO11 требует всего несколько строк кода, что значительно снижает порог входа:

from ultralytics import YOLO

# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model effortlessly using the unified API
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Quickly export to ONNX format
model.export(format="onnx")

В то же время типичная команда для обучения YOLOv7 выглядит так и требует тщательной настройки путей, файлов конфигурации и bash-скриптов:

python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights 'yolov7_training.pt'

YOLO11 также обеспечивает огромную универсальность. В то время как YOLOv7 требует совершенно разных кодовых баз или серьезных модификаций для поддержки задач помимо обнаружения (таких как определение позы или сегментация), YOLO11 обрабатывает обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и обнаружение ориентированных ограничивающих рамок (OBB) с помощью единого связного фреймворка.

Экспорт стал проще

Экспорт YOLO11 в форматы вроде TensorRT или OpenVINO требует всего одной команды, что позволяет избежать типичных проблем с поддержкой операторов, возникающих при работе с устаревшими моделями.

Реальные приложения и идеальные сценарии использования

Выбор между YOLOv7 и YOLO11 полностью зависит от масштаба проекта и ограничений развертывания.

Когда стоит рассматривать YOLOv7:

  • Бенчмаркинг устаревших моделей: Академические исследователи, изучающие дизайн путей градиента, могут использовать YOLOv7 как базовую линию для оценки более новых сверточных нейронных сетей.
  • Существующие пользовательские конвейеры: Команды с сильно модифицированными конвейерами на C++ или CUDA, созданными специально под уникальную логику декодирования ограничивающих рамок YOLOv7.

Когда стоит выбрать YOLO11:

  • Коммерческое производство: Приложения в области умной розничной торговли или медицинской диагностики получают огромную выгоду от поддерживаемой кодовой базы и высокой стабильности YOLO11.
  • Среды с ограниченными ресурсами: Легкий вес YOLO11n делает её исключительно подходящей для развертывания на мобильных и периферийных устройствах через ONNX.
  • Многозадачные проекты: Если одному приложению нужно идентифицировать человека, составить карту его скелета (поза) и сегментировать объект, который он держит, YOLO11 предоставляет единое решение.

На острие прогресса: двигаемся дальше с YOLO26

Хотя YOLO11 является весьма надежным выбором, инновации в области искусственного интеллекта не стоят на месте. Инженерам, начинающим новые проекты сегодня, настоятельно рекомендуется ознакомиться с Ultralytics YOLO26.

Выпущенная в январе 2026 года, YOLO26 представляет сквозной дизайн без NMS, полностью устраняя узкие места задержки, связанные с постобработкой немаксимального подавления. Более того, YOLO26 включает революционный оптимизатор MuSGD, вдохновленный методологиями обучения больших языковых моделей, для обеспечения более быстрой сходимости. Благодаря целевым улучшениям функции потерь через ProgLoss + STAL и до 43% более быстрому инференсу на CPU за счет удаления DFL, YOLO26 специально оптимизирована для периферийных вычислений и представляет собой нынешнюю вершину зрения на основе ИИ.

Узнай больше о YOLO26

Для пользователей, заинтересованных в специализированных альтернативных структурах, изучение RT-DETR на основе трансформеров или динамических моделей с открытым словарем YOLO-World также может дать полезные результаты для разнообразных развертываний компьютерного зрения.

Комментарии