YOLO11 против YOLOv7: Детальное техническое сравнение

Выбор правильной модели для detect объектов — это критически важное решение, которое влияет на скорость, точность и масштабируемость приложений компьютерного зрения. В этом руководстве представлено углубленное техническое сравнение между Ultralytics YOLO11 и YOLOv7 — двумя важными вехами в линейке YOLO (You Only Look Once). В то время как YOLOv7 представляла собой большой шаг вперед в 2022 году, недавно выпущенная YOLO11 представляет архитектурные усовершенствования, которые переопределяют современный уровень производительности для современной разработки ИИ.

Ultralytics YOLO11: Новый стандарт для Vision AI

Выпущенная в конце 2024 года, Ultralytics YOLO11 опирается на прочный фундамент своих предшественников, обеспечивая непревзойденную эффективность и универсальность. Она предназначена для обработки широкого спектра задач компьютерного зрения в рамках единой унифицированной структуры.

Авторы: Гленн Джохер, Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Документация:https://docs.ultralytics.com/models/yolo11/

Архитектура и инновации

YOLO11 представляет собой усовершенствованную архитектуру, включающую блок C3k2 и механизмы C2PSA (Cross-Stage Partial with Spatial Attention). Эти усовершенствования позволяют модели извлекать признаки с большей детализацией, сохраняя при этом меньшее количество параметров по сравнению с предыдущими поколениями. Архитектура оптимизирована для скорости, что гарантирует, что даже более крупные варианты модели сохраняют возможности inference в реальном времени на стандартном оборудовании.

Определяющей характеристикой YOLO11 является его встроенная поддержка нескольких задач, помимо обнаружения объектов, включая сегментацию экземпляров, оценку позы, обнаружение ориентированных ограничивающих рамок (obb) и классификацию изображений.

Интеграция в экосистему Ultralytics

YOLO11 полностью интегрирован в экосистему Ultralytics, предоставляя разработчикам беспрепятственный доступ к инструментам для управления данными, обучения моделей и развертывания. Эта интеграция значительно снижает сложность конвейеров MLOps, позволяя командам быстрее переходить от прототипа к производству.

Узнайте больше о YOLO11

YOLOv7: эталон эффективного обучения

YOLOv7, выпущенная в середине 2022 года, была в значительной степени ориентирована на оптимизацию процесса обучения для достижения высокой точности без увеличения затрат на inference. Она представила несколько новых концепций, которые повлияли на последующие исследования в этой области.

Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
Организация: Institute of Information Science, Academia Sinica, Taiwan
Дата: 06.07.2022
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Документация:https://docs.ultralytics.com/models/yolov7/

Архитектура и инновации

Основой YOLOv7 является E-ELAN (Extended Efficient Layer Aggregation Network), которая улучшает способность модели к обучению, не разрушая исходный градиентный путь. Авторы также представили «trainable bag-of-freebies» — набор стратегий оптимизации, таких как репараметризация модели и вспомогательные головы обнаружения, которые повышают точность во время обучения, но упрощаются во время инференса.

В то время как YOLOv7 установила впечатляющие ориентиры после своего выпуска, она является прежде всего архитектурой обнаружения объектов. Адаптация ее для других задач, таких как сегментация или оценка позы, часто требует определенных веток или форков кодовой базы, что контрастирует с унифицированным подходом более новых моделей.

Устаревшая архитектура

YOLOv7 опирается на методы detect на основе якорей и сложные вспомогательные головы. Хотя эти архитектурные решения эффективны, они могут затруднить настройку и оптимизацию модели для развертывания на периферии по сравнению с оптимизированными конструкциями без якорей, которые используются в современных моделях Ultralytics.

Узнайте больше о YOLOv7

Анализ производительности: скорость, точность и эффективность

При сравнении технических метрик становятся очевидными усовершенствования в архитектуре YOLO11. Новая модель достигает сопоставимой или превосходящей точности при значительно меньшем количестве параметров и более высокой скорости инференса.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Основные выводы

Эффективность параметров: YOLO11 обеспечивает значительное уменьшение размера модели. Например, YOLO11l превосходит по точности YOLOv7x (53,4% против 53,1% mAP), используя при этом почти на 65% меньше параметров (25,3 млн против 71,3 млн). Такое уменьшение критически важно для развертывания моделей на устройствах с ограниченным объемом памяти и хранилища.
Скорость инференса: Архитектурные оптимизации в YOLO11 напрямую влияют на скорость. На T4 GPU с использованием TensorRT, YOLO11l почти в 2 раза быстрее, чем YOLOv7x. Для приложений на базе CPU, облегченная YOLO11n предлагает невероятную скорость (56,1 мс), обеспечивая обнаружение в реальном времени на периферийном оборудовании, где варианты YOLOv7 испытывают трудности.
Вычислительные требования: Количество FLOPs (операций с плавающей точкой) значительно ниже для моделей YOLO11. Эта более низкая вычислительная нагрузка приводит к меньшему энергопотреблению и тепловыделению, что делает YOLO11 очень подходящим для периферийных AI устройств с батарейным питанием.

Экосистема и опыт разработчиков

Помимо сухих метрик, важным фактором является удобство разработки. Модели Ultralytics YOLO известны своей простотой использования и надежной экосистемой.

Оптимизированный рабочий процесс

YOLOv7 обычно требует клонирования репозитория и взаимодействия со сложными shell-скриптами для обучения и тестирования. В отличие от этого, YOLO11 распространяется через стандартный пакет Python (ultralytics). Это позволяет разработчикам интегрировать передовые возможности компьютерного зрения в свое программное обеспечение всего несколькими строками кода.

from ultralytics import YOLO

# Load a model (YOLO11n recommended for speed)
model = YOLO("yolo11n.pt")

# Train the model with a single command
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Универсальность и эффективность обучения

YOLO11 поддерживает широкий спектр задач из коробки. Если требования проекта смещаются от простых ограничивающих рамок к сегментация экземпляров или оценка позы, разработчики могут просто переключить файл весов модели (например, yolo11n-seg.pt) без изменения всей кодовой базы или конвейера. YOLOv7 обычно требует поиска и настройки определенных форков для этих задач.

Кроме того, YOLO11 выигрывает от эффективности обучения. Модели используют современные методы оптимизации и поставляются с высококачественными предварительно обученными весами, часто сходясь быстрее, чем более старые архитектуры. Эта эффективность распространяется и на требования к памяти; модели Ultralytics оптимизированы для минимизации использования памяти CUDA во время обучения, предотвращая распространенные ошибки нехватки памяти (OOM), которые преследуют более старые детекторы или детекторы на основе Transformer.

Документация и поддержка

Ultralytics поддерживает обширную документацию и активное сообщество. Пользователи получают выгоду от частых обновлений, исправления ошибок и четкого пути для корпоративной поддержки. И наоборот, репозиторий YOLOv7, хотя и имеет историческое значение, поддерживается менее активно, что может представлять риски для долгосрочного развертывания в production.

Приложения в реальном мире

Аналитика розничной торговли: Высокая точность и скорость YOLO11 позволяют отслеживать поведение клиентов и контролировать запасы в режиме реального времени на стандартном оборудовании магазина.
Автономная робототехника: Низкая задержка YOLO11n делает ее идеальной для навигации и обхода препятствий в дронах и роботах, где важна каждая миллисекунда.
Медицинская визуализация: Благодаря встроенной поддержке сегментации, YOLO11 можно быстро адаптировать для выявления и выделения аномалий в медицинских сканах с высокой точностью.
Промышленный контроль: Возможность работы с OBB (Oriented Bounding Boxes) делает YOLO11 превосходным решением для обнаружения повернутых деталей или текста на сборочных линиях, функция, которая изначально недоступна в стандартной YOLOv7.

Заключение

В то время как YOLOv7 остается способной моделью и свидетельством быстрого прогресса компьютерного зрения в 2022 году, Ultralytics YOLO11 представляет собой окончательный выбор для современной разработки ИИ. Она предлагает превосходный баланс производительности, эффективности и удобства использования.

Для разработчиков и исследователей переход на YOLO11 предоставляет немедленные преимущества: более быстрое время inference, снижение затрат на оборудование и унифицированный рабочий процесс для различных задач машинного зрения. Поддерживаемый активной экосистемой Ultralytics, YOLO11 — это не просто модель, а комплексное решение для развертывания современной компьютерного зрения в реальном мире.

Дальнейшее изучение

Изучите больше сравнений, чтобы найти лучшую модель для ваших конкретных потребностей:

YOLO11 против YOLOv7: Детальное техническое сравнение

Ultralytics YOLO11: Новый стандарт для Vision AI

Архитектура и инновации

YOLOv7: эталон эффективного обучения

Архитектура и инновации

Анализ производительности: скорость, точность и эффективность

Основные выводы

Экосистема и опыт разработчиков

Оптимизированный рабочий процесс

Универсальность и эффективность обучения

Документация и поддержка

Приложения в реальном мире

Заключение

Дальнейшее изучение

Комментарии