YOLOv7 против YOLO11: от устаревшей системы реального времени к современной эффективности

Навигация по ландшафту моделей компьютерного зрения включает в себя понимание нюансов между устоявшимися архитектурами и последними инновациями state-of-the-art (SOTA). Это руководство предоставляет всестороннее техническое сравнение между YOLOv7, важной вехой в серии YOLO, и Ultralytics YOLO11, передовой моделью, разработанной для превосходной производительности и универсальности.

Мы изучим их архитектурные различия, эталонные показатели и практическое применение, чтобы помочь разработчикам и исследователям выбрать оптимальный инструмент для задач, начиная от обнаружения объектов и заканчивая сложной сегментацией экземпляров.

YOLOv7: эталон эффективной архитектуры

Выпущенный в июле 2022 года, YOLOv7 представляет собой значительный скачок вперед в балансе между эффективностью обучения и скоростью вывода. Он был разработан для того, чтобы превзойти предыдущие детекторы, благодаря оптимизации архитектуры, которая позволяет уменьшить количество параметров без ущерба для точности.

Авторы: Чен-Яо Ван, Алексей Бочковский и Хун-Юань Марк Ляо
Организация:Институт информатики, Academia Sinica, Тайвань
Дата: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Документация:https://docs.ultralytics.com/models/yolov7/

Архитектурные особенности

YOLOv7 представила Extended Efficient Layer Aggregation Network (E-ELAN). Эта архитектура позволяет модели изучать более разнообразные функции, контролируя кратчайшие и длиннейшие пути градиента, улучшая сходимость во время обучения. Кроме того, он использовал «обучаемые бесплатные улучшения», набор стратегий оптимизации, таких как повторная параметризация модели и динамическое назначение меток, которые повышают точность без увеличения стоимости вывода.

Хотя YOLOv7 в первую очередь является моделью обнаружения объектов, сообщество открытого исходного кода изучает возможность расширения YOLOv7 для оценки позы. Однако этим реализациям часто не хватает бесшовной интеграции, имеющейся в унифицированных фреймворках.

Сильные стороны и ограничения

YOLOv7 уважают за:

Высокая производительность: Он установил новую базовую линию для детекторов реального времени после выпуска, хорошо показав себя на наборе данных COCO.
Архитектурные инновации: Внедрение E-ELAN повлияло на последующие исследования в области проектирования сетей.

Однако, она сталкивается с проблемами в современных рабочих процессах:

Сложность: Конвейер обучения может быть сложным, требующим значительной ручной настройки по сравнению с современными стандартами.
Ограниченная универсальность: Он изначально не поддерживает такие задачи, как classification или ориентированные ограничивающие рамки (OBB).
Использование ресурсов: Обучение более крупных вариантов, таких как YOLOv7x, требует значительного объема памяти GPU, что может быть узким местом для исследователей с ограниченным аппаратным обеспечением.

Узнайте больше о YOLOv7

Ultralytics YOLO11: Новый взгляд на скорость, точность и простоту использования

Ultralytics YOLO11 — это последняя эволюция в известной линейке YOLO, разработанная для обеспечения производительности SOTA в широком спектре задач компьютерного зрения. Построенная на основе непрерывного совершенствования, YOLO11 предлагает усовершенствованную архитектуру, которая максимизирует эффективность для развертывания в реальных условиях.

Авторы: Гленн Джохер и Цзин Цю
Организация:Ultralytics
Дата: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Документация:https://docs.ultralytics.com/models/yolo11/

Продвинутая архитектура и универсальность

В YOLO11 используется модернизированная backbone с блоками C3k2 и улучшенным модулем SPPF для более эффективного захвата признаков в различных масштабах. Такая конструкция позволяет создать модель, которая не только более точная, но и значительно легче с точки зрения параметров и FLOPs по сравнению с ее предшественниками и конкурентами.

Определяющей характеристикой YOLO11 является его собственная поддержка нескольких задач. В рамках одной платформы пользователи могут выполнять:

Обнаружение: Идентификация объектов с помощью ограничивающих рамок.
Сегментация: Маскирование на уровне пикселей для точного анализа формы.
Классификация: присвоение меток классов целым изображениям.
Оценка позы: Обнаружение ключевых точек на телах людей.
OBB: Обнаружение вращающихся объектов, что критически важно для аэрофотосъемки.

Унифицированная экосистема

Ultralytics YOLO11 легко интегрируется с Ultralytics HUB — платформой для управления наборами данных, обучения без кода и развертывания в один клик. Эта интеграция значительно ускоряет жизненный цикл MLOps.

Почему разработчики выбирают YOLO11

Простота использования: Благодаря дизайну, ориентированному на пользователя, YOLO11 может быть реализована всего в несколько строк кода на Python или через простой CLI.
Хорошо поддерживаемая экосистема: Поддерживаемая активным сообществом и командой Ultralytics, модель получает частые обновления, обеспечивая совместимость с последними версиями PyTorch и аппаратными ускорителями.
Баланс производительности: Он обеспечивает исключительный компромисс между скоростью инференса и средней точностью (mAP), что делает его идеальным как для периферийных устройств, так и для облачных серверов.
Эффективность использования памяти: Модели YOLO11 обычно требуют меньше памяти CUDA во время обучения по сравнению со старыми архитектурами или моделями на основе transformer, что позволяет использовать большие размеры пакетов или проводить обучение на скромном оборудовании.

Узнайте больше о YOLO11

Сравнение производительности: Технические тесты

В следующей таблице показаны различия в производительности между YOLOv7 и YOLO11. Данные показывают, как современные оптимизации позволяют YOLO11 достигать превосходной точности при незначительных вычислительных затратах.

Модель	размер ^{(пиксели)}	mAP^val 50-95	Скорость ^{CPU ONNX (мс)}	Скорость ^{T4 TensorRT10 (мс)}	параметры ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Анализ:

Эффективность: YOLO11m соответствует точности YOLOv7l (51,5 против 51,4 mAP), используя при этом почти вдвое меньше параметров (20,1M против 36,9M) и значительно меньше FLOPs.
Скорость: Для приложений реального времени YOLO11n значительно быстрее, показывая результат в 1.5 мс на GPU T4, что делает его идеальным для обработки видео с высокой частотой кадров.
Точность: Самая большая модель, YOLO11x, превосходит YOLOv7x по точности (54,7 против 53,1 mAP), сохраняя при этом конкурентоспособное количество параметров.

Реальные примеры использования

Сельское хозяйство и экологический мониторинг

В точном земледелии для обнаружения болезней сельскохозяйственных культур или мониторинга роста требуются модели, которые могут работать на устройствах с ограниченным энергопотреблением, таких как дроны или полевые датчики.

YOLO11: Его легкая архитектура (в частности, YOLO11n/s) позволяет развертывать на устройствах Raspberry Pi или NVIDIA Jetson, обеспечивая мониторинг здоровья урожая в реальном времени.
YOLOv7: Несмотря на точность, высокие вычислительные требования ограничивают ее использование на периферийных устройствах с батарейным питанием.

Интеллектуальное производство и контроль качества

Автоматизированные системы визуального контроля требуют высокой точности для обнаружения мельчайших дефектов на производственных линиях.

YOLO11: Способность модели выполнять segmentацию и OBB здесь имеет решающее значение. Например, OBB необходим для detectирования повернутых компонентов на конвейерной ленте, функция, изначально поддерживаемая YOLO11, но требующая пользовательских реализаций в YOLOv7.
YOLOv7: Подходит для стандартного object detection с ограничивающими рамками, но менее адаптирована для сложных геометрических дефектов без значительной модификации.

Наблюдение и безопасность

Системы безопасности часто обрабатывают несколько видеопотоков одновременно.

YOLO11: Высокая скорость inference позволяет одному серверу обрабатывать больше потоков параллельно, снижая затраты на инфраструктуру.
YOLOv7: Эффективна, но более высокая задержка на кадр уменьшает общее количество каналов, которые может обработать один блок.

Эффективность реализации и обучения

Одной из выдающихся особенностей экосистемы Ultralytics является оптимизированный опыт разработчиков. Ниже приведено сравнение того, как начать работу.

Простота в коде

Ultralytics YOLO11 разработан как «все включено», абстрагируя сложный шаблонный код.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

В отличие от этого, старые репозитории часто требуют клонирования репозитория, ручной настройки файлов конфигурации и запуска сложных shell-скриптов для обучения и инференса.

Гибкость экспорта

YOLO11 поддерживает экспорт в один клик в различные форматы для развертывания, включая ONNX, TensorRT, CoreML и TFLite. Эта гибкость гарантирует, что ваша модель готова к производству в любой среде.

Вывод: Явный победитель

Несмотря на то, что YOLOv7 остается достойной моделью в истории компьютерного зрения, Ultralytics YOLO11 представляет собой будущее. Для разработчиков и исследователей YOLO11 предлагает убедительный пакет:

Превосходные метрики: Более высокий mAP и более высокая скорость inference.
Развитая экосистема: Доступ к Ultralytics HUB, обширной документации и поддержке сообщества.
Универсальность: Единый фреймворк для detection, segment, pose, классификации и OBB.
Задел на будущее: Постоянные обновления и обслуживание обеспечивают совместимость с новым оборудованием и библиотеками программного обеспечения.

Для любого нового проекта использование эффективности и простоты использования YOLO11 является рекомендуемым путем к достижению самых современных результатов с минимальными трудностями.

Изучите другие модели

Если вам интересны дальнейшие сравнения, изучите эти связанные страницы в документации: