YOLO11 против YOLOv7: подробное техническое сравнение
Выбор правильной модели обнаружения объектов - критически важное решение, влияющее на скорость, точность и масштабируемость приложений компьютерного зрения. В этом руководстве приводится подробное техническое сравнение между Ultralytics YOLO11 и YOLOv7двумя значительными вехами в линейке YOLO (You Only Look Once). В то время как YOLOv7 представлял собой большой скачок вперед в 2022 году, недавно выпущенный YOLO11 представляет собой архитектурные усовершенствования, которые переопределяют передовую производительность для современной разработки ИИ.
Ultralytics YOLO11: новый стандарт искусственного интеллекта для зрения
Выйдет в конце 2024 года, Ultralytics YOLO11 опирается на прочный фундамент своих предшественников и обеспечивает непревзойденную эффективность и универсальность. Он предназначен для решения широкого спектра задач компьютерного зрения в рамках единой унифицированной структуры.
- Авторы: Гленн Джохер, Цзин Цю
- Организация:Ultralytics
- Дата: 2024-09-27
- GitHub:https://github.com/ultralytics/ultralytics
- Документы:https://docs.ultralytics.com/models/yolo11/
Архитектура и инновации
В YOLO11 представлена усовершенствованная архитектура, включающая блок C3k2 и механизмы C2PSA (Cross-Stage Partial with Spatial Attention). Эти усовершенствования позволяют модели извлекать признаки с большей детализацией, сохраняя при этом меньшее количество параметров по сравнению с предыдущими поколениями. Архитектура оптимизирована для повышения скорости работы, что позволяет даже большим вариантам модели сохранять возможность вывода в реальном времени на стандартном оборудовании.
Определяющей особенностью YOLO11 является поддержка множества задач, выходящих за рамки обнаружения объектов, включая сегментацию объектов, оценку позы, определение ориентированных ограничительных рамок (OBB) и классификацию изображений.
Интеграция экосистемы Ultralytics
YOLO11 полностью интегрирован в экосистему Ultralytics , предоставляя разработчикам беспрепятственный доступ к инструментам для управления данными, обучения моделей и развертывания. Такая интеграция значительно снижает сложность конвейеров MLOps, позволяя командам быстрее переходить от прототипов к производству.
YOLOv7: эталон эффективного обучения
В YOLOv7, выпущенной в середине 2022 года, большое внимание уделялось оптимизации процесса обучения для достижения высокой точности без увеличения затрат на вывод. В ней было представлено несколько новых концепций, которые повлияли на последующие исследования в этой области.
- Авторы: Чен-Яо Ванг, Алексей Бочковский и Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 06.07.2022
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
- Документы:https://docs.ultralytics.com/models/yolov7/
Архитектура и инновации
Ядром YOLOv7 является сеть E-ELAN (Extended Efficient Layer Aggregation Network), которая улучшает обучаемость модели без разрушения исходного градиентного пути. Авторы также представили "обучаемый мешок бесплатных вещей" - набор стратегий оптимизации, таких как перепараметризация модели и вспомогательные головки обнаружения, которыеповышают точность во время обучения, но исчезают во время вывода.
Несмотря на то, что YOLOv7 установил впечатляющие показатели после своего выхода, это в первую очередь архитектура обнаружения объектов. Адаптация ее для других задач, таких как сегментация или оценка позы, часто требует специальных веток или форков кодовой базы, что контрастирует с унифицированным подходом более новых моделей.
Архитектура наследия
YOLOv7 использует методы обнаружения на основе якорей и сложные вспомогательные головки. Несмотря на свою эффективность, эти архитектурные решения могут усложнить настройку и оптимизацию модели для развертывания на границе по сравнению с обтекаемыми, безъякорными конструкциями, встречающимися в современных моделях Ultralytics .
Анализ производительности: скорость, точность и эффективность
При сравнении технических показателей становится очевидным прогресс в архитектуре YOLO11. Новая модель достигает сопоставимой или более высокой точности при значительно меньшем количестве параметров и более высокой скорости вывода.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Основные выводы
- Эффективность параметров: YOLO11 обеспечивает резкое сокращение размера модели. Например, YOLO11l превосходит по точности YOLOv7x (53,4 % против 53,1 % mAP), используя при этом почти на 65 % меньше параметров (25,3 М против 71,3 М). Такое сокращение очень важно для развертывания моделей на устройствах с ограниченным объемом памяти.
- Скорость вывода: архитектурные оптимизации в YOLO11 напрямую влияют на скорость. На GPU T4 с использованием TensorRTYOLO11l почти в 2 раза быстрее, чем YOLOv7x. Для приложений CPU легковесный YOLO11n обеспечивает невероятную скорость (56,1 мс), позволяя обнаруживать в реальном времени на граничном оборудовании, где варианты YOLOv7 были бы затруднены.
- Требования к вычислительным ресурсам: Количество операций с плавающей запятой ( FLOPs ) в моделях YOLO11 значительно ниже. Снижение вычислительной нагрузки приводит к уменьшению энергопотребления и тепловыделения, что делает YOLO11 очень подходящим для пограничных ИИ-устройств с батарейным питанием.
Экосистема и опыт разработчиков
Помимо основных показателей, главным отличительным фактором является опыт разработчиков. Модели Ultralytics YOLO славятся простотой использования и надежной экосистемой.
Оптимизированный рабочий процесс
YOLOv7 обычно требует клонирования репозитория и взаимодействия со сложными сценариями оболочки для обучения и тестирования. В отличие от этого, YOLO11 распространяется через стандартный пакет Python (ultralytics). Это позволяет разработчикам интегрировать передовые возможности компьютерного зрения в свое программное обеспечение с помощью всего нескольких строк кода.
from ultralytics import YOLO
# Load a model (YOLO11n recommended for speed)
model = YOLO("yolo11n.pt")
# Train the model with a single command
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Универсальность и эффективность обучения
YOLO11 поддерживает широкий спектр задач "из коробки". Если требования проекта переходят от простых ограничительных рамок к сегментация экземпляров или оценка позыРазработчики могут просто переключить файл веса модели (например, yolo11n-seg.pt) без изменения всей кодовой базы или конвейера. YOLOv7 обычно требует поиска и настройки специальных форков для этих задач.
Кроме того, YOLO11 отличается эффективностью обучения. Модели используют современные методы оптимизации и поставляются с высококачественными предварительно обученными весами, которые зачастую сходятся быстрее, чем на старых архитектурах. Эта эффективность распространяется и на требования к памяти: модели Ultralytics оптимизированы для минимизации использования памяти CUDA во время обучения, что предотвращает распространенные ошибки Out-Of-Memory (OOM), которые характерны для старых детекторов или детекторов на базе Transformer.
Документация и поддержка
Ultralytics поддерживает обширную документацию и активное сообщество. Пользователи выигрывают от частых обновлений, исправлений ошибок и четкого пути к корпоративной поддержке. И наоборот, репозиторий YOLOv7 , хотя и является исторически значимым, поддерживается менее активно, что может представлять опасность для долгосрочных производственных развертываний.
Приложения в реальном мире
- Аналитика розничной торговли: Высокая точность и скорость работы YOLO11 позволяет отслеживать поведение покупателей в режиме реального времени и контролировать товарные запасы на стандартном оборудовании магазина.
- Автономная робототехника: Благодаря низкой задержке YOLO11n идеально подходит для навигации и обхода препятствий в беспилотниках и роботах, где каждая миллисекунда на счету.
- Медицинские снимки: Благодаря встроенной поддержке сегментации YOLO11 можно быстро адаптировать для высокоточного выявления и выделения аномалий на медицинских снимках.
- Промышленный контроль: Возможность работы с OBB (Oriented Bounding Boxes) делает YOLO11 превосходным средством для обнаружения повернутых деталей или текста на сборочных линиях, что недоступно в стандартной версии YOLOv7.
Заключение
Хотя YOLOv7 по-прежнему остается способной моделью и свидетельством быстрого прогресса компьютерного зрения в 2022 году, Ultralytics YOLO11 представляет собой окончательный выбор для современной разработки ИИ. Он предлагает превосходный баланс производительности, эффективности и удобства использования.
Для разработчиков и исследователей переход на YOLO11 дает немедленные преимущества: ускорение вычислений, снижение стоимости оборудования и унифицированный рабочий процесс для различных задач компьютерного зрения. Опираясь на активную экосистему Ultralytics , YOLO11 - это не просто модель, а комплексное решение для внедрения передового компьютерного зрения в реальном мире.
Дальнейшее исследование
Изучите больше сравнений, чтобы найти лучшую модель для ваших нужд: