YOLO11 против YOLOv9: всестороннее техническое сравнение
В быстро развивающейся области компьютерного зрения выбор правильной модели обнаружения объектов имеет решающее значение для успеха проекта. В этом сравнении рассматриваются технические нюансы между Ultralytics YOLO11новейшей современной моделью, разработанной для обеспечения эффективности в реальных условиях, и YOLOv9архитектурой, ориентированной на исследования и известной своими теоретическими инновациями. Мы анализируем их архитектурные различия, показатели производительности и пригодность для различных сценариев развертывания.
Ultralytics YOLO11: стандарт для производственного ИИ
Опубликовано 27 сентября 2024 г., авторы Гленн Джочер и Цзин Цю в UltralyticsYOLO11 - это кульминация обширных исследований и разработок в области создания эффективных нейронных сетей. В отличие от академических моделей, для которых теоретические показатели зачастую важнее практической пользы, YOLO11 спроектирована таким образом, чтобы обеспечить оптимальный баланс скорости, точности и эффективности использования ресурсов для разработчиков и предприятий.
Технические детали:
- Авторы: Гленн Джохер, Цзин Цю
- Организация:Ultralytics
- Дата: 2024-09-27
- GitHub:ultralytics
- Документы:ДокументацияYOLO11
Архитектура и особенности
YOLO11 представляет усовершенствованную архитектуру, которая улучшает извлечение признаков при сохранении компактного форм-фактора. В ней используется улучшенная структура позвоночника и шеи, специально разработанная для захвата сложных узоров с меньшим количеством параметров по сравнению с предыдущими поколениями, такими как YOLOv8. Такая философия дизайна гарантирует, что модели YOLO11 будут работать исключительно хорошо на аппаратном обеспечении с ограниченными ресурсами, например, на устройствах с пограничным доступом, без ущерба для возможностей обнаружения.
Отличительной особенностью YOLO11 является его универсальность. В то время как многие модели представляют собой исключительно детекторы объектов, YOLO11 поддерживает широкий спектр задач компьютерного зрения в рамках одного фреймворка:
- Обнаружение объектов
- Сегментация экземпляров
- Классификация изображений
- Оценка позы
- Ориентированная граница (Oriented Bounding Box, OBB)
Сильные стороны в производстве
Для разработчиков главным преимуществом YOLO11 является его интеграция в экосистемуUltralytics . Это обеспечивает оптимизированный пользовательский опыт благодаря простому API наPython и комплексному CLI.
Почему разработчики выбирают YOLO11
YOLO11 значительно сокращает время вывода решений ИИ на рынок. Благодаря более низким требованиям к памяти при обучении и выводах она доступна для широкого спектра оборудования, что позволяет избежать высоких затрат на VRAM, связанных с альтернативами на основе трансформаторов.
YOLOv9: устранение информационных узких мест
YOLOv9 , представленная в начале 2024 года Чиен-Яо Вангом и Хонг-Юаном Марком Ляо, посвящена решению проблем теории глубокого обучения, в частности проблемы "узкого места" в информации. Это свидетельство академической строгости, раздвигающей границы возможного в сохранении характеристик.
Технические детали:
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация:Academia Sinica
- Дата: 21.02.2024
- Arxiv:arXiv:2402.13616
- GitHub:WongKinYiu/yolov9
- Документация:ДокументацияYOLOv9
Архитектурные инновации
YOLOv9 построен на двух основных концепциях: Программируемая градиентная информация (PGI) и обобщенная эффективная сеть агрегирования слоев (GELAN). PGI нацелена на сохранение входной информации при прохождении ее через глубокие слои, вычисляя надежный градиент для функции потерь. GELAN оптимизирует использование параметров, позволяя модели достичь высокой точности на наборе данныхCOCO относительно его размера.
Производительность и компромиссы
YOLOv9 превосходит всех в тестах на точность, а его самый большой вариант, YOLOv9, демонстрирует впечатляющие показатели mAP . Однако такая академическая направленность может привести к повышенной сложности при развертывании. Несмотря на свою мощь, оригинальная реализация не обладает универсальностью многозадачности, присущей фреймворку Ultralytics , и сосредоточена в основном на обнаружении. Кроме того, обучение таких архитектур может быть более ресурсоемким по сравнению с высоко оптимизированными конвейерами YOLO11.
Метрики производительности: Скорость против точности
При выборе модели очень важно понять компромисс между скоростью вывода и точностью обнаружения. В таблице ниже представлены результаты работы обоих семейств моделей на наборе данных COCO .
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Анализ
Эти данные подчеркивают баланс производительности, заложенный в YOLO11.
- Эффективность: YOLO11n превосходит YOLOv9t по точности (39,5% против 38,3%), потребляя при этом меньше FLOP (6,5B против 7,7B), что делает его лучшим для мобильного развертывания.
- Скорость: В целом YOLO11 демонстрирует более высокую скорость вычислений на графических процессорах T4 с использованием TensorRT, что является критическим фактором для видеоаналитики в реальном времени.
- Точность: Хотя YOLOv9 занимает первое место по точности mAP, это достигается за счет значительно более высокой задержки (16,77 мс против 11,3 мс у YOLO11x). Для большинства практических приложений преимущество YOLO11 в скорости перевешивает незначительный выигрыш в mAP.
Удобство использования и экосистема
Разница в "мягких навыках" - простота использования, документация и поддержка - вот где модели Ultralytics действительно блистают.
Простота использования и эффективность обучения
YOLO11 создан для того, чтобы быть доступным. С помощью стандартного Python вы можете обучать, проверять и развертывать модели, используя всего несколько строк кода. Ultralytics предоставляет предварительно обученные веса, которые позволяют осуществлять трансферное обучение, значительно сокращая время обучения и уменьшая углеродный след от разработки ИИ.
В отличие от этого, хотя YOLOv9 доступен в пакете Ultralytics , его оригинальная исследовательская кодовая база требует более глубокого понимания конфигураций глубокого обучения. Пользователи YOLO11 получают преимущество от унифицированного интерфейса, который работает одинаково независимо от того, выполняете ли вы сегментацию или классификацию.
Сравнение кодов: Простота YOLO11
Обучение модели YOLO11 осуществляется с помощью Ultralytics Python API.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
Хорошо поддерживаемая экосистема
Выбор YOLO11 означает вступление в поддерживаемую среду. ЭкосистемаUltralytics включает в себя:
- Активное развитие: Частые обновления, обеспечивающие совместимость с последними PyTorch версиями и драйверами оборудования.
- Поддержка сообщества: Массовое сообщество на GitHub и Discord для устранения неполадок.
- Документация: Обширные руководства по всем вопросам, начиная от настройки гиперпараметров и заканчивая экспортом моделей в ONNX.
Идеальные варианты использования
Когда выбирать YOLO11
YOLO11 рекомендуется для 95% коммерческих и любительских проектов благодаря своей универсальности и скорости.
- Edge AI: развертывание на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где память и FLOP ограничены.
- Наблюдение в реальном времени: Приложения, требующие высокой частоты кадров в секунду для мониторинга безопасности.
- Многозадачные приложения: Проекты, требующие одновременного обнаружения, сегментации и оценки позы без управления несколькими различными архитектурами моделей.
Когда выбирать YOLOv9
YOLOv9 лучше всего подходит для специфических академических или высокоточных сценариев.
- Исследовательский бенчмаркинг: Когда основной целью является сравнение теоретических архитектур или достижение определенного показателя mAP на наборе данных, например COCO.
- Автономная обработка: Сценарии, в которых скорость вывода не является ограничением, и каждая доля процента точности имеет значение, например, при автономном анализе медицинских изображений.
Заключение
Пока YOLOv9 представляет академическому сообществу такие увлекательные концепции, как PGI и GELAN, Ultralytics YOLO11 выделяется как превосходный практический выбор для создания продуктов ИИ. Непревзойденное сочетание скорости, точности, универсальности и простоты использования делает его ведущей моделью для современного компьютерного зрения. Опираясь на надежную экосистему и обеспечивая эффективность, YOLO11 позволяет разработчикам уверенно переходить от концепции к внедрению.
Изучите другие модели
Если вы заинтересованы в дальнейших сравнениях, изучите другие высокопроизводительные модели в библиотеке Ultralytics :
- YOLOv10: сквозное обнаружение объектов в реальном времени.
- YOLOv8: предшественник YOLO11, до сих пор широко используется в производстве.
- RT-DETR: детектор на основе трансформатора, обеспечивающий высокую точность для тех, кто работает в средах GPU.