YOLOv5 против YOLOv9: Углубленное техническое сравнение.
Ландшафт компьютерного зрения и обнаружения объектов в реальном времени за последние несколько лет претерпел значительные изменения. Выбор между устоявшимися, проверенными в боях моделями и новыми исследовательскими архитектурами является общей проблемой для инженеров машинного обучения. Это руководство представляет собой всестороннее техническое сравнение двух весьма влиятельных моделей семейства YOLO: YOLOv5 и YOLOv9.
Независимо от того, развертываете ли вы на ограниченных граничных устройствах, исследуете высокоточное извлечение признаков или создаете сложные конвейеры обнаружения объектов, понимание архитектурных нюансов, метрик производительности и различий в экосистемах этих моделей имеет решающее значение.
Обзоры моделей
Прежде чем углубляться в архитектурные сравнения, полезно понять происхождение и основные цели каждой модели.
Ultralytics YOLOv5
Разработанный Гленном Йохером и выпущенный Ultralytics 26 июня 2020 года, YOLOv5 ознаменовал сдвиг парадигмы в том, как разработчики взаимодействовали с моделями зрения. Полностью приняв фреймворк PyTorch, YOLOv5 обменял сложные этапы компиляции более ранних моделей на основе Darknet на интуитивно понятный, ориентированный на Python пользовательский опыт.
- Автор: Гленн Джокер
- Организация:Ultralytics
- Дата: 2020-06-26
- GitHub:Репозиторий YOLOv5
- Документация:Обзор платформы YOLOv5
YOLOv5 известен своей простотой использования и стабильной производительностью в различных аппаратных средах. Он поддерживает не только detect, но также классификацию изображений и instance segmentation.
YOLOv9
Представленный Чиен-Яо Вангом и Хонг-Юань Марком Ляо из Института информатики Academia Sinica, Тайвань, YOLOv9 уделяет большое внимание архитектурной теории для смягчения проблем информационных узких мест в глубоких нейронных сетях.
- Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 2024-02-21
- Arxiv:2402.13616
- GitHub:Репозиторий YOLOv9
- Документация:Документация YOLOv9
Основа YOLOv9 базируется на двух основных теоретических инновациях: программируемой градиентной информации (PGI) и обобщенной эффективной сети агрегации слоев (GELAN). Эти концепции помогают модели сохранять критически важные пространственные признаки через глубокие слои сети.
Обеспечьте перспективность ваших развертываний
Хотя YOLOv5 и YOLOv9 мощны, недавно выпущенный YOLO26 представляет собой идеальный баланс скорости и точности. Благодаря сквозной NMS-free архитектуре и до 43% более быстрому инференсу на CPU, YOLO26 настоятельно рекомендуется для современных граничных вычислений и производственных развертываний.
Архитектурные и технические различия
Понимание того, что лежит в основе этих моделей компьютерного зрения, жизненно важно для оптимизации стратегий развертывания моделей.
Извлечение признаков и сохранение информации
YOLOv5 использует backbone сети Cross Stage Partial Network (CSPNet), который эффективно снижает вычислительные накладные расходы, сохраняя при этом точный поток градиентов во время обратного распространения. Эта конструкция высоко оптимизирована для традиционных операций GPU и обеспечивает более низкие требования к памяти во время обучения по сравнению с тяжелыми альтернативами на основе трансформеров.
YOLOv9 представляет GELAN — универсальную архитектуру, расширяющую принципы CSPNet. В сочетании с PGI — вспомогательной обратимой ветвью — YOLOv9 гарантирует, что глубокие слои не теряют семантические данные, необходимые для точных целевых функций. Это позволяет YOLOv9 достигать высокой точности, особенно на мелких объектах, хотя сложное вспомогательное ветвление иногда может усложнять конвейеры экспорта на сильно ограниченное периферийное оборудование.
Требования к памяти и эффективность обучения
Что касается эффективности обучения, YOLOv5 остается невероятно надежным. Хорошо поддерживаемая экосистема Ultralytics гарантирует, что модели YOLOv5 потребляют значительно меньше памяти CUDA, что позволяет исследователям максимизировать размеры пакетов на потребительских GPU. Хотя YOLOv9 достигает отличной эффективности параметров (высокая точность относительно своего размера), его процесс обучения может быть более ресурсоемким, если не используются оптимизированные фреймворки. К счастью, интеграция YOLOv9 в API Ultralytics приближает его к паритету с оптимизированным управлением ресурсами YOLOv5.
Производительность и метрики
Для объективной оценки этих архитектур мы сравниваем их производительность на стандартных наборах данных, таких как COCO. Ниже представлен подробный анализ метрик, таких как mAP (средняя точность), скорость инференса и количество параметров.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Как показывает таблица, YOLOv9 достигает более высокой исходной точности на эквивалентных уровнях, что отражает её новую архитектуру. Однако YOLOv5n поддерживает невероятно низкую задержку TensorRT в 1.12 мс, подчеркивая её устойчивую производительность для высокоскоростных локализованных приложений периферийных вычислений.
Методологии обучения и простота использования
Истинное преимущество использования компьютерного зрения сегодня заключается в доступности инструментария.
Преимущество Ultralytics
Хотя оригинальные исследовательские репозитории для моделей, таких как YOLOv9, являются основополагающими, они часто поставляются со сложными матрицами зависимостей и шаблонными скриптами. Python API Ultralytics полностью абстрагирует эту сложность. С экосистемой Ultralytics вы можете обучать, оценивать и экспортировать как YOLOv5, так и YOLOv9 с идентичным, унифицированным синтаксисом.
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model for fast deployment
model_v5 = YOLO("yolov5s.pt")
# Or leverage a YOLOv9 model for high-fidelity accuracy
model_v9 = YOLO("yolov9c.pt")
# Train seamlessly on custom data with automatic MLflow logging
results = model_v9.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX
model_v9.export(format="onnx")
Этот подход с единым API обеспечивает огромную универсальность, поддерживая не только detect, но и оценку позы и ориентированные ограничивающие рамки (obb) в зависимости от выбранной модели. Кроме того, надежные интеграции с такими инструментами, как Comet ML и Weights & Biases, встроены непосредственно в цикл обучения.
Идеальные варианты использования и практические применения
Выбор между этими архитектурами во многом зависит от ограничений вашего оборудования и точности, требуемой вашей прикладной областью.
Когда выбирать YOLOv5
YOLOv5 — это проверенный временем ветеран, который превосходно проявляет себя в развертываниях, где приоритет отдается стабильности, низкому потреблению памяти и исключительной совместимости при экспорте.
- Мобильные развертывания: Экспорт YOLOv5 в TFLite или CoreML для вывода на устройстве на старых смартфонах невероятно прост.
- Устаревшее граничное оборудование: Для таких устройств, как Raspberry Pi или NVIDIA Jetson Nanos раннего поколения, простые свертки YOLOv5 обеспечивают стабильную частоту кадров для таких приложений, как управление умной парковкой.
- Быстрое прототипирование: Широкая доступность обучающих материалов сообщества, пользовательские предобученные веса и совместимость с огромными наборами данных делают его самым быстрым способом проверки концепции.
Когда выбирать YOLOv9
YOLOv9 идеально подходит для сценариев, где захват мельчайших деталей и минимизация ложноотрицательных результатов абсолютно критически важен, даже если это требует несколько больших вычислительных затрат.
- Аэро- и спутниковая съемка: Фреймворк PGI очень хорошо справляется с сохранением точности мелких объектов, что делает YOLOv9 отличным решением для сельскохозяйственного мониторинга с использованием дронов.
- Диагностика медицинских изображений: При detect мельчайших аномалий или поражений на сканах высокого разрешения, точный поток градиента GELAN обеспечивает необходимое преимущество в полноте.
- Высокоуровневая розничная аналитика: Отслеживание перекрывающихся продуктов на плотно заполненных полках значительно выигрывает от превосходных возможностей YOLOv9 по сохранению признаков.
Расширяя ваши горизонты
Хотя сравнение YOLOv5 и YOLOv9 дает четкое представление о том, как архитектуры развивались с 2020 по 2024 год, область ИИ развивается быстрее, чем когда-либо. Разработчикам, стремящимся к абсолютному пределу производительности, настоятельно рекомендуется изучить новейшие модели YOLO26. Заменив традиционное Non-Maximum Suppression на нативную сквозную NMS-Free архитектуру и используя передовой оптимизатор MuSGD, YOLO26 сокращает разрыв между точностью исследовательского уровня и скоростью производственного уровня. Благодаря удалению DFL (Distribution Focal Loss удален для упрощенного экспорта и лучшей совместимости с периферийными/маломощными устройствами), YOLO26 достигает до 43% более быстрой инференции на CPU, что делает ее идеальной для граничных вычислений. Кроме того, ProgLoss + STAL обеспечивает улучшенные функции потерь со значительными улучшениями в распознавании мелких объектов, что критически важно для IoT, робототехники и аэрофотосъемки.
Вам также может быть интересно сравнить эти архитектуры с другими передовыми моделями, такими как RT-DETR или высокопроизводительная YOLO11. Использование унифицированного фреймворка Ultralytics гарантирует, что независимо от выбранной модели ваш конвейер разработки останется чистым, эффективным и готовым к масштабированию.