YOLOv9 против YOLOv6.0: Подробное техническое сравнение
Выбор идеальной архитектуры обнаружения объектов является ключевым шагом в разработке надежных решений для компьютерного зрения. При принятии решения часто приходится искать сложный компромисс между точностью, скоростью вывода и потреблением вычислительных ресурсов. В данном руководстве приводится всестороннее техническое сравнение между YOLOv9современной моделью, отмеченной за эффективность архитектуры, и YOLOv6.0, моделью, оптимизированной специально для скорости промышленного развертывания. Мы проанализируем их архитектурные инновации, показатели производительности и идеальные сценарии развертывания, чтобы помочь вам сделать осознанный выбор.
YOLOv9: новое определение точности и эффективности
YOLOv9, представленный в начале 2024 года, представляет собой смену парадигмы в области обнаружения объектов в реальном времени. Она решает фундаментальную проблему потери информации в глубоких нейронных сетях, достигая высочайшей точности при сохранении исключительной вычислительной эффективности.
Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
Организация:Institute of Information Science, Academia Sinica, Taiwan
Дата: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Docsultralytics
Архитектурные инновации
Основная сила YOLOv9 заключается в двух новаторских концепциях: Программируемая градиентная информация (PGI) и обобщенная эффективная сеть агрегирования слоев (GELAN). При увеличении глубины сетей важная информация о характеристиках часто теряется в процессе передачи данных. PGI борется с этим информационным узким местом, обеспечивая сохранение надежной информации о градиенте для обновления весов сети. Одновременно GELAN оптимизирует архитектуру для максимального использования параметров, что позволяет модели достигать более высокой точности при меньшем количестве параметров и FLOP по сравнению с традиционными моделями.
При использовании в экосистеме Ultralytics , YOLOv9 предлагает беспрепятственный опыт разработки. Удобный Python API, исчерпывающая документация и надежная поддержка делают его доступным как для исследователей, так и для корпоративных разработчиков.
Сильные стороны
- Превосходная точность: YOLOv9 достигает самых современных показателей mAP на таких эталонах, как набор данныхCOCO , постоянно превосходя предшественников по точности обнаружения.
- Вычислительная эффективность: Архитектура GELAN обеспечивает высочайшую производительность модели без больших вычислительных затрат, обычно связанных с высокоточными моделями, что делает ее пригодной для использования в краевых приложениях искусственного интеллекта.
- Сохранение информации: Уменьшая информационное "узкое место", PGI позволяет модели изучать более эффективные признаки, что приводит к более надежному обнаружению в сложных сценах.
- Интеграция экосистемы: Пользователи получают преимущества полного набора инструментов Ultralytics , включая оптимизированные конвейеры обучения, проверки и развертывания. Модели также оптимизированы для меньшего использования памяти во время обучения по сравнению со многими архитектурами на основе трансформаторов.
- Универсальность: Помимо обнаружения, архитектура позволяет решать и другие задачи, такие как сегментация экземпляров и паноптикум.
Слабые стороны
- Новизна: Будучи относительно новым участником, объем созданных сообществом учебников и сторонних примеров реализации все еще расширяется, хотя официальная поддержка очень обширна.
Идеальные варианты использования
YOLOv9 превосходно работает в сценариях, где точность имеет решающее значение:
- Медицинская визуализация: Анализ с высоким разрешением для таких задач, как обнаружение опухолей, где сохранение мелких деталей крайне важно.
- Автономное вождение: Важнейшие функции ADAS, требующие точной идентификации пешеходов, транспортных средств и препятствий.
- Промышленный контроль: Выявление мельчайших дефектов в производственных процессах, где пропущенные обнаружения могут привести к дорогостоящим сбоям.
YOLOv6.0: Создан для промышленной скорости
YOLOv6.0 - это третья итерация серии YOLOv6 , разработанная командой специалистов по зрению компании Meituan. Выпущенный в начале 2023 года, он был разработан с акцентом на максимальную скорость вывода информации для промышленных приложений, особенно на аппаратном обеспечении GPU .
Авторы: Chuyi Li, Lulu Li, Yifei Geng, et al.
Organization:Meituan
Date: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHubYOLOv6
Docsultralytics
Архитектурные особенности
В YOLOv6.0 используется аппаратно-ориентированный дизайн нейронной сети. В ней используется эффективная основа репараметризации (RepBackbone) и шейка, состоящая из гибридных блоков. Эта структура специально настроена на использование возможностей параллельных вычислений графических процессоров, чтобы обеспечить минимально возможную задержку при выводе, сохраняя при этом конкурентоспособную точность.
Сильные стороны
- Высокая скорость вывода: архитектура в значительной степени оптимизирована для производительности, что делает ее одним из самых быстрых вариантов для развертывания GPU.
- Компромисс между скоростью и точностью: это оптимальный баланс для систем реального времени, где счет идет на миллисекунды, например, для высокоскоростных сортировочных линий.
- Промышленная направленность: Модель была разработана для решения практических задач в условиях производства и автоматизации.
Слабые стороны
- Низкая пиковая точность: Несмотря на высокую скорость, модель в целом отстает от YOLOv9 по пиковой точности, особенно в больших вариантах модели.
- Ограниченная экосистема: Сообщество и экосистема инструментов меньше по сравнению с широко распространенным фреймворком Ultralytics .
- Специфика задачи: Он ориентирован в первую очередь на обнаружение объектов и не имеет встроенных многозадачных возможностей (таких как оценка позы или OBB), которые есть в новых моделях Ultralytics
Идеальные варианты использования
YOLOv6.0 хорошо подходит для работы в средах с высокой пропускной способностью:
- Видеонаблюдение в реальном времени: Обработка нескольких видеопотоков одновременно для систем охранной сигнализации.
- Сортировка на производственных линиях: Быстрая классификация и локализация объектов на быстро движущихся конвейерных лентах.
Анализ производительности
Сравнение, приведенное ниже, подчеркивает показатели производительности обеих моделей. В то время как YOLOv6.0 предлагает впечатляющую скорость для своих самых маленьких вариантов, YOLOv9 демонстрирует превосходную эффективность, обеспечивая более высокую точность при меньшем количестве параметров в сопоставимых кронштейнах.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Основные выводы:
- Король эффективности: YOLOv9 достигает 53,0% mAP , используя всего 25,3M параметров. Для сравнения, YOLOv6.0l требует 59,6M параметров, чтобы достичь более низкого показателя mAP в 52,8%. Это иллюстрирует превосходный архитектурный дизайн YOLOv9, который делает "больше с меньшими затратами".
- Пиковая производительность: Модель YOLOv9 устанавливает высокую планку с 55,6 % mAP, предлагая уровень точности, которого не достигла серия YOLOv6 в этом сравнении.
- Скорость против точности: YOLOv6.0n невероятно быстр (1,17 мс), что делает его подходящим вариантом для экстремально низких требований к задержкам, где снижение точности (37,5 % mAP) является приемлемым. Однако для приложений общего назначения YOLOv9 предлагает лучший баланс (38,3 % mAP при 2,3 мс) при значительно меньшем количестве параметров (2,0M против 4,7M).
Эффективность памяти
Модели Ultralytics YOLO , включая YOLOv9, славятся оптимизированным использованием памяти во время обучения. В отличие от некоторых моделей на основе тяжелых трансформаторов, требующих огромного объема VRAM GPU , эти модели часто можно обучать на аппаратном обеспечении потребительского класса, обеспечивая демократичный доступ к современным разработкам в области ИИ.
Обучение и удобство использования
Пользовательский опыт существенно различается между двумя моделями. YOLOv9, полностью интегрированная в экосистему Ultralytics , предлагает оптимизированный рабочий процесс. Разработчики могут использовать простой интерфейс Python для обучения, проверки и развертывания моделей с помощью всего нескольких строк кода.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model.predict("image.jpg")
Эта интеграция обеспечивает доступ к таким расширенным функциям, как автоматическая настройка гиперпараметров, ведение журнала в реальном времени с помощью TensorBoard или Weights & Biasesи беспрепятственный экспорт в такие форматы, как ONNX и TensorRT.
В отличие от этого, обучение YOLOv6.0 обычно связано с использованием специального репозитория GitHub и обучающих скриптов, что может оказаться более сложным для тех, кто привык к "plug-and-play" характеру библиотеки Ultralytics .
Заключение
В то время как YOLOv6.0 остается сильным соперником для специфических промышленных ниш, требующих абсолютно минимальной задержки на GPU , YOLOv9 становится лучшим универсальным выбором для современных задач компьютерного зрения.
YOLOv9 обеспечивает выигрышное сочетание современной точности, замечательной эффективности параметров и огромных преимуществ экосистемыUltralytics . Возможность достижения высокой точности при использовании более легких моделей позволяет снизить затраты на хранение и ускорить передачу данных в сценариях развертывания на границе. Кроме того, простота использования, обширная документация и активная поддержка сообщества, связанная с моделями Ultralytics , значительно ускоряют жизненный цикл разработки, позволяя командам уверенно переходить от концепции к развертыванию.
Разработчикам, стремящимся к производительности нового поколения, мы также рекомендуем изучить Ultralytics YOLO11нашу новейшую модель, в которой эти возможности усовершенствованы для еще более широкого круга задач, включая оценку позы и ориентированное обнаружение объектов. Вы также можете сравнить их с подходами на основе трансформаторов, такими как RT-DETR в нашем центре сравнения моделей.