Перейти к содержанию

YOLOv9 против YOLOv6.0: Подробное техническое сравнение

Выбор идеальной архитектуры обнаружения объектов является ключевым шагом в разработке надежных решений для компьютерного зрения. При принятии решения часто приходится искать сложный компромисс между точностью, скоростью вывода и потреблением вычислительных ресурсов. В данном руководстве приводится всестороннее техническое сравнение между YOLOv9современной моделью, отмеченной за эффективность архитектуры, и YOLOv6.0, моделью, оптимизированной специально для скорости промышленного развертывания. Мы проанализируем их архитектурные инновации, показатели производительности и идеальные сценарии развертывания, чтобы помочь вам сделать осознанный выбор.

YOLOv9: новое определение точности и эффективности

YOLOv9, представленный в начале 2024 года, представляет собой смену парадигмы в области обнаружения объектов в реальном времени. Она решает фундаментальную проблему потери информации в глубоких нейронных сетях, достигая высочайшей точности при сохранении исключительной вычислительной эффективности.

Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
Организация:Institute of Information Science, Academia Sinica, Taiwan
Дата: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Docsultralytics

Архитектурные инновации

Основная сила YOLOv9 заключается в двух новаторских концепциях: Программируемая градиентная информация (PGI) и обобщенная эффективная сеть агрегирования слоев (GELAN). При увеличении глубины сетей важная информация о характеристиках часто теряется в процессе передачи данных. PGI борется с этим информационным узким местом, обеспечивая сохранение надежной информации о градиенте для обновления весов сети. Одновременно GELAN оптимизирует архитектуру для максимального использования параметров, что позволяет модели достигать более высокой точности при меньшем количестве параметров и FLOP по сравнению с традиционными моделями.

При использовании в экосистеме Ultralytics , YOLOv9 предлагает беспрепятственный опыт разработки. Удобный Python API, исчерпывающая документация и надежная поддержка делают его доступным как для исследователей, так и для корпоративных разработчиков.

Сильные стороны

  • Превосходная точность: YOLOv9 достигает самых современных показателей mAP на таких эталонах, как набор данныхCOCO , постоянно превосходя предшественников по точности обнаружения.
  • Вычислительная эффективность: Архитектура GELAN обеспечивает высочайшую производительность модели без больших вычислительных затрат, обычно связанных с высокоточными моделями, что делает ее пригодной для использования в краевых приложениях искусственного интеллекта.
  • Сохранение информации: Уменьшая информационное "узкое место", PGI позволяет модели изучать более эффективные признаки, что приводит к более надежному обнаружению в сложных сценах.
  • Интеграция экосистемы: Пользователи получают преимущества полного набора инструментов Ultralytics , включая оптимизированные конвейеры обучения, проверки и развертывания. Модели также оптимизированы для меньшего использования памяти во время обучения по сравнению со многими архитектурами на основе трансформаторов.
  • Универсальность: Помимо обнаружения, архитектура позволяет решать и другие задачи, такие как сегментация экземпляров и паноптикум.

Слабые стороны

  • Новизна: Будучи относительно новым участником, объем созданных сообществом учебников и сторонних примеров реализации все еще расширяется, хотя официальная поддержка очень обширна.

Идеальные варианты использования

YOLOv9 превосходно работает в сценариях, где точность имеет решающее значение:

  • Медицинская визуализация: Анализ с высоким разрешением для таких задач, как обнаружение опухолей, где сохранение мелких деталей крайне важно.
  • Автономное вождение: Важнейшие функции ADAS, требующие точной идентификации пешеходов, транспортных средств и препятствий.
  • Промышленный контроль: Выявление мельчайших дефектов в производственных процессах, где пропущенные обнаружения могут привести к дорогостоящим сбоям.

Узнайте больше о YOLOv9

YOLOv6.0: Создан для промышленной скорости

YOLOv6.0 - это третья итерация серии YOLOv6 , разработанная командой специалистов по зрению компании Meituan. Выпущенный в начале 2023 года, он был разработан с акцентом на максимальную скорость вывода информации для промышленных приложений, особенно на аппаратном обеспечении GPU .

Авторы: Chuyi Li, Lulu Li, Yifei Geng, et al.
Organization:Meituan
Date: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHubYOLOv6
Docsultralytics

Архитектурные особенности

В YOLOv6.0 используется аппаратно-ориентированный дизайн нейронной сети. В ней используется эффективная основа репараметризации (RepBackbone) и шейка, состоящая из гибридных блоков. Эта структура специально настроена на использование возможностей параллельных вычислений графических процессоров, чтобы обеспечить минимально возможную задержку при выводе, сохраняя при этом конкурентоспособную точность.

Сильные стороны

  • Высокая скорость вывода: архитектура в значительной степени оптимизирована для производительности, что делает ее одним из самых быстрых вариантов для развертывания GPU.
  • Компромисс между скоростью и точностью: это оптимальный баланс для систем реального времени, где счет идет на миллисекунды, например, для высокоскоростных сортировочных линий.
  • Промышленная направленность: Модель была разработана для решения практических задач в условиях производства и автоматизации.

Слабые стороны

  • Низкая пиковая точность: Несмотря на высокую скорость, модель в целом отстает от YOLOv9 по пиковой точности, особенно в больших вариантах модели.
  • Ограниченная экосистема: Сообщество и экосистема инструментов меньше по сравнению с широко распространенным фреймворком Ultralytics .
  • Специфика задачи: Он ориентирован в первую очередь на обнаружение объектов и не имеет встроенных многозадачных возможностей (таких как оценка позы или OBB), которые есть в новых моделях Ultralytics

Идеальные варианты использования

YOLOv6.0 хорошо подходит для работы в средах с высокой пропускной способностью:

  • Видеонаблюдение в реальном времени: Обработка нескольких видеопотоков одновременно для систем охранной сигнализации.
  • Сортировка на производственных линиях: Быстрая классификация и локализация объектов на быстро движущихся конвейерных лентах.

Узнайте больше о YOLOv6.0

Анализ производительности

Сравнение, приведенное ниже, подчеркивает показатели производительности обеих моделей. В то время как YOLOv6.0 предлагает впечатляющую скорость для своих самых маленьких вариантов, YOLOv9 демонстрирует превосходную эффективность, обеспечивая более высокую точность при меньшем количестве параметров в сопоставимых кронштейнах.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7

Основные выводы:

  1. Король эффективности: YOLOv9 достигает 53,0% mAP , используя всего 25,3M параметров. Для сравнения, YOLOv6.0l требует 59,6M параметров, чтобы достичь более низкого показателя mAP в 52,8%. Это иллюстрирует превосходный архитектурный дизайн YOLOv9, который делает "больше с меньшими затратами".
  2. Пиковая производительность: Модель YOLOv9 устанавливает высокую планку с 55,6 % mAP, предлагая уровень точности, которого не достигла серия YOLOv6 в этом сравнении.
  3. Скорость против точности: YOLOv6.0n невероятно быстр (1,17 мс), что делает его подходящим вариантом для экстремально низких требований к задержкам, где снижение точности (37,5 % mAP) является приемлемым. Однако для приложений общего назначения YOLOv9 предлагает лучший баланс (38,3 % mAP при 2,3 мс) при значительно меньшем количестве параметров (2,0M против 4,7M).

Эффективность памяти

Модели Ultralytics YOLO , включая YOLOv9, славятся оптимизированным использованием памяти во время обучения. В отличие от некоторых моделей на основе тяжелых трансформаторов, требующих огромного объема VRAM GPU , эти модели часто можно обучать на аппаратном обеспечении потребительского класса, обеспечивая демократичный доступ к современным разработкам в области ИИ.

Обучение и удобство использования

Пользовательский опыт существенно различается между двумя моделями. YOLOv9, полностью интегрированная в экосистему Ultralytics , предлагает оптимизированный рабочий процесс. Разработчики могут использовать простой интерфейс Python для обучения, проверки и развертывания моделей с помощью всего нескольких строк кода.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model.predict("image.jpg")

Эта интеграция обеспечивает доступ к таким расширенным функциям, как автоматическая настройка гиперпараметров, ведение журнала в реальном времени с помощью TensorBoard или Weights & Biasesи беспрепятственный экспорт в такие форматы, как ONNX и TensorRT.

В отличие от этого, обучение YOLOv6.0 обычно связано с использованием специального репозитория GitHub и обучающих скриптов, что может оказаться более сложным для тех, кто привык к "plug-and-play" характеру библиотеки Ultralytics .

Заключение

В то время как YOLOv6.0 остается сильным соперником для специфических промышленных ниш, требующих абсолютно минимальной задержки на GPU , YOLOv9 становится лучшим универсальным выбором для современных задач компьютерного зрения.

YOLOv9 обеспечивает выигрышное сочетание современной точности, замечательной эффективности параметров и огромных преимуществ экосистемыUltralytics . Возможность достижения высокой точности при использовании более легких моделей позволяет снизить затраты на хранение и ускорить передачу данных в сценариях развертывания на границе. Кроме того, простота использования, обширная документация и активная поддержка сообщества, связанная с моделями Ultralytics , значительно ускоряют жизненный цикл разработки, позволяя командам уверенно переходить от концепции к развертыванию.

Разработчикам, стремящимся к производительности нового поколения, мы также рекомендуем изучить Ultralytics YOLO11нашу новейшую модель, в которой эти возможности усовершенствованы для еще более широкого круга задач, включая оценку позы и ориентированное обнаружение объектов. Вы также можете сравнить их с подходами на основе трансформаторов, такими как RT-DETR в нашем центре сравнения моделей.


Комментарии