YOLOv9 против YOLOv6-3.0: всестороннее техническое сравнение

Эволюция обнаружения объектов в реальном времени обусловлена постоянными инновациями в архитектурах нейронных сетей, оптимизирующими тонкий баланс между скоростью вывода, точностью и вычислительной эффективностью. Поскольку разработчикам и исследователям приходится ориентироваться в насыщенной среде фреймворков компьютерного зрения, сравнение ведущих архитектур необходимо для выбора подходящего инструмента для твоей задачи.

Это техническое руководство содержит подробное сравнение двух высокопроизводительных моделей: YOLOv9, известной своей способностью сохранять информацию при глубоком обучении, и YOLOv6-3.0, модели, специально адаптированной для промышленных приложений.

Обзор YOLOv9: максимизация сохранения признаков

Представленная в начале 2024 года, модель YOLOv9 решает одну из самых устойчивых проблем в глубоких нейронных сетях: потерю информации во время процесса прямого распространения. Гарантируя надежность градиентов и сохранение критически важных данных в картах признаков, она расширяет границы теоретической точности.

  • Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
  • Организация: Institute of Information Science, Academia Sinica, Тайвань
  • Дата: 21 февраля 2024 г.
  • Ссылки: Arxiv Paper, GitHub Repository

Архитектура и методологии

В YOLOv9 представлена концепция программируемой градиентной информации (PGI) наряду с сетью обобщенного эффективного агрегирования слоев (GELAN). PGI устраняет информационное «бутылочное горлышко», обеспечивая вспомогательный надзор, благодаря которому основная сеть обучается выделять надежные и устойчивые признаки без увеличения нагрузки при выводе. В то же время GELAN оптимизирует использование параметров, позволяя модели достигать современного уровня mean Average Precision (mAP), сохраняя при этом вычислительную стоимость на приемлемом уровне. Это делает её исключительным выбором для медицинского анализа изображений или обнаружения крайне мелких объектов, где точность передачи признаков критически важна.

Узнай больше о YOLOv9

Обзор YOLOv6-3.0: создана для промышленного масштаба

Разработанная компанией Meituan, модель YOLOv6-3.0 (также называемая v3.0) была полностью спроектирована для работы в тяжелых промышленных условиях. Выпущенная в начале 2023 года, она в значительной степени фокусируется на эффективности развертывания, предлагая набор моделей, подходящих для квантования и отлично работающих на граничном оборудовании (edge hardware).

  • Авторы: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu и Xiangxiang Chu
  • Организация: Meituan
  • Дата: 13 января 2023 г.
  • Ссылки: Arxiv Paper, GitHub Repository

Архитектура и методологии

YOLOv6-3.0 distinguishes itself through its RepOptimizer and Anchor-Aided Training (AAT) strategies. The model utilizes a hardware-aware neural network design inspired by RepVGG, which allows it to run exceptionally fast on GPUs during inference by fusing layers. The 3.0 update further refined the architecture by introducing a Bi-directional Concatenation (BiC) module to improve localization accuracy. Because it is highly optimized for deployment formats like TensorRT and OpenVINO, YOLOv6-3.0 is frequently adopted in logistics, manufacturing automation, and high-throughput server environments.

Узнай больше о YOLOv6-3.0

Сравнение производительности

При оценке этих моделей на стандартном наборе данных COCO можно заметить четкие компромиссы между точностью и «сырой» скоростью вывода.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Технический анализ

В то время как YOLOv6-3.0n удерживает лидерство по чистой скорости на оборудовании T4 (1,17 мс), YOLOv9t удается достичь чуть более высокого показателя mAP (38,3%), используя при этом менее половины параметров (2,0 млн против 4,7 млн) и значительно меньше FLOPs. Для решения сложных задач, требующих высокой точности, массивная модель YOLOv9e увеличивает точность до 55,6% mAP, демонстрируя мощь архитектуры PGI в глубоких сетях.

Подготовь свой проект к будущему с YOLO26

Если ты запускаешь новый проект в области компьютерного зрения, мы настоятельно рекомендуем использовать YOLO26. Выпущенная в 2026 году, она оснащена встроенным дизайном End-to-End NMS-Free, который полностью устраняет задержки постобработки, обеспечивая до 43% более быстрый вывод на CPU.

Преимущество экосистемы Ultralytics

Независимо от того, какая архитектурная философия модели тебе ближе, их использование напрямую через Ultralytics Python API обеспечивает превосходный опыт разработки.

Простота использования и эффективность обучения

Обучение сложных моделей глубокого обучения традиционно требует написания огромного количества шаблонного кода. Платформа Ultralytics абстрагирует эти сложности. Независимо от того, дообучаешь ли ты YOLOv9 для обнаружения дефектов или экспортируешь YOLOv6 для мобильных приложений, рабочий процесс остается удивительно последовательным.

Более того, архитектуры Ultralytics, как правило, требуют меньше памяти CUDA во время обучения по сравнению с громоздкими моделями на основе Transformer. Это позволяет тебе использовать большие размеры пакетов (batch sizes) на потребительских GPU, значительно повышая эффективность обучения.

from ultralytics import YOLO

# Easily swap architectures by changing the weights file string
# model = YOLO("yolov6n.pt")
model = YOLO("yolov9c.pt")

# Train the model with built-in data augmentation and caching
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Export to ONNX or TensorRT seamlessly
model.export(format="engine", half=True)

Непревзойденная универсальность в задачах компьютерного зрения

Хотя YOLOv6-3.0 сильно оптимизирована для быстрого формирования ограничивающих рамок (bounding boxes), современные проекты в области компьютерного зрения часто требуют многозадачного подхода. Модели Ultralytics славятся своей исключительной универсальностью. Благодаря таким инструментам, как Ultralytics YOLOv8 и новейшая YOLO26, единый фреймворк бесшовно обрабатывает обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированные ограничивающие рамки (OBB).

Представляем YOLO26: новый стандарт

Для организаций, стремящихся максимизировать как производительность, так и простоту развертывания, YOLO26 представляет собой окончательное сочетание скорости и точности.

Основываясь на успехах YOLO11, YOLO26 представляет несколько парадигмальных функций:

  • Оптимизатор MuSGD: вдохновленный методами обучения больших языковых моделей (LLM), такими как Kimi K2 от Moonshot AI, этот гибридный оптимизатор обеспечивает невероятно стабильное обучение и быструю сходимость.
  • Удаление DFL: избавившись от Distribution Focal Loss, YOLO26 упрощает граф экспорта, делая его значительно более совместимым с маломощными чипами для граничных вычислений.
  • ProgLoss + STAL: эти передовые функции потерь дают заметные улучшения в распознавании мелких объектов, что критически важно для операций с дронами и IoT-приложений.
  • Улучшения для конкретных задач: YOLO26 включает встроенное прототипирование с несколькими масштабами для сегментации, оценку остаточного логарифмического правдоподобия (RLE) для отслеживания скелета и специализированные алгоритмы угловых потерь для разрешения граничных случаев при обнаружении OBB.

Идеальные сценарии развертывания

Выбор правильной архитектуры в конечном итоге сводится к твоим производственным ограничениям.

Выбирай YOLOv6-3.0, если у тебя есть налаженный конвейер в промышленном производстве, ты активно полагаешься на квантование и используешь специализированные ускорители вывода, где тебе требуется максимально низкая задержка оборудования (доли миллисекунды).

Выбирай YOLOv9, если ты решаешь сложные задачи в диагностике здравоохранения или занимаешься видеонаблюдением на больших дистанциях, где пропуск тонких признаков на уровне пикселей недопустим.

Однако для идеально сбалансированного подхода, предлагающего передовую точность наряду с упрощенным развертыванием без NMS, Ultralytics YOLO26 является окончательной рекомендацией для современной инженерии компьютерного зрения. Её активный цикл разработки, исчерпывающая документация и поддержка активного сообщества делают её незаменимым инструментом как для исследователей, так и для разработчиков.

Комментарии