YOLOv9 против YOLOv6-3.0: Всестороннее техническое сравнение
Эволюция обнаружения объектов в реальном времени обусловлена непрерывными инновациями в архитектурах нейронных сетей, оптимизирующими тонкий баланс между скоростью инференса, точностью и вычислительной эффективностью. Поскольку разработчики и исследователи ориентируются в насыщенном ландшафте фреймворков компьютерного зрения, сравнение ведущих архитектур имеет решающее значение для выбора правильного инструмента для задачи.
Это техническое руководство предоставляет углубленное сравнение двух высокопроизводительных моделей: YOLOv9, известной своей способностью к сохранению информации в глубоких слоях, и YOLOv6-3.0, модели, специально разработанной для промышленных применений.
Обзор YOLOv9: Максимизация сохранения признаков
Представленный в начале 2024 года, YOLOv9 решает одну из самых насущных проблем в глубоких нейронных сетях: потерю информации во время прямого распространения. Обеспечивая надежность градиентов и сохранение важных данных в картах признаков, он расширяет границы теоретической точности.
- Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 21 февраля 2024 г.
- Ссылки:Статья на Arxiv, Репозиторий GitHub
Архитектура и методологии
YOLOv9 представляет концепцию Programmable Gradient Information (PGI) наряду с Generalized Efficient Layer Aggregation Network (GELAN). PGI решает проблему информационного узкого места, предоставляя вспомогательное обучение с учителем, которое гарантирует, что основная сеть изучает надежные, устойчивые признаки без добавления накладных расходов на инференс. Тем временем GELAN оптимизирует использование параметров, позволяя модели достигать современного уровня средней точности (mAP) при сохранении управляемой вычислительной стоимости. Это делает его исключительным выбором для анализа медицинских изображений или detect чрезвычайно мелких объектов, где точность признаков имеет решающее значение.
Обзор YOLOv6-3.0: Создан для промышленного масштаба
Разработанный Meituan, YOLOv6-3.0 (также известный как v3.0) изначально спроектирован для использования в тяжелых промышленных приложениях. Выпущенный в начале 2023 года, он уделяет большое внимание эффективности развертывания, предлагая набор моделей, оптимизированных для квантования, которые отлично работают на периферийном оборудовании.
- Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
- Организация: Meituan
- Дата: 13 января 2023 г.
- Ссылки:Статья на Arxiv, Репозиторий GitHub
Архитектура и методологии
YOLOv6-3.0 выделяется благодаря стратегиям RepOptimizer и Anchor-Aided Training (AAT). Модель использует аппаратно-ориентированный дизайн нейронной сети, вдохновленный RepVGG, что позволяет ей исключительно быстро работать на GPU во время вывода за счет слияния слоев. Обновление 3.0 дополнительно усовершенствовало архитектуру, представив модуль двунаправленной конкатенации (BiC) для повышения точности локализации. Поскольку он сильно оптимизирован для форматов развертывания, таких как TensorRT и OpenVINO, YOLOv6-3.0 часто применяется в логистике, автоматизации производства и серверных средах с высокой пропускной способностью.
Сравнение производительности
При оценке этих моделей на стандартном наборе данных COCO мы можем наблюдать явные компромиссы между точностью и исходной скоростью инференса.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Технический анализ
В то время как YOLOv6-3.0n занимает первое место по чистой скорости на оборудовании T4 (1.17 мс), YOLOv9t удается получить немного более высокий mAP (38.3%), используя при этом менее половины параметров (2.0M против 4.7M) и значительно меньше FLOPs. Для сложных требований к высокой точности массивная YOLOv9e доводит точность до 55.6% mAP, иллюстрируя мощь архитектуры PGI в глубоких сетях.
Подготовьте ваш проект к будущему с YOLO26
Если вы начинаете новую инициативу в области компьютерного зрения, мы настоятельно рекомендуем использовать YOLO26. Выпущенная в 2026 году, она отличается нативной сквозной безалгометрической NMS-архитектурой (End-to-End NMS-Free Design), которая полностью устраняет задержку постобработки, обеспечивая до 43% более быструю инференцию на CPU.
Преимущество экосистемы Ultralytics
Независимо от того, какая архитектурная философия модели вам ближе, их нативная реализация через Ultralytics Python API обеспечивает превосходный опыт для разработчиков.
Простота использования и эффективность обучения
Обучение сложных моделей глубокого обучения традиционно требует большого объема шаблонного кода. Платформа Ultralytics абстрагирует эти сложности. Независимо от того, настраиваете ли вы YOLOv9 для обнаружения дефектов или экспортируете YOLOv6 для мобильных приложений, рабочий процесс остается удивительно последовательным.
Кроме того, архитектуры Ultralytics обычно отличаются более низкими требованиями к памяти CUDA во время обучения по сравнению с громоздкими моделями на основе трансформеров. Это позволяет разработчикам использовать большие размеры пакетов на потребительских GPU, значительно повышая эффективность обучения.
from ultralytics import YOLO
# Easily swap architectures by changing the weights file string
# model = YOLO("yolov6n.pt")
model = YOLO("yolov9c.pt")
# Train the model with built-in data augmentation and caching
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")
# Export to ONNX or TensorRT seamlessly
model.export(format="engine", half=True)
Непревзойденная универсальность для задач компьютерного зрения
Хотя YOLOv6-3.0 сильно оптимизирована для быстрой генерации ограничивающих рамок, современные проекты компьютерного зрения часто требуют многозадачного подхода. Модели Ultralytics ценятся за их исключительную универсальность. С такими инструментами, как Ultralytics YOLOv8 и более новая YOLO26, единый фреймворк бесшовно обрабатывает обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы и ориентированные ограничивающие рамки (OBB).
Представляем YOLO26: Новый стандарт
Для организаций, стремящихся максимизировать как производительность, так и простоту развертывания, YOLO26 представляет собой идеальное сочетание скорости и точности.
Основываясь на успехах YOLO11, YOLO26 представляет несколько парадигмально новых функций:
- Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей (LLM), такими как Kimi K2 от Moonshot AI, этот гибридный оптимизатор обеспечивает невероятно стабильное обучение и быструю сходимость.
- Удаление DFL: За счет исключения Distribution Focal Loss, YOLO26 упрощает граф экспорта, значительно повышая его совместимость с маломощными чипами для периферийных вычислений.
- ProgLoss + STAL: Эти усовершенствованные функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что критически важно для операций с дронами и приложений IoT.
- Специализированные улучшения: YOLO26 включает нативное многомасштабное прототипирование для сегментации, оценку остаточного логарифмического правдоподобия (RLE) для отслеживания скелета и специализированные алгоритмы угловых потерь для решения пограничных случаев в обнаружении OBB.
Идеальные сценарии развёртывания
Выбор правильной архитектуры в конечном итоге сводится к вашим производственным ограничениям.
Выберите YOLOv6-3.0, если у вас есть отлаженный конвейер в промышленном производстве, вы активно используете квантование и применяете специализированные ускорители инференса, где требуется абсолютно минимальная задержка оборудования на уровне долей миллисекунды.
Выберите YOLOv9, если вы занимаетесь сложной медицинской диагностикой или дальним наблюдением, где упущение тонких, пиксельных деталей недопустимо.
Однако для идеально сбалансированного подхода, предлагающего передовую точность наряду с упрощенным развертыванием без NMS, Ultralytics YOLO26 является окончательной рекомендацией для современной инженерии компьютерного зрения. Его активный цикл разработки, всесторонняя документация и активная поддержка сообщества делают его незаменимым инструментом как для исследователей, так и для разработчиков.