YOLOv6-3.0 vs. YOLOv9: Глубокий технический анализ современных методов обнаружения объектов
Ландшафт обнаружения объектов в реальном времени продолжает развиваться, движимый требованиями к более высокой точности, меньшей задержке и лучшему использованию аппаратного обеспечения. Это всестороннее сравнение рассматривает две важные вехи в этой области: YOLOv6-3.0, разработанную для промышленной пропускной способности, и YOLOv9, которая представила новые архитектуры для преодоления информационных узких мест глубокого обучения.
Хотя обе модели предлагают уникальные архитектурные инновации, разработчики, ищущие оптимальный баланс производительности и простоты развертывания, часто переходят к современным экосистемам. Для тех, кто начинает новые проекты, нативно сквозной Ultralytics YOLO26 является рекомендуемым стандартом, предлагающим передовую точность со значительно более оптимизированным опытом разработки.
YOLOv6-3.0: Оптимизация промышленной пропускной способности
Разработанный отделом Vision AI в Meituan, YOLOv6-3.0 был значительно разработан для максимальной пропускной способности в промышленных приложениях, особенно на аппаратном обеспечении GPU.
- Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
- Организация:Meituan
- Дата: 13 января 2023 г.
- Arxiv:2301.05586
- GitHub:meituan/YOLOv6
Архитектурные инновации
В YOLOv6-3.0 были внесены несколько ключевых изменений для улучшения слияния признаков и аппаратной эффективности. Архитектура включает модуль двунаправленной конкатенации (BiC) в своей шейке, который обеспечивает более точные сигналы локализации. Он также использует стратегию обучения с поддержкой якорей (AAT). Этот подход сочетает богатое руководство обучения на основе якорей со скоростью инференса безанкерной парадигмы, обеспечивая лучшую производительность без замедления развертывания.
Магистральная сеть основана на архитектуре EfficientRep, тщательно оптимизированной для аппаратной совместимости при инференции на GPU. Это делает ее высокоэффективной для сценариев промышленного производства, где интенсивная пакетная обработка является нормой.
Сильные и слабые стороны
Основная сила YOLOv6-3.0 заключается в высокой частоте кадров на GPU, таких как NVIDIA T4, что делает его подходящим для потоков анализа видео высокой плотности. Однако его сильная зависимость от специфических аппаратных оптимизаций может привести к субоптимальной задержке на периферийных устройствах, работающих только на CPU. Кроме того, настройка его конвейера обучения может быть сложной по сравнению с более унифицированными фреймворками.
YOLOv9: Программируемая градиентная информация
Выпущенный год спустя, YOLOv9 сосредоточен на решении проблемы информационного узкого места, присущей глубоким нейронным сетям, расширяя теоретические пределы архитектур CNN.
- Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
- Организация:Институт информатики, Academia Sinica
- Дата: 21 февраля 2024 г.
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
Архитектурные инновации
Основной вклад YOLOv9 — это Программируемая Градиентная Информация (PGI), которая гарантирует сохранение критически важных данных при прохождении через множество слоев сети, обеспечивая более надежные обновления весов. Наряду с PGI, модель включает Обобщенную Эффективную Сеть Агрегации Слоев (GELAN). GELAN максимизирует эффективность параметров, позволяя YOLOv9 достигать превосходной точности с меньшим количеством вычислительных операций (FLOPs), чем многие предшественники.
Сильные и слабые стороны
YOLOv9 достигает выдающейся средней точности (mAP) на эталонных наборах данных, таких как COCO, что делает его фаворитом для исследователей, ставящих во главу угла чистую точность. Однако, как и YOLOv6, он по-прежнему полагается на традиционное подавление немаксимумов (NMS) для постобработки. Это добавляет задержку и усложняет конвейер развертывания модели, особенно при портировании на периферийные устройства с использованием таких форматов, как ONNX или TensorRT.
Сравнение производительности
При сравнении этих моделей важно учитывать баланс точности, количества параметров и скорости инференса.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Преимущество Ultralytics: Представляем YOLO26
Хотя YOLOv6-3.0 и YOLOv9 предоставляют надежные архитектуры, производственные среды требуют хорошо поддерживаемой экосистемы, низких требований к памяти и исключительной простоты использования. Именно здесь платформа Ultralytics и модели, такие как YOLO11 и передовая YOLO26, превосходят.
Выпущенный в начале 2026 года, YOLO26 фундаментально переопределяет эффективность развертывания путем устранения устаревших узких мест.
Нативная сквозная архитектура
YOLO26 обладает сквозной архитектурой без NMS, полностью устраняющей необходимость в постобработке с подавлением немаксимумов. Это значительно снижает вариативность задержки инференции и упрощает логику развертывания на периферийных устройствах.
Ключевые инновации YOLO26
- Оптимизатор MuSGD: Вдохновленный обучением LLM (например, Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD и Muon. Это обеспечивает беспрецедентную стабильность обучения и более быструю сходимость для задач компьютерного зрения.
- До 43% более быстрый инференс на CPU: В отличие от сильной ориентации YOLOv6 на GPU, YOLO26 сильно оптимизирован для периферийных устройств. Удаление Distribution Focal Loss (DFL) упрощает выходной слой, что делает его очень совместимым с маломощными CPU и оборудованием для периферийных вычислений.
- ProgLoss + STAL: Продвинутые функции потерь кардинально улучшают detect'ирование мелких объектов, что критически важно для аэрофотосъемки и робототехники.
- Непревзойденная универсальность: В то время как YOLOv6 является исключительно движком для detect, YOLO26 легко справляется с сегментацией экземпляров, классификацией, оценкой позы и detect ориентированных ограничивающих рамок (OBB).
Бесшовное обучение с Ultralytics
Обучение передовых моделей не должно требовать сложных bash-скриптов. API Ultralytics на python обеспечивает оптимизированный процесс с автоматической загрузкой данных, минимальным использованием памяти CUDA и встроенным track-ингом.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset using the robust MuSGD optimizer natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to ONNX with a single command
model.export(format="onnx")
Идеальные варианты использования
Выбор правильной архитектуры полностью зависит от вашей целевой среды развертывания:
- Используйте YOLOv6-3.0 для: Автоматизации производства и обнаружения дефектов, где доступны серверные GPU (например, A100) и пакетная обработка максимизирует пропускную способность.
- Используйте YOLOv9 для: Академических исследований или соревнований, где основной целью является достижение максимально возможного mAP на стандартизированных наборах данных, таких как COCO.
- Используйте YOLO26 для: Практически всех современных коммерческих приложений. Его архитектура без NMS, низкое потребление памяти и высокоскоростной вывод на CPU делают его идеальным для систем охранной сигнализации, умной розничной торговли и отслеживания объектов в реальном времени на встраиваемых устройствах.
Используя комплексную экосистему Ultralytics, разработчики могут легко экспериментировать с YOLOv8, YOLO11 и YOLO26, чтобы найти идеальный баланс производительности для своих конкретных реальных задач.