YOLOv6.0 против YOLO: техническое сравнение для обнаружения объектов
Выбор подходящей архитектуры компьютерного зрения - важнейшее решение для инженеров и исследователей. В области обнаружения объектов царит конкурентная борьба, и промышленные гиганты постоянно расширяют границы скорости и точности. На этой странице представлено всестороннее техническое сравнение YOLOv6.0, аппаратно-эффективной модели от Meituan, и YOLO, технологически насыщенной архитектуры от Alibaba Group.
Обзор YOLOv6.0
YOLOv6.0 - это надежный фреймворк, разработанный специально для промышленных приложений. Выпущенный отделом Vision AI компании Meituan, он ставит во главу угла эффективность в реальном мире и стремится обеспечить высокую производительность при стандартных аппаратных ограничениях, встречающихся в производстве и автоматизации.
- Авторы: Чуйи Ли, Лулу Ли, Ифэй Генг, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
- Организация:Meituan
- Дата: 13.01.2023
- Arxiv:YOLOv6 v3.0: Полномасштабная перезагрузка
- GitHub:YOLOv6
- Документация:ДокументацияUltralytics YOLOv6
Архитектура и Ключевые Инновации
YOLOv6.0 совершенствует парадигму одноступенчатого детектора, уделяя особое внимание репараметризации. Эта техника позволяет модели иметь сложную структуру во время обучения для лучшего обучения, но сворачиваться в более простую и быструю структуру во время вывода.
- Магистраль EfficientRep: В основе используются отдельные блоки для моделей разного размера (EfficientRep для маленьких моделей и CSPStackRep для больших), что позволяет оптимизировать использование аппаратных возможностей GPU .
- Шея Rep-PAN: Шея использует топологию Rep-PAN, улучшая слияние функций при сохранении высокой скорости вывода.
- Самодистилляция: Ключевая методология обучения, при которой модель учится на своих собственных предсказаниях (в частности, ветви учителя в той же сети), чтобы повысить точность без вычислительных затрат на отдельную модель-учитель во время развертывания.
Промышленная оптимизация
YOLOv6 специально разработан с учетом квантования. Его архитектура дружелюбна к посттренинговому квантованию (PTQ) и обучению с учетом квантования (QAT), что делает его сильным кандидатом для развертывания на пограничных устройствах, где точность INT8 предпочтительнее скорости.
Обзор DAMO-YOLO
YOLO, разработанная компанией Alibaba Group, представляет собой набор новых технологий для оптимизации компромисса между производительностью и задержкой. Его отличительной особенностью является использование нейронной архитектуры поиска (NAS) и передовых методов объединения признаков.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация:Alibaba Group
- Дата: 23.11.2022
- Arxiv:YOLO: отчет о разработке системы обнаружения объектов в реальном времени
- GitHub:YOLO
- Документы:YOLO GitHub README
Архитектура и Ключевые Инновации
YOLO отходит от чисто ручного создания архитектур, частично полагаясь на автоматизированные стратегии поиска эффективных структур.
- Магистраль на основе NAS (MazeNet): Магистраль создается с помощью MAE-NAS (поиск нейронной архитектуры), в результате чего получается структура под названием MazeNet, высоко оптимизированная для различных вычислительных бюджетов.
- Эффективная сеть RepGFPN: Используется обобщенная сеть пирамид признаков (GFPN) в сочетании с репараметризацией. Это позволяет объединить многомасштабные признаки, что очень важно для обнаружения объектов различных размеров.
- ZeroHead: упрощенная конструкция головки обнаружения, которая уменьшает количество параметров и вычислительную сложность на конечном этапе работы сети.
- AlignedOTA: динамическая стратегия присвоения меток, которая решает проблему несоответствия между задачами классификации и регрессии в процессе обучения.
Расширенное слияние функций
Горловина RepGFPN в YOLO особенно эффективна при работе со сложными сценами с перекрывающимися объектами. Благодаря возможности пропускать связи между различными масштабными уровнями, она сохраняет семантическую информацию лучше, чем стандартные структуры FPN.
Анализ производительности: скорость в сравнении с точностью
В следующем сравнении используются данные из набораCOCO val2017. Метрики подчеркивают компромиссы между двумя моделями в различных масштабах.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Основные выводы
- Лидер по задержкам:YOLOv6.0n - самая быстрая модель в этом сравнении, ее время составляет 1,17 мс на GPU T4. Это делает ее исключительно подходящей для требований высокой частоты кадров в сценариях вывода в реальном времени.
- Пик точности:YOLOv6.0l достигает наивысшей точности с mAP 52.8, демонстрируя эффективность своей тяжелой магистрали и стратегии самодистилляции, хотя и ценой более высоких параметров и FLOPs по сравнению с YOLO.
- Эффективность:DAMO-YOLOs превосходит YOLOv6.0s по точности (46,0 против 45,0 mAP) при меньшем количестве параметров (16,3M против 18,5M). Это подчеркивает эффективность магистрали с NAS-поиском в режиме малых моделей.
- Эффективность параметров: В целом, модели YOLO демонстрируют более низкие значения FLOP и количества параметров при сопоставимой точности в среднем и большом диапазоне, что подтверждает эффективность конструкции ZeroHead.
Преимущество Ultralytics
В то время как YOLOv6.0 и YOLO предлагают привлекательные функции для конкретных ниш, Ultralytics YOLO11 представляет собой более целостное решение для современной разработки ИИ. Выбор модели Ultralytics открывает доступ к комплексной экосистеме, призванной оптимизировать весь жизненный цикл машинного обучения.
Почему стоит выбрать Ultralytics YOLO?
- Непревзойденная простота использования: В отличие от исследовательских репозиториев, которые часто требуют сложной настройки среды и компиляции пользовательских операторов C++, модели Ultralytics можно установить с помощью простого
pip install ultralytics. Интуитивный Python API позволяет обучать и развертывать модели всего в нескольких строках кода. - Баланс производительности: YOLO11 разработан для обеспечения оптимального баланса между скоростью и точностью выводов, часто превосходя конкурентов в реальных бенчмарках при сохранении низких требований к памяти во время обучения.
- Универсальность задач: В то время как YOLOv6 и YOLO являются в первую очередь детекторами объектов, Ultralytics YOLO поддерживает широкий спектр задач, включая сегментацию объектов, оценку позы, классификацию и обнаружение ориентированных границ (Oriented Bounding Box, OBB).
- Хорошо поддерживаемая экосистема: Ultralytics обеспечивает живую экосистему с частыми обновлениями, обширной документацией и поддержкой сообщества через Discord и GitHub. Это гарантирует, что ваш проект останется перспективным и совместимым с новейшими аппаратными и программными библиотеками.
- Гибкость развертывания: Легкий экспорт обученных моделей в различные форматы, такие как ONNX, TensorRT, CoreML и OpenVINO с помощью встроенного режима экспорта, что облегчает развертывание на любых устройствах - от облачных серверов до Raspberry Pi.
Пример: Запуск обнаружения объектов с помощью YOLO11
С Ultralytics начать работу с самыми современными средствами обнаружения очень просто:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
Заключение
И YOLOv6.0, и YOLO представляют собой значительные вехи в эволюции обнаружения объектов. YOLOv6.0, особенно в варианте Nano, отлично работает в промышленных условиях, где скорость и поддержка квантования имеют первостепенное значение. YOLO демонстрирует возможности нейронной архитектуры поиска и инновационного объединения признаков, предлагая высокую эффективность и точность в диапазоне малых и средних моделей.
Однако разработчикам требуется готовое к производству решение, сочетающее в себе современную производительность, универсальность и простоту использования, Ultralytics YOLO11 остается рекомендованным выбором. Его надежная экосистема, многозадачные возможности и бесшовная интеграция в современные рабочие процессы MLOps дают неоспоримое преимущество для обеспечения успеха проекта.
Изучите другие модели
Чтобы расширить свое представление о ландшафте обнаружения объектов, изучите эти сравнения моделей:
- YOLO11 против YOLOv6
- DAMO-YOLO против YOLOv8
- DAMO-YOLO vs. RT-DETR
- YOLOv6 против EfficientDet
- DAMO-YOLO против YOLOX