DAMO-YOLO против YOLOv6-3.0: Техническое противостояние для detect объектов в реальном времени
Область обнаружения объектов в реальном времени характеризуется быстрыми инновациями, где архитектурная эффективность и скорость вывода имеют первостепенное значение. Двумя значительными конкурентами в этой области являются YOLO, разработанный Alibaba Group, и YOLOv6.YOLOv6, надежная платформа от Meituan. Обе модели стремятся достичь идеального баланса между задержкой и точностью, но достигают этого с помощью разных методологий.
Это всеобъемлющее руководство подробно анализирует технические нюансы обеих архитектур, предлагая разработчикам и исследователям информацию, необходимую для выбора подходящего инструмента для их приложений компьютерного зрения. Независимо от того, создаете ли вы приложения для периферийных устройств или высокопроизводительных облачных серверов, понимание этих различий имеет решающее значение.
Бенчмарк производительности
В следующей таблице представлены показатели производительности на COCO . YOLOv6.YOLOv6, как правило, обеспечивает более высокую пропускную способность на GPU благодаря своей TensorRT, в то время как YOLO демонстрирует высокую эффективность параметров.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
DAMO-YOLO: Нейронный поиск архитектуры и эффективность
YOLO представляет новый подход, интегрирующий поиск нейронной архитектуры (NAS) непосредственно в базовую конструкцию. Разработанный Alibaba Group, он направлен на максимальное повышение производительности при строгих ограничениях по задержке.
Ключевые архитектурные особенности
- MAE-NAS Backbone: использует многоветвистый поиск нейронной архитектуры с автокодировщиком (MAE-NAS) для обнаружения оптимальных сетевых структур. В результате получается магистраль, которая извлекает особенности более эффективно, чем ручные аналоги, такие как CSPDarknet.
- Эффективная RepGFPN: в модели стандартная Feature Pyramid Network (FPN) заменена на Reparameterized Generalized FPN (RepGFPN). Это улучшает слияние характеристик в разных масштабах, сохраняя при этом скорость вывода, поскольку сложные ветви объединяются в один путь во время развертывания.
- ZeroHead: Для дальнейшего снижения вычислительных затрат вYOLO облегченная «ZeroHead», которая упрощает конструкцию головки детектора без значительной потери точности.
- AlignedOTA: В процессе обучения используется присвоение меток Aligned One-to-Many (AlignedOTA), которое динамически присваивает метки для повышения скорости сходимости и устранения неоднозначности в сценах с большим количеством объектов.
YOLO :
Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сюю Сунь
Организация: Alibaba Group
Дата: 23.11.2022
Arxiv | GitHub | Docs
YOLOv6.0: промышленный стандарт для графических процессоров
YOLOv6.0, часто называемый «полномасштабной перезагрузкой» фреймворка, разработан специально для промышленных приложений, в которых используется GPU через TensorRT является нормой.
Ключевые архитектурные особенности
- Двунаправленное слияние (BiFusion): YOLOv6.0 усиливает «шею» с помощью BiFusion, улучшая обмен семантической информацией между различными уровнями характеристик.
- Обучение с помощью якорей (AAT): в отличие от детекторов, полностью не использующих якоря, YOLOv6. YOLOv6 вводит вспомогательную ветвь на основе якорей во время обучения. Это стабилизирует процесс обучения и повышает точность, в то время как вывод остается без использования якорей для обеспечения скорости.
- RepOptimizer: модель использует методы перепараметризации не только в архитектуре (блоки RepVGG), но и в самом процессе оптимизации, обеспечивая более эффективные шаги градиентного спуска для конкретных перепараметризованных структур.
- Обучение с учетом квантования (QAT): одним из основных преимуществ является встроенная поддержка QAT, позволяющая модели сохранять высокую точность даже при сжатии до INT8 для развертывания на пограничных графических процессорах.
YOLOv6 Подробности:
Авторы: Чуй Ли, Лулу Ли, Ифэй Гэн, Хунлян Цзян, Мэн Чэн, Бо Чжан, Зайдан Ке, Сяомин Сюй и Сянсян Чу
Организация: Meituan
Дата: 13.01.2023
Arxiv | GitHub | Документы
Ultralytics : почему стоит выбрать современные YOLO ?
ХотяYOLO YOLOv6.0 обладают явными преимуществами, Ultralytics предлагает унифицированное решение, которое удовлетворяет более широкие потребности современной разработки ИИ. Выбирая Ultralytics , вы получаете не только архитектуру, но и полный, поддерживаемый рабочий процесс.
1. Непревзойденная простота использования
Ultralytics опыту разработчиков («от нуля до героя»). Сложные процессы, такие как увеличение объема данных, настройка гиперпараметров и экспорт моделей, абстрагированы за простым Python .
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100)
2. Универсальность в различных задачах
В отличие отYOLO YOLOv6, которые в основном ориентированы на обнаружение ограничивающих рамок, Ultralytics по своей сути являются мультимодальными. Единая кодовая база поддерживает:
- Обнаружение объектов: идентификация объектов и их местоположения.
- Сегментация экземпляров: определение точных границ объектов в пикселях.
- Оценка позы: обнаружение ключевых точек для отслеживания людей или животных.
- Классификация: присвоение глобальных меток изображениям.
- Ориентированная ограничивающая рамка (OBB): обнаружение повернутых объектов, что имеет решающее значение для аэрофотосъемки и обнаружения текста.
3. Эффективность обучения и использование памяти
Ultralytics оптимизированы для минимизации использования VRAM во время обучения. Такая эффективность позволяет исследователям и энтузиастам обучать современные модели на потребительских графических процессорах, что является значительным преимуществом по сравнению с гибридными трансформаторами, требующими большого объема памяти, такими как RT-DETR.
4. Хорошо сохранившаяся экосистема
Ultralytics является одним из самых активных в сообществе компьютерного зрения. Частые обновления обеспечивают совместимость с последними версиями PyTorch, CUDA и Python, предотвращая «разложение кода», часто встречающееся в статических исследовательских репозиториях.
Будущее искусственного интеллекта в области зрения: YOLO26
Для разработчиков, стремящихся к абсолютному максимуму производительности и простоте внедрения, Ultralytics представляет собой новое поколение искусственного интеллекта в области обработки изображений.
Почему стоит перейти на YOLO26?
YOLO26 объединяет в себе передовые функции, которые упрощают развертывание и одновременно повышают скорость и точность:
- Полная NMS: устраняет необходимость в постобработке с помощью алгоритма подавления неактивных пиков (NMS), упрощая экспорт в CoreML и TFLite.
- CPU : до 43 % более быстрое CPU по сравнению с предыдущими поколениями, что обеспечивает производительность в реальном времени на периферийных устройствах, не имеющих мощных графических процессоров.
- MuSGD Optimizer: гибридный оптимизатор, использующий инновации из обучения LLM (вдохновленный Kimi K2 от Moonshot AI) для более быстрой конвергенции и стабильности.
- Улучшенное обнаружение мелких объектов: Новый
ProgLossиSTALфункции потерь значительно улучшают обнаружение небольших, сложных целей, что имеет решающее значение для применение дронов.
Рекомендации по вариантам использования
При выборе между этими архитектурами учитывайте особенности вашей конкретной среды развертывания:
Идеально подходит дляYOLO
- Исследования и разработки: отлично подходит для изучения влияния поиска нейронной архитектуры (NAS) на базовые компоненты систем машинного зрения.
- Специализированное оборудование: Конструкция может иметь преимущества на определенных НПУ, которые благоприятствуют конструкции RepGFPN.
- Требования к низкой задержке: конструкция ZeroHead помогает сократить задержку на миллисекунды в условиях жестких временных ограничений.
Идеально подходит для YOLOv6-3.0
- Промышленные GPU : Основное внимание уделяется TensorRT делает его настоящим монстром на картах NVIDIA и A100.
- Требования к квантованию: если ваш конвейер в значительной степени зависит от обучения с учетом квантования (QAT) для развертывания INT8, YOLOv6 native инструменты.
- Аналитика с высокой пропускной способностью: сценарии, такие как одновременная обработка нескольких видеопотоков, где ключевую роль играет пропускная способность пакета.
Идеально подходит для Ultralytics YOLO11 YOLO26)
- Развертывание общего назначения: возможность экспорта в ONNX, OpenVINO, TensorRT, CoreML и TFLite одной команды покрывает все базы.
- Мобильные и периферийные CPU: специальные CPU YOLO26 и конструкция NMS делают его лучшим выбором для развертывания iOS, Android и Raspberry Pi.
- Сложные задачи: когда для вашего проекта требуется нечто большее, чем просто коробки, например, маски сегментации или ключевые точки позы,Ultralytics единственная унифицированная платформа, котораяUltralytics это обеспечить.
- Быстрое прототипирование: Ultralytics позволяет быстро управлять наборами данных, проводить обучение и развертывание без необходимости управления сложной инфраструктурой.
Заключение
И YOLO, и YOLOv6.YOLOv6 являются впечатляющими достижениями в области компьютерного зрения.YOLO границы автоматизированного поиска архитектур, а YOLOv6 искусство GPU вывода GPU.
Однако для подавляющего большинства реальных приложений YOLO Ultralytics YOLO предлагают более сбалансированное, универсальное и удобное в обслуживании решение. С выпуском YOLO26 разрыв еще больше увеличился, предлагая сквозную эффективность и CPU , с которой конкурирующие модели пока не могут сравниться. Независимо от того, являетесь ли вы стартапом, создающим свой первый продукт на базе искусственного интеллекта, или предприятием, обслуживающим миллионы пользователей, стабильность и производительность Ultralytics обеспечивают прочную основу для успеха.
Дополнительная литература
Ознакомьтесь с другими современными моделями и инструментами в Ultralytics :
- YOLOv8 — классическая модель SOTA, известная своей стабильностью.
- RT-DETR — трансформатор обнаружения в реальном времени для задач, требующих высокой точности.
- YOLOv9 - С функцией программируемой градиентной информации (PGI).
- YOLOv10 — пионер обучения NMS.
- YOLO11 — мощный предшественник нынешнего поколения.