YOLOX в сравнении с DAMO-YOLO: техническое сравнение
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает компромиссы между точностью, скоростью вывода и вычислительными затратами. На этой странице представлено подробное техническое сравнение двух мощных моделей в области компьютерного зрения: YOLOX и DAMO-YOLO. Мы углубимся в их архитектурные проекты, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для нужд вашего проекта.
YOLOX: высокопроизводительный детектор без привязки к якорям
YOLOX — это высокопроизводительный детектор без anchor, разработанный компанией Megvii. Представленный в 2021 году, он был направлен на упрощение конструкции предыдущих моделей YOLO путем устранения anchor boxes с одновременным повышением производительности, эффективно устраняя разрыв между академическими исследованиями и промышленными приложениями.
Технические детали:
- Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
- Организация: Megvii
- Дата: 18.07.2021
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Документация: https://yolox.readthedocs.io/en/latest/
Архитектура и ключевые особенности
YOLOX представил несколько значительных архитектурных инноваций в семейство YOLO:
- Anchor-Free Design: Отказ от предопределенных anchor boxes упрощает конвейер обнаружения YOLOX и уменьшает количество гиперпараметров, требующих настройки. Этот выбор дизайна может привести к лучшему обобщению на различных наборах данных и размерах объектов.
- Decoupled Head (Разделенная голова): В отличие от более ранних моделей YOLO, которые использовали связанную голову для классификации и регрессии, YOLOX использует разделенную голову обнаружения. Считается, что такое разделение решает проблему рассогласования между двумя задачами, что приводит к повышению точности и более быстрой сходимости во время обучения.
- Продвинутые стратегии обучения: YOLOX интегрирует мощные методы аугментации данных, такие как MixUp и Mosaic. Он также представляет SimOTA (Simplified Optimal Transport Assignment), стратегию динамического назначения меток, которая выбирает оптимальные положительные примеры для каждого объекта ground-truth, что еще больше повышает производительность.
Сильные и слабые стороны
Преимущества:
- Высокая точность: YOLOX достигает конкурентоспособных показателей mAP, особенно в своих более крупных вариантах.
- Упрощенный конвейер: Подход без anchor-ов снижает сложность, связанную с проектированием и настройкой anchor boxes.
- Устоявшаяся и зрелая модель: YOLOX, как более старая модель, имеет хорошо документированную историю, а также многочисленные примеры развертывания и учебные пособия от сторонних разработчиков.
Слабые стороны:
- Медленнее, чем новые модели: Несмотря на свою эффективность для своего времени, YOLOX может уступать более современным, высокооптимизированным архитектурам, таким как DAMO-YOLO и моделям Ultralytics YOLO, с точки зрения скорости инференса.
- Внешняя экосистема: YOLOX изначально не является частью экосистемы Ultralytics, что может означать более сложную кривую обучения и больше усилий для интеграции с такими инструментами, как Ultralytics HUB для оптимизации MLOps.
- Ограниченная универсальность: Это в первую очередь модель для обнаружения объектов, и ей не хватает встроенной поддержки других задач компьютерного зрения, таких как сегментация экземпляров или оценка позы, которые есть в современных фреймворках.
Случаи использования
YOLOX — это надежный выбор для приложений, где требуется проверенный детектор с высокой точностью:
- Промышленная автоматизация: Такие задачи, как контроль качества на производственных линиях, где ключевое значение имеет точность.
- Академические исследования: Служит надежной отправной точкой для исследований методов обнаружения без привязки к якорям и стратегий назначения меток.
- Безопасность и видеонаблюдение: Подходит для систем безопасности, которым требуется надежный баланс между точностью и скоростью.
DAMO-YOLO: Скорость и точность с использованием передовых технологий
DAMO-YOLO, разработанная Alibaba Group, — это быстрый и точный метод обнаружения объектов, который включает в себя несколько новых технологий для расширения возможностей обнаружения в реальном времени. Основное внимание уделяется достижению оптимального баланса между скоростью и точностью за счет использования передовых архитектурных компонентов.
Технические детали:
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация: Alibaba Group
- Дата: 23.11.2022
- Arxiv: https://arxiv.org/abs/2211.15444
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Документация: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Архитектура и ключевые особенности
Высокая производительность DAMO-YOLO обусловлена сочетанием передовых методов:
- Бэкбоны на основе NAS: Он использует backbone, сгенерированный с помощью Neural Architecture Search (NAS), в результате чего получается высокоэффективный экстрактор признаков под названием GiraffeNet.
- Эффективный RepGFPN Neck: Модель включает в себя эффективную структуру neck, основанную на Generalized-FPN с повторной параметризацией, которая улучшает слияние признаков из разных масштабов с минимальными вычислительными затратами.
- ZeroHead: DAMO-YOLO представляет легкую конструкцию сопряженной головы, которая значительно снижает количество параметров и вычислительную сложность головы обнаружения при сохранении высокой точности.
- Назначение меток AlignedOTA: Используется новая стратегия назначения меток, которая учитывает согласование классификации и регрессии для выбора лучших якорей, что повышает стабильность обучения и итоговую производительность модели.
Анализ производительности
Как показано в таблице ниже, модели DAMO-YOLO демонстрируют исключительный баланс между точностью и скоростью, особенно на GPU-оборудовании. Например, DAMO-YOLO-t достигает более высокого mAP, чем YOLOX-s, при этом работая быстрее. Эта эффективность является постоянной для всего семейства моделей, часто обеспечивая лучшую производительность с меньшим количеством параметров и FLOPs по сравнению с аналогами YOLOX.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Сильные и слабые стороны
Преимущества:
- Превосходный компромисс между скоростью и точностью: DAMO-YOLO отлично оптимизирован для быстрого инференса на GPU, что делает его лучшим выбором для приложений реального времени.
- Эффективная и современная архитектура: Использование NAS, эффективной шейки и легкой головки приводит к созданию мощной, но экономичной модели.
- Инновационные техники: Такие функции, как AlignedOTA и ZeroHead, представляют собой передовой уровень разработки детекторов объектов.
Слабые стороны:
- Ориентированность на задачу: Как и YOLOX, он разработан для обнаружения объектов и не предлагает готовой поддержки для других задач компьютерного зрения.
- Усилия по интеграции: Как внешний проект, он требует ручной интеграции в производственные процессы и не имеет обширной поддержки и инструментов унифицированной экосистемы.
Случаи использования
DAMO-YOLO идеально подходит для сценариев, где приоритетом является высокая скорость и точное обнаружение на GPU:
- Видеоаналитика в реальном времени: Мониторинг видеопотоков в реальном времени для приложений в умных городах или аналитике розничной торговли.
- Автономные системы: Обеспечение восприятия для автономных транспортных средств и робототехники, где низкая задержка имеет решающее значение.
- Облачные сервисы Vision: Обеспечение масштабируемых сервисов искусственного интеллекта, которым необходимо эффективно обрабатывать большой объем изображений или видеопотоков.
Почему модели Ultralytics YOLO — предпочтительный выбор
Несмотря на то, что YOLOX и DAMO-YOLO являются мощными детекторами объектов, модели Ultralytics YOLO, такие как YOLOv8 и новейшая Ultralytics YOLO11, предлагают более целостное и удобное для разработчиков решение. Они обеспечивают превосходное сочетание производительности, универсальности и простоты использования, что делает их рекомендуемым выбором для широкого спектра проектов.
- Простота использования: Модели Ultralytics отличаются оптимизированным Python API, обширной документацией и простыми командами CLI, что значительно сокращает время разработки и развертывания.
- Хорошо поддерживаемая экосистема: Пользователи получают выгоду от активной разработки, мощной поддержки сообщества, частых обновлений и бесшовной интеграции с Ultralytics HUB для комплексного обучения и развертывания.
- Баланс производительности: Модели Ultralytics разработаны для обеспечения превосходного компромисса между скоростью и точностью, что делает их подходящими для чего угодно, от периферийных устройств до облачных серверов.
- Универсальность: В отличие от однозадачных моделей, Ultralytics YOLOv8 и YOLO11 поддерживают широкий спектр задач компьютерного зрения, включая обнаружение, сегментацию, классификацию, оценку позы и обнаружение ориентированных объектов, и все это в рамках единой унифицированной структуры.
- Эффективность обучения: Благодаря эффективным процессам обучения, готовым предварительно обученным весам на наборах данных, таких как COCO, и более быстрой сходимости разработчики могут достигать самых современных результатов с меньшими усилиями.
- Меньшие требования к памяти: Модели Ultralytics YOLO разработаны для эффективного использования памяти как во время обучения, так и во время инференса, часто требуя меньше памяти CUDA, чем другие архитектуры.
Заключение
YOLOX и DAMO-YOLO — обе мощные модели обнаружения объектов. YOLOX предоставляет прочную anchor-free основу, которая была проверена во многих приложениях. DAMO-YOLO расширяет границы скорости и эффективности с помощью современных архитектурных инноваций, что делает его отличным выбором для приложений с высокой пропускной способностью GPU.
Однако для разработчиков и исследователей, ищущих комплексное решение, сочетающее в себе производительность высшего уровня с беспрецедентной простотой использования, универсальностью и надежной экосистемой поддержки, модели Ultralytics, такие как YOLOv8 и YOLO11, выделяются как превосходный выбор. Их унифицированная структура для нескольких задач и оптимизированный рабочий процесс делают их идеальной платформой для создания следующего поколения приложений компьютерного зрения на основе искусственного интеллекта.
Изучите другие сравнения моделей
Если вам интересно, как YOLOX и DAMO-YOLO соотносятся с другими ведущими моделями, ознакомьтесь с этими другими сравнениями в нашей документации:
- YOLOv8 vs. DAMO-YOLO
- YOLOv10 против DAMO-YOLO
- RT-DETR против DAMO-YOLO
- YOLOX в сравнении с YOLOv8
- YOLOX в сравнении с RT-DETR
- YOLOX в сравнении с YOLOv10