Перейти к содержанию

YOLOX в сравнении с DAMO-YOLO: техническое сравнение

Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает компромиссы между точностью, скоростью вывода и вычислительными затратами. На этой странице представлено подробное техническое сравнение двух мощных моделей в области компьютерного зрения: YOLOX и DAMO-YOLO. Мы углубимся в их архитектурные проекты, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для нужд вашего проекта.

YOLOX: высокопроизводительный детектор без привязки к якорям

YOLOX — это высокопроизводительный детектор без anchor, разработанный компанией Megvii. Представленный в 2021 году, он был направлен на упрощение конструкции предыдущих моделей YOLO путем устранения anchor boxes с одновременным повышением производительности, эффективно устраняя разрыв между академическими исследованиями и промышленными приложениями.

Технические детали:

Архитектура и ключевые особенности

YOLOX представил несколько значительных архитектурных инноваций в семейство YOLO:

  • Anchor-Free Design: Отказ от предопределенных anchor boxes упрощает конвейер обнаружения YOLOX и уменьшает количество гиперпараметров, требующих настройки. Этот выбор дизайна может привести к лучшему обобщению на различных наборах данных и размерах объектов.
  • Decoupled Head (Разделенная голова): В отличие от более ранних моделей YOLO, которые использовали связанную голову для классификации и регрессии, YOLOX использует разделенную голову обнаружения. Считается, что такое разделение решает проблему рассогласования между двумя задачами, что приводит к повышению точности и более быстрой сходимости во время обучения.
  • Продвинутые стратегии обучения: YOLOX интегрирует мощные методы аугментации данных, такие как MixUp и Mosaic. Он также представляет SimOTA (Simplified Optimal Transport Assignment), стратегию динамического назначения меток, которая выбирает оптимальные положительные примеры для каждого объекта ground-truth, что еще больше повышает производительность.

Сильные и слабые стороны

Преимущества:

  • Высокая точность: YOLOX достигает конкурентоспособных показателей mAP, особенно в своих более крупных вариантах.
  • Упрощенный конвейер: Подход без anchor-ов снижает сложность, связанную с проектированием и настройкой anchor boxes.
  • Устоявшаяся и зрелая модель: YOLOX, как более старая модель, имеет хорошо документированную историю, а также многочисленные примеры развертывания и учебные пособия от сторонних разработчиков.

Слабые стороны:

  • Медленнее, чем новые модели: Несмотря на свою эффективность для своего времени, YOLOX может уступать более современным, высокооптимизированным архитектурам, таким как DAMO-YOLO и моделям Ultralytics YOLO, с точки зрения скорости инференса.
  • Внешняя экосистема: YOLOX изначально не является частью экосистемы Ultralytics, что может означать более сложную кривую обучения и больше усилий для интеграции с такими инструментами, как Ultralytics HUB для оптимизации MLOps.
  • Ограниченная универсальность: Это в первую очередь модель для обнаружения объектов, и ей не хватает встроенной поддержки других задач компьютерного зрения, таких как сегментация экземпляров или оценка позы, которые есть в современных фреймворках.

Случаи использования

YOLOX — это надежный выбор для приложений, где требуется проверенный детектор с высокой точностью:

  • Промышленная автоматизация: Такие задачи, как контроль качества на производственных линиях, где ключевое значение имеет точность.
  • Академические исследования: Служит надежной отправной точкой для исследований методов обнаружения без привязки к якорям и стратегий назначения меток.
  • Безопасность и видеонаблюдение: Подходит для систем безопасности, которым требуется надежный баланс между точностью и скоростью.

Узнайте больше о YOLOX

DAMO-YOLO: Скорость и точность с использованием передовых технологий

DAMO-YOLO, разработанная Alibaba Group, — это быстрый и точный метод обнаружения объектов, который включает в себя несколько новых технологий для расширения возможностей обнаружения в реальном времени. Основное внимание уделяется достижению оптимального баланса между скоростью и точностью за счет использования передовых архитектурных компонентов.

Технические детали:

Архитектура и ключевые особенности

Высокая производительность DAMO-YOLO обусловлена сочетанием передовых методов:

  • Бэкбоны на основе NAS: Он использует backbone, сгенерированный с помощью Neural Architecture Search (NAS), в результате чего получается высокоэффективный экстрактор признаков под названием GiraffeNet.
  • Эффективный RepGFPN Neck: Модель включает в себя эффективную структуру neck, основанную на Generalized-FPN с повторной параметризацией, которая улучшает слияние признаков из разных масштабов с минимальными вычислительными затратами.
  • ZeroHead: DAMO-YOLO представляет легкую конструкцию сопряженной головы, которая значительно снижает количество параметров и вычислительную сложность головы обнаружения при сохранении высокой точности.
  • Назначение меток AlignedOTA: Используется новая стратегия назначения меток, которая учитывает согласование классификации и регрессии для выбора лучших якорей, что повышает стабильность обучения и итоговую производительность модели.

Анализ производительности

Как показано в таблице ниже, модели DAMO-YOLO демонстрируют исключительный баланс между точностью и скоростью, особенно на GPU-оборудовании. Например, DAMO-YOLO-t достигает более высокого mAP, чем YOLOX-s, при этом работая быстрее. Эта эффективность является постоянной для всего семейства моделей, часто обеспечивая лучшую производительность с меньшим количеством параметров и FLOPs по сравнению с аналогами YOLOX.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Сильные и слабые стороны

Преимущества:

  • Превосходный компромисс между скоростью и точностью: DAMO-YOLO отлично оптимизирован для быстрого инференса на GPU, что делает его лучшим выбором для приложений реального времени.
  • Эффективная и современная архитектура: Использование NAS, эффективной шейки и легкой головки приводит к созданию мощной, но экономичной модели.
  • Инновационные техники: Такие функции, как AlignedOTA и ZeroHead, представляют собой передовой уровень разработки детекторов объектов.

Слабые стороны:

  • Ориентированность на задачу: Как и YOLOX, он разработан для обнаружения объектов и не предлагает готовой поддержки для других задач компьютерного зрения.
  • Усилия по интеграции: Как внешний проект, он требует ручной интеграции в производственные процессы и не имеет обширной поддержки и инструментов унифицированной экосистемы.

Случаи использования

DAMO-YOLO идеально подходит для сценариев, где приоритетом является высокая скорость и точное обнаружение на GPU:

  • Видеоаналитика в реальном времени: Мониторинг видеопотоков в реальном времени для приложений в умных городах или аналитике розничной торговли.
  • Автономные системы: Обеспечение восприятия для автономных транспортных средств и робототехники, где низкая задержка имеет решающее значение.
  • Облачные сервисы Vision: Обеспечение масштабируемых сервисов искусственного интеллекта, которым необходимо эффективно обрабатывать большой объем изображений или видеопотоков.

Узнайте больше о DAMO-YOLO

Почему модели Ultralytics YOLO — предпочтительный выбор

Несмотря на то, что YOLOX и DAMO-YOLO являются мощными детекторами объектов, модели Ultralytics YOLO, такие как YOLOv8 и новейшая Ultralytics YOLO11, предлагают более целостное и удобное для разработчиков решение. Они обеспечивают превосходное сочетание производительности, универсальности и простоты использования, что делает их рекомендуемым выбором для широкого спектра проектов.

  • Простота использования: Модели Ultralytics отличаются оптимизированным Python API, обширной документацией и простыми командами CLI, что значительно сокращает время разработки и развертывания.
  • Хорошо поддерживаемая экосистема: Пользователи получают выгоду от активной разработки, мощной поддержки сообщества, частых обновлений и бесшовной интеграции с Ultralytics HUB для комплексного обучения и развертывания.
  • Баланс производительности: Модели Ultralytics разработаны для обеспечения превосходного компромисса между скоростью и точностью, что делает их подходящими для чего угодно, от периферийных устройств до облачных серверов.
  • Универсальность: В отличие от однозадачных моделей, Ultralytics YOLOv8 и YOLO11 поддерживают широкий спектр задач компьютерного зрения, включая обнаружение, сегментацию, классификацию, оценку позы и обнаружение ориентированных объектов, и все это в рамках единой унифицированной структуры.
  • Эффективность обучения: Благодаря эффективным процессам обучения, готовым предварительно обученным весам на наборах данных, таких как COCO, и более быстрой сходимости разработчики могут достигать самых современных результатов с меньшими усилиями.
  • Меньшие требования к памяти: Модели Ultralytics YOLO разработаны для эффективного использования памяти как во время обучения, так и во время инференса, часто требуя меньше памяти CUDA, чем другие архитектуры.

Заключение

YOLOX и DAMO-YOLO — обе мощные модели обнаружения объектов. YOLOX предоставляет прочную anchor-free основу, которая была проверена во многих приложениях. DAMO-YOLO расширяет границы скорости и эффективности с помощью современных архитектурных инноваций, что делает его отличным выбором для приложений с высокой пропускной способностью GPU.

Однако для разработчиков и исследователей, ищущих комплексное решение, сочетающее в себе производительность высшего уровня с беспрецедентной простотой использования, универсальностью и надежной экосистемой поддержки, модели Ultralytics, такие как YOLOv8 и YOLO11, выделяются как превосходный выбор. Их унифицированная структура для нескольких задач и оптимизированный рабочий процесс делают их идеальной платформой для создания следующего поколения приложений компьютерного зрения на основе искусственного интеллекта.

Изучите другие сравнения моделей

Если вам интересно, как YOLOX и DAMO-YOLO соотносятся с другими ведущими моделями, ознакомьтесь с этими другими сравнениями в нашей документации:



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии