Перейти к содержанию

YOLOX против YOLOv8: глубокий технический анализ эволюции object detection

Ландшафт компьютерного зрения быстро меняется, и новые архитектуры постоянно расширяют границы скорости и точности. Двумя важными вехами на этом пути являются YOLOX и YOLOv8. В этом сравнении исследуются технические нюансы между инновацией YOLOX без привязки к якорям и современной универсальностью Ultralytics YOLOv8. Мы анализируем их архитектуры, показатели производительности и пригодность для реальных приложений, чтобы помочь вам выбрать правильный инструмент для ваших проектов в области машинного обучения.

Переход на новейшие технологии

В то время как YOLOv8 является мощной моделью, эта область продвинулась еще дальше. Ознакомьтесь с YOLO11, последней итерацией от Ultralytics, которая предлагает еще более высокую эффективность, более быструю обработку и повышенную точность для задач обнаружения, сегментации и оценки позы.

Метрики производительности и тесты

При оценке моделей обнаружения объектов решающее значение имеет компромисс между скоростью вывода и средней точностью (mAP). В таблице ниже показано, что Ultralytics YOLOv8 стабильно достигает более высокой точности с меньшей задержкой при сопоставимых размерах моделей.

Примечательно, что YOLOv8 предоставляет прозрачные тесты для вывода на CPU через ONNX, что является важным показателем для развертывания на оборудовании без выделенных GPU. В отличие от этого, стандартные тесты YOLOX в основном ориентированы на производительность GPU, оставляя пробел для пользователей, ориентированных на приложения edge AI на стандартных процессорах.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

YOLOX: пионер Anchor-Free

Выпущенный в 2021 году исследователями Megvii, YOLOX внес значительные изменения в семейство YOLO , приняв безъякорный механизм. Такой выбор конструкции устранил необходимость в предопределенных якорных ящиках, упростив процесс обучения и улучшив характеристики в конкретных сценариях.

Архитектура и сильные стороны

YOLOX интегрирует decoupled head, разделяя задачи классификации и локализации для повышения скорости сходимости и точности. Он использует SimOTA (Simplified Optimal Transport Assignment) для динамического назначения меток, который рассматривает процесс обучения как задачу оптимальной транспортировки. Будучи революционным в свое время, YOLOX является прежде всего моделью object detection, не имеющей встроенной поддержки других задач, таких как segment или оценка позы в рамках одной кодовой базы.

Узнайте больше о YOLOX

YOLOv8: современный стандарт для Vision AI

YOLOv8, запущенный Ultralytics в начале 2023 года, представляет собой кульминацию обширных исследований в области эффективности, точности и удобства использования. Он опирается на наследие anchor-free, но совершенствует его с помощью современного Task-Aligned Assigner и модернизированной архитектуры, которая превосходно работает на широком спектре оборудования.

Основные преимущества

YOLOv8 — это не просто модель обнаружения; это унифицированный фреймворк. Он предлагает встроенную поддержку классификации изображений, сегментации экземпляров, оценки позы и обнаружения ориентированных объектов (OBB). Эта универсальность позволяет разработчикам решать сложные мультимодальные задачи, используя единый, согласованный API.

Узнайте больше о YOLOv8

Архитектурное сравнение и варианты использования

Понимание технических различий между этими архитектурами помогает в выборе подходящего инструмента для вывода в реальном времени и производственных систем.

1. Эффективность обучения и память

Одной из выдающихся особенностей моделей Ultralytics YOLO является их эффективность обучения. YOLOv8 реализует передовые стратегии увеличения, такие как mosaic и MixUp, оптимизированные для предотвращения переобучения при сохранении высокой скорости обучения.

Ключевым моментом является то, что YOLOv8 демонстрирует более низкие требования к памяти как во время обучения, так и во время инференса по сравнению со старыми архитектурами или тяжелыми моделями на основе трансформеров. Эта эффективность позволяет обучать пользовательские модели на GPU потребительского класса или развертывать их на периферийных устройствах с ограниченным объемом памяти. YOLOX, хотя и эффективен, часто требует больше ручной настройки гиперпараметров для достижения оптимальной стабильности.

2. Экосистема и простота использования

Для разработчиков и исследователей экосистема, окружающая модель, так же важна, как и сама архитектура.

  • YOLOX следует традиционной структуре исследовательского репозитория. Его настройка часто включает в себя сложные файлы конфигурации и ручное управление зависимостями.
  • Ultralytics YOLOv8 уделяет первостепенное внимание простоте использования. Он включает в себя устанавливаемый через pip пакет, оптимизированный Python API и CLI, который работает прямо из коробки.

Простота использования с Ultralytics API

Запуск прогнозов с YOLOv8 невероятно прост и требует всего нескольких строк кода.

from ultralytics import YOLO

# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")

# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

3. Хорошо поддерживаемая экосистема

Выбор YOLOv8 означает получение доступа к хорошо поддерживаемой экосистеме. Ultralytics предоставляет исчерпывающую документацию, частые обновления и активную поддержку сообщества. Интеграция с более широкой экосистемой Ultralytics упрощает рабочие процессы, включая аннотацию данных, управление наборами данных и развертывание моделей в таких форматах, как TensorRT и OpenVINO.

Приложения в реальном мире

Где превосходит YOLOv8

  • Интеллектуальная розничная торговля: Использование возможностей сегментации для понимания планировки полок и размещения продуктов с точностью до пикселя.
  • Спортивная аналитика: Использование оценки позы для отслеживания движений игроков и биомеханики в реальном времени — задача, которую YOLOX не может выполнять изначально.
  • Промышленный контроль: Развертывание obb моделей для detect вращающихся объектов, таких как компоненты на конвейерной ленте, с высокой точностью.
  • Развертывание на периферии: Превосходное соотношение скорости и точности YOLOv8 делает его предпочтительным выбором для мобильных приложений и встроенных систем, таких как Raspberry Pi или NVIDIA Jetson.

Ниша YOLOX

YOLOX остается сильным кандидатом для академических исследований, посвященных конкретно теоретическим аспектам anchor-free detection heads. Его кодовая база предоставляет четкую ссылку для исследователей, изучающих переход от anchor-based к anchor-free методологиям в эпоху 2021 года.

Заключение

В то время как YOLOX сыграла ключевую роль в популяризации detectирования без anchor, Ultralytics YOLOv8 представляет собой естественную эволюцию этой технологии. Предлагая превосходные показатели производительности, универсальный фреймворк для многозадачного обучения и непревзойденный пользовательский опыт, YOLOv8 выделяется как превосходный выбор для современной разработки AI.

Для разработчиков, ищущих надежное, перспективное решение, которое масштабируется от быстрого прототипирования до корпоративного развертывания, Ultralytics YOLOv8 — и более новый YOLO11 — предоставляет необходимые инструменты для достижения успеха.

Изучите другие модели

Расширьте свое понимание ландшафта detect объектов, изучив эти сравнения:


Комментарии