Перейти к содержанию

YOLOv8 и YOLOX: всестороннее техническое сравнение

В быстро развивающейся области обнаружения объектов выбор правильной архитектуры модели имеет решающее значение для успеха проектов в области компьютерного зрения. В этом сравнении подробно рассматриваются две влиятельные модели: Ultralytics YOLOv8, универсальной и современной модели, разработанной для реального внедрения, и YOLOX, высокопроизводительного детектора без якорей от Megvii. Анализируя их архитектуру, показатели производительности и поддержку экосистемы, мы стремимся помочь разработчикам и исследователям принимать обоснованные решения для своих конкретных приложений.

Краткое изложение

Ultralytics YOLOv8 представляет собой кульминацию обширных исследований, направленных на обеспечение доступности и мощности компьютерного зрения. Он отличается исключительным балансом скорости и точности, надежными многозадачными возможностями (обнаружение, сегментация, поза, OBB, классификация) и удобной для разработчиков экосистемой, которая упрощает весь жизненный цикл ИИ — от обучения до развертывания.

YOLOX, выпущенный в 2021 году, сделал значительный шаг вперед, перейдя на механизм без якорей и отделив головку прогнозирования. Хотя он по-прежнему остается сильной базой для академических исследований, ему не хватает встроенной поддержки многозадачности и оптимизированной, активно поддерживаемой экосистемы, которая характерна для современных Ultralytics .

Для разработчиков, начинающих сегодня новые проекты, беспроблемная интеграция Ultralytics с такими инструментами, как Ultralytics , делает их предпочтительным выбором для коммерческих и производственных приложений.

Анализ производительности

При оценке этих моделей необходимо учитывать как точность (mAP), так и эффективность (скорость/FLOP). В приведенной ниже таблице показано, что YOLOv8 обычно обеспечивает более высокую точность при сопоставимой или лучшей скорости инференса, особенно при оптимизации для современного оборудования с использованием TensorRT.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Ultralytics YOLOv8: универсальный инструмент

Архитектура и инновации

YOLOv8 современную архитектуру с магистралью и шейкой, которая улучшает извлечение и слияние признаков. В отличие от предыдущих итераций на основе анкеров, в ней используется головка обнаружения без анкеров, что упрощает процесс обучения и улучшает обобщение для объектов различной формы. Такой выбор конструкции сокращает количество прогнозов по коробкам, ускоряя постобработку с помощью метода Non-Maximum Suppression (NMS).

Ключевые архитектурные особенности включают:

  • Модуль C2f: межэтапное частичное узкое место с двумя свертками, которое улучшает градиентный поток и эффективность.
  • Разделенная головка: разделяет задачи классификации и регрессии, позволяя каждой ветви изучать отдельные особенности, подходящие для ее конкретной цели.
  • Универсальность задач: единая унифицированная структура поддерживает сегментацию экземпляров, оценку позы и обнаружение ориентированных ограничивающих прямоугольников (OBB).

Экосистема и простота использования

Одним из наиболее значительных преимуществ YOLOv8 Ultralytics . Python разработан с учетом простоты использования, позволяя пользователям обучать, проверять и развертывать модели всего за несколько строк кода.

from ultralytics import YOLO

# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")

# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Кроме того, Ultralytics предоставляет графический интерфейс для управления наборами данных и тренировочными циклами, делая передовые технологии компьютерного зрения доступными даже для тех, кто не обладает глубокими знаниями в области программирования.

Приложения в реальном мире

  • Умная розничная торговля: отслеживание потока и поведения покупателей с помощью одновременного обнаружения и оценки положения.
  • Точное земледелие: идентификация сельскохозяйственных культур и сорняков с помощью масок сегментации для управления автономными опрыскивателями.
  • Производство: обнаружение дефектов на сборочных линиях с помощью высокоскоростного вывода на периферийных устройствах, таких как NVIDIA .

Узнайте больше о YOLOv8

YOLOX: пионер Anchor-Free

Технический обзор

YOLOX был представлен исследователями из Megvii в 2021 году. Он отличался переходом на механизм без анкеров и включением передовых стратегий аугментации, таких как Mosaic и MixUp, непосредственно в конвейер обучения.

Ключевые особенности включают:

  • Механизм без анкеров: устраняет необходимость в заранее определенных анкерных блоках, что снижает сложность проектирования и эвристическую настройку.
  • Decoupled Head: Подобно YOLOv8, он разделяет классификацию и локализацию для лучшей производительности.
  • SimOTA: усовершенствованная стратегия присвоения меток, которая динамически присваивает положительные образцы к эталонным значениям, улучшая скорость сходимости.

Ограничения для современного развертывания

Несмотря на свою мощность, YOLOX в первую очередь является репозиторием для исследований. В нем отсутствует широкая поддержка различных форматов экспорта (таких как CoreML, TFLite и TF.js), которая является стандартной для Ultralytics . Кроме того, он ориентирован исключительно на обнаружение объектов, а это означает, что пользователям, которым требуется сегментация или оценка позы, необходимо искать отдельные кодовые базы или библиотеки.

Узнайте больше о YOLOX

Сравнительный анализ: почему стоит выбрать Ultralytics?

1. Эффективность обучения и память

Ultralytics разработаны с учетом эффективности обучения. Как правило, они требуют меньше CUDA , чем многие конкурирующие архитектуры, особенно модели на основе трансформаторов, такие как RT-DETR. Такая эффективность позволяет разработчикам обучать более крупные пакеты данных на потребительских графических процессорах, что значительно ускоряет цикл экспериментов.

2. Гибкость развертывания

Внедрение моделей искусственного интеллекта в производство может быть сложной задачей. Ultralytics этот процесс с помощью надежного режима экспорта.

Простой экспорт

YOLOv8 можно экспортировать в более чем 10 различных форматов с помощью одной строки кода, в том числе ONNX, OpenVINOи TensorRT. Это гарантирует оптимальную работу вашей модели на всех устройствах, от облачных серверов до Raspberry Pi.

3. Гарантия будущего с YOLO26

Хотя YOLOv8 отличным выбором, область искусственного интеллекта быстро развивается. Ultralytics выпустила YOLO26, который еще больше расширяет границы. YOLO26 отличается встроенной сквозной конструкцией NMS, что устраняет необходимость в сложной постобработке и сокращает задержку вывода.

Пользователям, которым требуется максимальная производительность, особенно на периферийных устройствах, настоятельно рекомендуется рассмотреть модель YOLO26. Она обеспечивает до 43 % более быстрое CPU и специализированные улучшения для таких задач, как обнаружение небольших объектов с помощью ProgLoss + STAL.

Узнайте больше о YOLO26

Заключение

Обе архитектуры заслужили свое место в истории компьютерного зрения. YOLOX успешно продемонстрировала жизнеспособность обнаружения без анкоров в YOLO и остается надежной базой для исследователей.

Однако для разработчиков, создающих практические приложения, Ultralytics YOLOv8— и более новая версия YOLO26— предлагают комплексное решение, которое выходит далеко за рамки простой архитектуры модели. Сочетание превосходной точности, встроенной поддержки множества задач машинного зрения и процветающей экосистемы документации и интеграций делает Ultralytics явным Ultralytics в области искусственного интеллекта производственного уровня.

Другие модели для изучения

Если вы заинтересованы в изучении других передовых моделей в Ultralytics , рекомендуем ознакомиться со следующими материалами:

  • YOLO11: Передовая модель предыдущего поколения, обладающая превосходными возможностями по извлечению признаков.
  • YOLOv10: первая итерация, в которой было внедрено сквозное обучение для обнаружения в реальном времени.
  • YOLOv9: Известен своей архитектурой Programmable Gradient Information (PGI) и GELAN.

Комментарии