YOLOv8 и YOLOX: всестороннее техническое сравнение
В быстро развивающейся области обнаружения объектов выбор правильной архитектуры модели имеет решающее значение для успеха проектов в области компьютерного зрения. В этом сравнении подробно рассматриваются две влиятельные модели: Ultralytics YOLOv8, универсальной и современной модели, разработанной для реального внедрения, и YOLOX, высокопроизводительного детектора без якорей от Megvii. Анализируя их архитектуру, показатели производительности и поддержку экосистемы, мы стремимся помочь разработчикам и исследователям принимать обоснованные решения для своих конкретных приложений.
Краткое изложение
Ultralytics YOLOv8 представляет собой кульминацию обширных исследований, направленных на обеспечение доступности и мощности компьютерного зрения. Он отличается исключительным балансом скорости и точности, надежными многозадачными возможностями (обнаружение, сегментация, поза, OBB, классификация) и удобной для разработчиков экосистемой, которая упрощает весь жизненный цикл ИИ — от обучения до развертывания.
YOLOX, выпущенный в 2021 году, сделал значительный шаг вперед, перейдя на механизм без якорей и отделив головку прогнозирования. Хотя он по-прежнему остается сильной базой для академических исследований, ему не хватает встроенной поддержки многозадачности и оптимизированной, активно поддерживаемой экосистемы, которая характерна для современных Ultralytics .
Для разработчиков, начинающих сегодня новые проекты, беспроблемная интеграция Ultralytics с такими инструментами, как Ultralytics , делает их предпочтительным выбором для коммерческих и производственных приложений.
Анализ производительности
При оценке этих моделей необходимо учитывать как точность (mAP), так и эффективность (скорость/FLOP). В приведенной ниже таблице показано, что YOLOv8 обычно обеспечивает более высокую точность при сопоставимой или лучшей скорости инференса, особенно при оптимизации для современного оборудования с использованием TensorRT.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Ultralytics YOLOv8: универсальный инструмент
Архитектура и инновации
YOLOv8 современную архитектуру с магистралью и шейкой, которая улучшает извлечение и слияние признаков. В отличие от предыдущих итераций на основе анкеров, в ней используется головка обнаружения без анкеров, что упрощает процесс обучения и улучшает обобщение для объектов различной формы. Такой выбор конструкции сокращает количество прогнозов по коробкам, ускоряя постобработку с помощью метода Non-Maximum Suppression (NMS).
Ключевые архитектурные особенности включают:
- Модуль C2f: межэтапное частичное узкое место с двумя свертками, которое улучшает градиентный поток и эффективность.
- Разделенная головка: разделяет задачи классификации и регрессии, позволяя каждой ветви изучать отдельные особенности, подходящие для ее конкретной цели.
- Универсальность задач: единая унифицированная структура поддерживает сегментацию экземпляров, оценку позы и обнаружение ориентированных ограничивающих прямоугольников (OBB).
Экосистема и простота использования
Одним из наиболее значительных преимуществ YOLOv8 Ultralytics . Python разработан с учетом простоты использования, позволяя пользователям обучать, проверять и развертывать модели всего за несколько строк кода.
from ultralytics import YOLO
# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")
# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100, imgsz=640)
Кроме того, Ultralytics предоставляет графический интерфейс для управления наборами данных и тренировочными циклами, делая передовые технологии компьютерного зрения доступными даже для тех, кто не обладает глубокими знаниями в области программирования.
Приложения в реальном мире
- Умная розничная торговля: отслеживание потока и поведения покупателей с помощью одновременного обнаружения и оценки положения.
- Точное земледелие: идентификация сельскохозяйственных культур и сорняков с помощью масок сегментации для управления автономными опрыскивателями.
- Производство: обнаружение дефектов на сборочных линиях с помощью высокоскоростного вывода на периферийных устройствах, таких как NVIDIA .
YOLOX: пионер Anchor-Free
Технический обзор
YOLOX был представлен исследователями из Megvii в 2021 году. Он отличался переходом на механизм без анкеров и включением передовых стратегий аугментации, таких как Mosaic и MixUp, непосредственно в конвейер обучения.
Ключевые особенности включают:
- Механизм без анкеров: устраняет необходимость в заранее определенных анкерных блоках, что снижает сложность проектирования и эвристическую настройку.
- Decoupled Head: Подобно YOLOv8, он разделяет классификацию и локализацию для лучшей производительности.
- SimOTA: усовершенствованная стратегия присвоения меток, которая динамически присваивает положительные образцы к эталонным значениям, улучшая скорость сходимости.
Ограничения для современного развертывания
Несмотря на свою мощность, YOLOX в первую очередь является репозиторием для исследований. В нем отсутствует широкая поддержка различных форматов экспорта (таких как CoreML, TFLite и TF.js), которая является стандартной для Ultralytics . Кроме того, он ориентирован исключительно на обнаружение объектов, а это означает, что пользователям, которым требуется сегментация или оценка позы, необходимо искать отдельные кодовые базы или библиотеки.
Сравнительный анализ: почему стоит выбрать Ultralytics?
1. Эффективность обучения и память
Ultralytics разработаны с учетом эффективности обучения. Как правило, они требуют меньше CUDA , чем многие конкурирующие архитектуры, особенно модели на основе трансформаторов, такие как RT-DETR. Такая эффективность позволяет разработчикам обучать более крупные пакеты данных на потребительских графических процессорах, что значительно ускоряет цикл экспериментов.
2. Гибкость развертывания
Внедрение моделей искусственного интеллекта в производство может быть сложной задачей. Ultralytics этот процесс с помощью надежного режима экспорта.
Простой экспорт
YOLOv8 можно экспортировать в более чем 10 различных форматов с помощью одной строки кода, в том числе ONNX, OpenVINOи TensorRT. Это гарантирует оптимальную работу вашей модели на всех устройствах, от облачных серверов до Raspberry Pi.
3. Гарантия будущего с YOLO26
Хотя YOLOv8 отличным выбором, область искусственного интеллекта быстро развивается. Ultralytics выпустила YOLO26, который еще больше расширяет границы. YOLO26 отличается встроенной сквозной конструкцией NMS, что устраняет необходимость в сложной постобработке и сокращает задержку вывода.
Пользователям, которым требуется максимальная производительность, особенно на периферийных устройствах, настоятельно рекомендуется рассмотреть модель YOLO26. Она обеспечивает до 43 % более быстрое CPU и специализированные улучшения для таких задач, как обнаружение небольших объектов с помощью ProgLoss + STAL.
Заключение
Обе архитектуры заслужили свое место в истории компьютерного зрения. YOLOX успешно продемонстрировала жизнеспособность обнаружения без анкоров в YOLO и остается надежной базой для исследователей.
Однако для разработчиков, создающих практические приложения, Ultralytics YOLOv8— и более новая версия YOLO26— предлагают комплексное решение, которое выходит далеко за рамки простой архитектуры модели. Сочетание превосходной точности, встроенной поддержки множества задач машинного зрения и процветающей экосистемы документации и интеграций делает Ultralytics явным Ultralytics в области искусственного интеллекта производственного уровня.
Другие модели для изучения
Если вы заинтересованы в изучении других передовых моделей в Ultralytics , рекомендуем ознакомиться со следующими материалами:
- YOLO11: Передовая модель предыдущего поколения, обладающая превосходными возможностями по извлечению признаков.
- YOLOv10: первая итерация, в которой было внедрено сквозное обучение для обнаружения в реальном времени.
- YOLOv9: Известен своей архитектурой Programmable Gradient Information (PGI) и GELAN.