YOLOv10 YOLOX: подробное изучение архитектур обнаружения объектов в реальном времени
В быстро развивающейся области компьютерного зрения переход к архитектурам без анкоров стал важным поворотным моментом. YOLOv10 и YOLOX представляют собой два ключевых момента в этой эволюции. YOLOX, выпущенный в 2021 году, популяризировал парадигму без анкеров, разделив головки обнаружения и внедрив передовые стратегии присвоения меток. Три года спустя YOLOv10 еще больше YOLOv10 границы, внедрив изначально NMS дизайн, полностью устранив необходимость в постобработке с подавлением не максимальных значений.
В этом сравнении рассматриваются архитектурные отличия, показатели производительности и идеальные сценарии развертывания для обеих моделей, а также подчеркивается, как современные решения, такие как YOLO26, интегрируют эти достижения в комплексную экосистему искусственного интеллекта.
Сравнение метрик производительности
При выборе модели для производства очень важно понимать компромисс между скоростью инференции и точностью обнаружения. В таблице ниже представлено подробное сравнение этих двух семейств по различным масштабам моделей.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Как показано, YOLOv10 обычно достигает более высокой средней точности (mAP) при аналогичной задержке вывода на GPU . Например, модель YOLOv10m достигает 51,3% mAP по сравнению с 46,9% для YOLOX-m, сохраняя при этом аналогичный профиль задержки. Это повышение эффективности в значительной степени объясняется удалением NMS, что снижает вычислительные накладные расходы на этапе постобработки.
YOLOv10: Сквозной инноватор
YOLOv10 значительное изменение архитектуры, устраняя одно из самых давних препятствий в области обнаружения в реальном времени: не максимальное подавление (NMS). Традиционные детекторы прогнозируют несколько ограничивающих рамок для одного и того же объекта и полагаются на NMS отфильтровывания дубликатов. YOLOv10 этот шаг благодаря последовательной стратегии двойного назначения во время обучения.
- Авторы: Ao Wang, Hui Chen, Lihao Liu, и др.
- Организация:Университет Цинхуа
- Дата: 23 мая 2024 г.
- Статья:arXiv:2405.14458
- Источник:Репозиторий GitHub
Ключевые архитектурные особенности
YOLOv10 «Комплексный подход к проектированию моделей, ориентированный на эффективность и точность». Он включает в себя оптимизацию отдельных компонентов, таких как слои понижающего сэмплирования и головка прогнозирования, с целью минимизации избыточности вычислений. Модель использует двойное присвоение меток: присвоение «один ко многим» для обеспечения полного контроля во время обучения и присвоение «один к одному» для вывода, что позволяет модели прогнозировать один лучший прямоугольник для каждого объекта, фактически делая NMS .
Эта архитектура особенно полезна для периферийного развертывания, где изменчивость задержки, вызванная NMS которая зависит от количества обнаруженных объектов), может быть проблематичной.
YOLOX: пионер Anchor-Free
YOLOX была одной из первых высокопроизводительных моделей, которая успешно внедрила обнаружение без анкеров в YOLO , отклонившись от подхода на основе анкеров, используемого в YOLOv3 и YOLOv4. Удалив заранее определенные анкерные рамки, YOLOX упростила процесс обучения и улучшила обобщение для объектов различной формы.
- Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
- Организация:Megvii
- Дата: 18 июля 2021 г.
- Статья:arXiv:2107.08430
- Источник:Репозиторий GitHub
Ключевые архитектурные особенности
YOLOX отличается развязанной головкой, разделяющей задачи классификации и регрессии на разные ветви. Было показано, что такая конструкция быстрее сходится и обеспечивает более высокую точность. В ней также была внедрена SimOTA, усовершенствованная стратегия присвоения меток, которая динамически присваивает положительные образцы на основе функции затрат, обеспечивая баланс между качеством классификации и регрессии.
Несмотря на высокую эффективность, YOLOX по-прежнему полагается на NMS , что означает, что время вывода может колебаться в сценах с высокой плотностью объектов, в отличие от стабильной задержки YOLOv10.
Преимущество Ultralytics
Хотя обе модели имеют свои преимущества, Ultralytics предоставляет унифицированный интерфейс, который значительно упрощает жизненный цикл разработки по сравнению с автономными репозиториями. Независимо от того, используете ли вы YOLOv10 новейшую версию YOLO26, процесс работы будет оптимизирован.
Простота использования и универсальность
Разработчики могут переключаться между моделями с помощью одной строки кода. В отличие от кодовой базы YOLOX, которая требует специальных конфигурационных файлов и шагов настройки, Ultralytics являются «plug-and-play». Кроме того, Ultralytics более широкий спектр задач компьютерного зрения, включая сегментацию экземпляров, оценку позы и ориентированное обнаружение объектов (OBB), предлагая универсальность, которой не хватает YOLOX.
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Эффективность обучения и память
Ultralytics разработаны для оптимального использования ресурсов. Как правило, они требуют меньше CUDA во время обучения по сравнению с архитектурами, в которых широко используются трансформеры, такими как RT-DETR или более старых кодовых базах. Это позволяет исследователям проводить обучение на потребительских графических процессорах, что делает доступ к разработке высокотехнологичного искусственного интеллекта более демократичным. Ultralytics еще больше усиливает этот эффект, предоставляя облачное обучение, управление наборами данных и экспорт моделей в один клик.
Беспроблемные обновления
Переход от старой архитектуры к современной, такой как YOLO26, часто приводит к немедленному повышению производительности без необходимости рефакторинга кода. Ultralytics единый API для всех поколений, гарантируя сохранение ваших инвестиций в интеграцию кода.
Почему стоит выбрать YOLO26?
Для разработчиков, которые ищут идеальный баланс между скоростью, точностью и современными функциями, рекомендуется выбрать YOLO26. Выпущенная в начале 2026 года, она основана на инновациях YOLOv10 , NMS, YOLOv10 усовершенствована для обеспечения превосходной стабильности и скорости.
- Нативная сквозная архитектура: как и YOLOv10, YOLO26 NMS использует NMS, что обеспечивает детерминированную задержку.
- MuSGD Optimizer: вдохновленный обучением LLM (в частности, Kimi K2 от Moonshot AI), этот гибридный оптимизатор обеспечивает более быструю конвергенцию и стабильность обучения.
- Оптимизация краев: благодаря удалению Distribution Focal Loss (DFL) и оптимизированным функциям потерь (ProgLoss + STAL) YOLO26 обеспечивает на 43 % более быстрое CPU , что делает его идеальным решением для устройств без специальных графических процессоров.
Приложения в реальном мире
Выбор между этими моделями часто зависит от конкретных ограничений вашего проекта.
Подсчет большого количества людей
В таких сценариях, как наблюдение за умным городом, обнаружение сотен людей в одном кадре является обычным явлением.
- YOLOX: Может страдать от всплесков задержки, поскольку время NMS увеличивается линейно с количеством обнаруженных ячеек.
- YOLOv10 YOLO26: их конструкция NMS гарантирует стабильное время вывода независимо от плотности толпы, что критически важно для видеопотоков в реальном времени.
Мобильная и встроенная робототехника
Для роботов, перемещающихся в динамичной среде, важна каждая миллисекунда.
- YOLOX-Nano: сильный и легкий конкурент, но его архитектура устаревает.
- YOLO26n: Обеспечивает превосходную точность при аналогичном или меньшем количестве параметров и извлекает выгоду из удаления DFL, что значительно ускоряет работу на процессорах, используемых в таких устройствах, как Raspberry Pi или Jetson Nano.
Промышленная инспекция
Обнаружение дефектов на сборочных линиях требует высокой точности.
- YOLOX: Его развязанная головка обеспечивает превосходную точность локализации, что делает его надежной базой для исследований.
- Ultralytics : возможность легко переключаться на задачи сегментации позволяет одной и той же системе не только detect , но и измерять его точную площадь, предоставляя более полные данные для контроля качества.
Заключение
YOLOX остается авторитетной базовой моделью в академическом сообществе, известной благодаря популяризации метода обнаружения без анкоров. YOLOv10 успешно развил это наследие, отказавшись от NMS и предложив взгляд на будущее сквозных систем реального времени.
Однако для современных производственных внедрений Ultralytics предлагает непревзойденные преимущества. Благодаря стандартизации процессов обучения, валидации и внедрения она позволяет разработчикам использовать передовые возможности YOLO26, которая сочетает в себе преимущества YOLOv10 NMS YOLOv10 превосходной CPU и стабильностью обучения, без сложностей управления разрозненными кодовыми базами.
Для более подробного изучения рекомендуем ознакомиться с документацией по YOLO11 или ознакомьтесь с показателями производительности, чтобы лучше понять, как проводить тестирование этих моделей на вашем собственном оборудовании.