YOLOX противYOLO: анализ архитектур обнаружения объектов нового поколения
В быстро развивающейся области компьютерного зрения переход от детекторов на основе якорей к детекторам без якорей стал важной вехой. Двумя выдающимися моделями, которые определили этот переход, являются YOLOX и YOLO. В этом сравнении рассматриваются их архитектурные инновации, показатели производительности и методологии обучения, чтобы помочь исследователям и инженерам выбрать подходящий инструмент для своих конкретных задач по обнаружению объектов.
Ориентиры производительности
В следующей таблице представлено прямое сравнение ключевых показателей производительностиYOLO YOLOX иYOLO .
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOX: Наведение мостов между исследованиями и промышленностью
YOLOX стал важным обновлением YOLO , перейдя на механизм без якоря и внедрив передовые методы обнаружения, которые оптимизировали процесс перехода от академических исследований к промышленному применению.
Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
Организация:Megvii
Дата: 2021-07-18
Arxiv:YOLOX: Превосходя серию YOLO в 2021 году
GitHub:Megvii-BaseDetection/YOLOX
Архитектура и инновации
YOLOX отличается тем, что удаляет анкорные рамки, присутствовавшие в предыдущих версиях, таких как YOLOv4 и YOLOv5. Его архитектура «Decoupled Head» разделяет задачи классификации и локализации, что значительно улучшает скорость сходимости и точность.
Кроме того, YOLOX использует SimOTA, стратегию динамического присвоения меток, которая рассматривает процесс обучения как задачу оптимального транспорта. Это позволяет модели автоматически присваивать положительные образцы к эталонным данным на основе стратегии глобальной оптимизации, что снижает необходимость в эвристической настройке гиперпараметров.
DAMO-YOLO: Эффективность поиска нейронной архитектуры
YOLO границы компромисса между задержкой и точностью за счет использования Neural Architecture Search (NAS) и интенсивной перепараметризации.
Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сюю Сунь
Организация:Alibaba Group
Дата: 23.11.2022
Arxiv:YOLO: отчет о разработке системы обнаружения объектов в реальном времени
GitHub:YOLO
Ключевые технологии
YOLO магистральную сеть MAE-NAS, построенную с использованием многоцелевого эволюционного поиска для нахождения оптимальной структуры сети при определенных ограничениях по задержке. Она также использует RepGFPN (эффективную перепараметризованную обобщенную пирамидальную сеть признаков) для эффективного объединения признаков в разных масштабах.
Заметной особенностью является ZeroHead, которая упрощает головку обнаружения до минимальной сложности, полагаясь на тяжелую основу и шею для выполнения тяжелой работы. Обучение дополняется AlignedOTA для присвоения меток и этапом дистилляции, на котором более крупная модель-учитель направляет ученика, обеспечивая высокую производительность даже для меньших вариантов модели.
Преимущество Ultralytics
В то время как YOLOX иYOLO надежные решения для конкретных сценариев, Ultralytics предоставляет комплексную, удобную и высокопроизводительную альтернативу, которая решает сложные задачи современной разработки ИИ.
Безупречная простота использования и экосистема
Одной из основных проблем моделей типаYOLO сложность их рецептов обучения, которые часто включают многоэтапную дистилляцию или специализированные пространства поиска NAS. В отличие от них, Ultralytics разработаны для немедленного доступа. Независимо от того, используете ли вы YOLO11 или передовую YOLO26, весь рабочий процесс — от загрузки набора данных до экспорта модели — обрабатывается через единый API.
Разработчики могут использовать Ultralytics для управления наборами данных, визуализации экспериментов и беспрепятственного развертывания моделей. Этот интегрированный подход устраняет барьеры для входа, позволяя командам сосредоточиться на решении бизнес-задач, а не на отладке скриптов обучения.
Баланс производительности с YOLO26
Для тех, кто ищет максимальную скорость и точность, YOLO26 представляет собой передовую технологию. Он основан на опыте, полученном при разработке таких моделей, как YOLOX (дизайн без анкоров) и YOLOv10 (NMS), чтобы обеспечить исключительную производительность.
YOLO26 Инновация: сквозное решение NMS
YOLO26 изначально является сквозным решением, что исключает необходимость в постобработке с помощью алгоритма подавления неактивных пиков (NMS). Это значительно упрощает процессы развертывания, особенно на периферийных устройствах, где NMS могут стать причиной задержек.
Ключевые особенности YOLO26 включают:
- Удаление DFL: удаление распределительной фокальной потери упрощает график модели для более легкого экспорта в такие форматы, как ONNX и TensorRT.
- MuSGD Optimizer: гибрид SGD Muon (вдохновленный обучением LLM) обеспечивает стабильную конвергенцию.
- CPU : архитектурно оптимизировано для пограничных вычислений, обеспечивая до 43% более быстрое вычисление на ЦП.
- ProgLoss + STAL: усовершенствованные функции потери, которые значительно улучшают обнаружение мелких объектов, что является критически важным требованием для дронных изображений и робототехники.
Универсальность в различных задачах
В отличие от YOLOX иYOLO, которые в основном ориентированы на обнаружение объектов, Ultralytics по своей сути являются мультимодальными. Одна библиотека поддерживает:
Эта универсальность позволяет разработчикам решать сложные задачи, такие как анализ механики игроков в спорте с помощью оценки позы, без смены фреймворков.
Эффективность обучения и память
Ultralytics разработаны с учетом эффективного использования ресурсов. Как правило, во время обучения они требуют меньше GPU по сравнению с тяжелыми моделями на основе трансформаторов, такими как RT-DETR. Такая эффективность делает ИИ доступным для всех, позволяя обучать мощные модели на стандартном потребительском оборудовании.
Вот как просто обучить современную модель YOLO26 с помощью Ultralytics Python :
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Приложения в реальном мире
Выбор подходящей модели часто зависит от конкретных ограничений среды развертывания.
Промышленный контроль качества
Для высокоскоростных производственных линий YOLO является сильным конкурентом благодаря низкой задержке на GPU , что делает его подходящим для обнаружения дефектов на быстро движущихся конвейерах. Однако YOLO26 все чаще предпочитают в этом случае, поскольку его конструкцияNMS обеспечивает детерминированное время вывода, предотвращая джиттер, который может привести к десинхронизации робототехнических приводов.
Edge AI и мобильные устройства
YOLOX-Nano исторически был фаворитом для мобильных приложений благодаря небольшому количеству параметров. Сегодня YOLO26n (Nano) предлагает превосходную альтернативу, обеспечивая более высокую точность при аналогичных размерах модели и при этом обладая на 43 % более быстрым CPU . Это делает его идеальным для устройств с батарейным питанием, таких как интеллектуальные камеры или сельскохозяйственные датчики.
Автономные системы
В робототехнике и автономном вождении способность обрабатывать объекты разного размера имеет решающее значение. Хотя развязанная головка YOLOX помогает в этом, реализация ProgLoss + STAL в YOLO26 обеспечивает ощутимое улучшение распознавания удаленных или небольших объектов, таких как дорожные знаки или пешеходы, повышая общую безопасность системы.
Обзор
Как YOLOX, так иYOLO значительный вклад в развитие технологии обнаружения объектов. YOLOX популяризировал парадигму без якорей, аYOLO мощь нейронного архитектурного поиска.
Однако для современного, перспективного решения, которое обеспечивает баланс между производительностью, простотой использования и гибкостью развертывания, Ultralytics выделяется среди других. Его интеграция в более широкую Ultralytics , поддержка нескольких задач и упрощенные процессы экспорта делают его рекомендуемым выбором как для академических исследований, так и для приложений корпоративного уровня.
Изучите весь потенциал этих моделей, посетив Ultralytics и начав свое обучение уже сегодня.