Перейти к содержанию

YOLOX противYOLO: анализ архитектур обнаружения объектов нового поколения

В быстро развивающейся области компьютерного зрения переход от детекторов на основе якорей к детекторам без якорей стал важной вехой. Двумя выдающимися моделями, которые определили этот переход, являются YOLOX и YOLO. В этом сравнении рассматриваются их архитектурные инновации, показатели производительности и методологии обучения, чтобы помочь исследователям и инженерам выбрать подходящий инструмент для своих конкретных задач по обнаружению объектов.

Ориентиры производительности

В следующей таблице представлено прямое сравнение ключевых показателей производительностиYOLO YOLOX иYOLO .

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOX: Наведение мостов между исследованиями и промышленностью

YOLOX стал важным обновлением YOLO , перейдя на механизм без якоря и внедрив передовые методы обнаружения, которые оптимизировали процесс перехода от академических исследований к промышленному применению.

Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
Организация:Megvii
Дата: 2021-07-18
Arxiv:YOLOX: Превосходя серию YOLO в 2021 году
GitHub:Megvii-BaseDetection/YOLOX

Архитектура и инновации

YOLOX отличается тем, что удаляет анкорные рамки, присутствовавшие в предыдущих версиях, таких как YOLOv4 и YOLOv5. Его архитектура «Decoupled Head» разделяет задачи классификации и локализации, что значительно улучшает скорость сходимости и точность.

Кроме того, YOLOX использует SimOTA, стратегию динамического присвоения меток, которая рассматривает процесс обучения как задачу оптимального транспорта. Это позволяет модели автоматически присваивать положительные образцы к эталонным данным на основе стратегии глобальной оптимизации, что снижает необходимость в эвристической настройке гиперпараметров.

Узнайте больше о YOLOX

DAMO-YOLO: Эффективность поиска нейронной архитектуры

YOLO границы компромисса между задержкой и точностью за счет использования Neural Architecture Search (NAS) и интенсивной перепараметризации.

Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сюю Сунь
Организация:Alibaba Group
Дата: 23.11.2022
Arxiv:YOLO: отчет о разработке системы обнаружения объектов в реальном времени
GitHub:YOLO

Ключевые технологии

YOLO магистральную сеть MAE-NAS, построенную с использованием многоцелевого эволюционного поиска для нахождения оптимальной структуры сети при определенных ограничениях по задержке. Она также использует RepGFPN (эффективную перепараметризованную обобщенную пирамидальную сеть признаков) для эффективного объединения признаков в разных масштабах.

Заметной особенностью является ZeroHead, которая упрощает головку обнаружения до минимальной сложности, полагаясь на тяжелую основу и шею для выполнения тяжелой работы. Обучение дополняется AlignedOTA для присвоения меток и этапом дистилляции, на котором более крупная модель-учитель направляет ученика, обеспечивая высокую производительность даже для меньших вариантов модели.

Узнайте больше о DAMO-YOLO

Преимущество Ultralytics

В то время как YOLOX иYOLO надежные решения для конкретных сценариев, Ultralytics предоставляет комплексную, удобную и высокопроизводительную альтернативу, которая решает сложные задачи современной разработки ИИ.

Безупречная простота использования и экосистема

Одной из основных проблем моделей типаYOLO сложность их рецептов обучения, которые часто включают многоэтапную дистилляцию или специализированные пространства поиска NAS. В отличие от них, Ultralytics разработаны для немедленного доступа. Независимо от того, используете ли вы YOLO11 или передовую YOLO26, весь рабочий процесс — от загрузки набора данных до экспорта модели — обрабатывается через единый API.

Разработчики могут использовать Ultralytics для управления наборами данных, визуализации экспериментов и беспрепятственного развертывания моделей. Этот интегрированный подход устраняет барьеры для входа, позволяя командам сосредоточиться на решении бизнес-задач, а не на отладке скриптов обучения.

Баланс производительности с YOLO26

Для тех, кто ищет максимальную скорость и точность, YOLO26 представляет собой передовую технологию. Он основан на опыте, полученном при разработке таких моделей, как YOLOX (дизайн без анкоров) и YOLOv10 (NMS), чтобы обеспечить исключительную производительность.

YOLO26 Инновация: сквозное решение NMS

YOLO26 изначально является сквозным решением, что исключает необходимость в постобработке с помощью алгоритма подавления неактивных пиков (NMS). Это значительно упрощает процессы развертывания, особенно на периферийных устройствах, где NMS могут стать причиной задержек.

Ключевые особенности YOLO26 включают:

  • Удаление DFL: удаление распределительной фокальной потери упрощает график модели для более легкого экспорта в такие форматы, как ONNX и TensorRT.
  • MuSGD Optimizer: гибрид SGD Muon (вдохновленный обучением LLM) обеспечивает стабильную конвергенцию.
  • CPU : архитектурно оптимизировано для пограничных вычислений, обеспечивая до 43% более быстрое вычисление на ЦП.
  • ProgLoss + STAL: усовершенствованные функции потери, которые значительно улучшают обнаружение мелких объектов, что является критически важным требованием для дронных изображений и робототехники.

Универсальность в различных задачах

В отличие от YOLOX иYOLO, которые в основном ориентированы на обнаружение объектов, Ultralytics по своей сути являются мультимодальными. Одна библиотека поддерживает:

Эта универсальность позволяет разработчикам решать сложные задачи, такие как анализ механики игроков в спорте с помощью оценки позы, без смены фреймворков.

Эффективность обучения и память

Ultralytics разработаны с учетом эффективного использования ресурсов. Как правило, во время обучения они требуют меньше GPU по сравнению с тяжелыми моделями на основе трансформаторов, такими как RT-DETR. Такая эффективность делает ИИ доступным для всех, позволяя обучать мощные модели на стандартном потребительском оборудовании.

Вот как просто обучить современную модель YOLO26 с помощью Ultralytics Python :

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Узнайте больше о YOLO26

Приложения в реальном мире

Выбор подходящей модели часто зависит от конкретных ограничений среды развертывания.

Промышленный контроль качества

Для высокоскоростных производственных линий YOLO является сильным конкурентом благодаря низкой задержке на GPU , что делает его подходящим для обнаружения дефектов на быстро движущихся конвейерах. Однако YOLO26 все чаще предпочитают в этом случае, поскольку его конструкцияNMS обеспечивает детерминированное время вывода, предотвращая джиттер, который может привести к десинхронизации робототехнических приводов.

Edge AI и мобильные устройства

YOLOX-Nano исторически был фаворитом для мобильных приложений благодаря небольшому количеству параметров. Сегодня YOLO26n (Nano) предлагает превосходную альтернативу, обеспечивая более высокую точность при аналогичных размерах модели и при этом обладая на 43 % более быстрым CPU . Это делает его идеальным для устройств с батарейным питанием, таких как интеллектуальные камеры или сельскохозяйственные датчики.

Автономные системы

В робототехнике и автономном вождении способность обрабатывать объекты разного размера имеет решающее значение. Хотя развязанная головка YOLOX помогает в этом, реализация ProgLoss + STAL в YOLO26 обеспечивает ощутимое улучшение распознавания удаленных или небольших объектов, таких как дорожные знаки или пешеходы, повышая общую безопасность системы.

Обзор

Как YOLOX, так иYOLO значительный вклад в развитие технологии обнаружения объектов. YOLOX популяризировал парадигму без якорей, аYOLO мощь нейронного архитектурного поиска.

Однако для современного, перспективного решения, которое обеспечивает баланс между производительностью, простотой использования и гибкостью развертывания, Ultralytics выделяется среди других. Его интеграция в более широкую Ultralytics , поддержка нескольких задач и упрощенные процессы экспорта делают его рекомендуемым выбором как для академических исследований, так и для приложений корпоративного уровня.

Изучите весь потенциал этих моделей, посетив Ultralytics и начав свое обучение уже сегодня.


Комментарии