YOLOX против EfficientDet: Оценка безанкерного и масштабируемого обнаружения объектов
Эволюция обнаружения объектов была обусловлена постоянным стремлением к балансу между скоростью, точностью и вычислительной эффективностью. Две знаковые модели, которые значительно повлияли на эту траекторию, — это YOLOX и EfficientDet. В то время как YOLOX представил высокооптимизированный безанкерный дизайн для семейства YOLO, EfficientDet сосредоточился на масштабируемой архитектуре, использующей составное масштабирование и BiFPN. Это руководство предоставляет подробное техническое сравнение их архитектур, метрик производительности и методологий обучения, а также представляет современные альтернативы, такие как передовая модель Ultralytics YOLO26.
Происхождение модели и технические подробности
Прежде чем углубляться в их структурные различия, важно понять истоки и фундаментальные исследования, лежащие в основе обеих моделей.
YOLOX Детали:
- Авторы: Чжэн Ге, Сунтао Лю, Фэн Ван, Цзэмин Ли и Цзянь Сунь
- Организация:Megvii
- Дата: 18 июля 2021 г.
- ArXiv:YOLOX: Превосходящая серию YOLO в 2021 году
- GitHub:Megvii-BaseDetection/YOLOX
- Документация:Официальная документация YOLOX
Подробности EfficientDet:
- Авторы: Мингксинг Тан, Руоминг Панг и Куок В. Ле
- Организация:Google Brain
- Дата: 20 ноября 2019 г.
- ArXiv:EfficientDet: Масштабируемое и эффективное обнаружение объектов
- GitHub и Документация:Google AutoML EfficientDet
Узнайте больше об EfficientDet
Архитектурное сравнение
Фундаментальное различие между YOLOX и EfficientDet заключается в том, как они извлекают признаки и предсказывают ограничивающие рамки. Понимание этих архитектур обнаружения объектов критически важно для выбора подходящей модели для вашей среды развертывания.
YOLOX: Инновационная архитектура без якорей
YOLOX революционизировал серию YOLO, перейдя от детектора на основе якорей к безакорной архитектуре. Этот переход значительно сократил количество проектных параметров и упростил конвейер обучения.
Ключевые архитектурные особенности включают декомпозированную голову (decoupled head), которая разделяет задачи классификации и регрессии. Это решает конфликт между определением что представляет собой объект и точным предсказанием где он находится. Кроме того, YOLOX использует передовые стратегии присвоения меток, такие как SimOTA, которые динамически назначают положительные образцы объектам истинной разметки во время обучения, что приводит к более быстрой сходимости и превосходному балансу производительности.
EfficientDet: Комбинированное масштабирование и BiFPN
EfficientDet подходит к обнаружению объектов с точки зрения эффективности и масштабируемости. Разработанный Google, он в значительной степени опирается на backbone-сеть EfficientNet для извлечения признаков.
Его определяющей особенностью является двунаправленная сеть пирамид признаков (BiFPN). В отличие от традиционных FPN, BiFPN обеспечивает легкое и быстрое слияние многомасштабных признаков за счет введения обучаемых весов для определения важности различных входных признаков. В сочетании с методом составного масштабирования, который равномерно масштабирует разрешение, глубину и ширину для всех сетей Backbone, Feature Network и Box/Class Prediction, EfficientDet может масштабироваться от моделей мобильного размера (d0) до массивных серверных моделей (d7).
Архитектурная сложность
Хотя составное масштабирование EfficientDet обеспечивает предсказуемый путь к более высокой точности, оно часто приводит к сложным вычислительным графам, которые могут быть трудны для оптимизации в реальном времени для граничных вычислений по сравнению с оптимизированным, безъякорным дизайном YOLOX.
Анализ производительности и метрик
При оценке этих моделей для реальных приложений компьютерного зрения такие метрики, как средняя точность, скорость инференса и количество параметров, имеют первостепенное значение.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Анализ компромиссов
Данные подчеркивают явное расхождение в философии проектирования. EfficientDet-d7 достигает наивысшей общей точности с впечатляющим mAP 53.7%, но ценой значительного снижения скорости инференса (128.07 мс на T4 GPU). Напротив, YOLOXx достигает высококонкурентного mAP в 51.1%, сохраняя при этом быструю скорость инференса в 16.1 мс, что делает его значительно превосходящим для понимания видео в реальном времени и робототехники.
Сценарии использования и рекомендации
Выбор между YOLOX и EfficientDet зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать YOLOX
YOLOX является отличным выбором для:
- Исследования безъякорного detect: Академические исследования, использующие чистую, безъякорную архитектуру YOLOX в качестве основы для экспериментов с новыми головами detect или функциями потерь.
- Сверхлегкие граничные устройства: Развертывание на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый объем (0,91 млн параметров) варианта YOLOX-Nano.
- Исследования по назначению меток SimOTA: Исследовательские проекты, изучающие стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.
Когда следует выбирать EfficientDet
EfficientDet рекомендуется для:
- Конвейеры Google Cloud и TPU: Системы, глубоко интегрированные с API Google Cloud Vision или инфраструктурой TPU, где EfficientDet имеет нативную оптимизацию.
- Исследование составного масштабирования: Академическое бенчмаркинг, сфокусированное на изучении влияния сбалансированного масштабирования глубины, ширины и разрешения сети.
- Мобильное развертывание через TFLite: Проекты, которые специально требуют экспорта TensorFlow Lite для Android или встраиваемых устройств на Linux.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Современная альтернатива: Ultralytics YOLO26
Хотя YOLOX и EfficientDet представляли собой значительные вехи, ландшафт машинного обучения быстро развивался. Для разработчиков, стремящихся развернуть современные системы компьютерного зрения сегодня, настоятельно рекомендуемым выбором является YOLO26, новейшая флагманская модель от Ultralytics, выпущенная в январе 2026 года.
YOLO26 предлагает хорошо поддерживаемую экосистему и огромный шаг вперед как в скорости, так и в простоте использования, превосходя устаревшие архитектуры в нескольких ключевых областях:
Ключевые инновации YOLO26
- Сквозная архитектура без NMS: YOLO26 устраняет необходимость в постобработке Non-Maximum Suppression (NMS). Этот изначально сквозной подход, впервые примененный в предыдущих поколениях, упрощает процесс экспорта и значительно сокращает задержку развертывания.
- До 43% более быстрый инференс на CPU: Благодаря глубоким архитектурным оптимизациям и удалению Distribution Focal Loss (DFL), YOLO26 демонстрирует замечательную скорость на периферийных устройствах, не имеющих дискретных GPU, значительно превосходя тяжелые варианты EfficientDet.
- Оптимизатор MuSGD: Перенося инновации больших языковых моделей (LLM) в область зрения, YOLO26 использует оптимизатор MuSGD (гибрид SGD и Muon) для высокостабильного обучения и быстрой сходимости, что приводит к превосходной эффективности обучения.
- ProgLoss + STAL: Эти усовершенствованные функции потерь обеспечивают заметные улучшения в распознавании мелких объектов, что критически важно для таких сценариев использования, как операции с дронами и анализ аэрофотоснимков.
- Непревзойденная универсальность: В отличие от YOLOX, который является строго детектором объектов, YOLO26 нативно поддерживает широкий спектр задач, включая сегментацию экземпляров, классификацию изображений, оценку позы и Oriented Bounding Box (OBB) detect.
Простота использования с API Ultralytics
Одним из наиболее значительных преимуществ моделей Ultralytics является оптимизированный пользовательский опыт. Обучение и развертывание модели YOLO26 требует значительно меньших требований к памяти, чем сложные трансформерные модели, и включает всего несколько строк кода на Python:
from ultralytics import YOLO
# Initialize the natively end-to-end YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for blazing-fast inference
model.export(format="engine", dynamic=True)
Для пользователей, которые предпочитают визуальные интерфейсы, платформа Ultralytics предоставляет мощные инструменты для аннотации наборов данных, настройки гиперпараметров и бесшовного развертывания.
Реальные примеры использования
Выбор правильной архитектуры в значительной степени зависит от ваших конкретных ограничений развертывания.
Когда стоит рассмотреть EfficientDet
EfficientDet остается предметом академического интереса для сред, где скорость инференции совершенно не имеет значения, а единственной целью является максимальная теоретическая точность на изображениях высокого разрешения. Его реализация в экосистеме TensorFlow также может быть привлекательной для команд, поддерживающих старые, устаревшие инфраструктуры Google.
Когда следует рассмотреть YOLOX
YOLOX подходит для приложений, требующих баланса скорости и точности без сложностей с якорными боксами. Он исторически хорошо зарекомендовал себя в сценариях промышленного производства, где требуется быстрое detect дефектов на конвейерных лентах.
Почему YOLO26 — превосходный выбор
Практически для всех современных приложений YOLO26 предлагает лучшее решение. Его архитектура без NMS обеспечивает детерминированную задержку, что делает его идеальным кандидатом для автономного вождения, быстрых систем охранной сигнализации и развертываний в умных городах. Более того, надежная поддержка сообщества и частые обновления от Ultralytics гарантируют, что разработчикам никогда не придется сталкиваться с устаревшими зависимостями.
Разработчикам, изучающим передовое компьютерное зрение, также следует рассмотреть другие универсальные архитектуры в экосистеме Ultralytics, такие как YOLO11 для стабильных устаревших развертываний или специализированные модели, такие как FastSAM, для задач сегментации на основе подсказок. Использование полного набора инструментов Ultralytics гарантирует перспективный, высокооптимизированный конвейер ИИ для зрения.