YOLOX против EfficientDet: техническое сравнение архитектур обнаружения объектов
Выбор оптимальной архитектуры для обнаружения объектов — это критически важное решение, которое влияет на задержку, точность и масштабируемость систем компьютерного зрения. В этом сравнении подробно рассматриваются технические различия между YOLOX, высокопроизводительным детектором без якорей от Megvii, и EfficientDet, масштабируемой архитектурой Google, ориентированной на эффективность.
Хотя обе модели оказали большое влияние на развитие компьютерного зрения, современные приложения все чаще требуют решений, которые обеспечивают упрощенное развертывание и высокую производительность на периферии. Мы также рассмотрим, как передовые технологии YOLO26 опирается на эти наследия для достижения превосходных результатов.
Метрики производительности и тесты
В следующей таблице сравниваются результаты различных масштабов моделей на COCO . Ключевые показатели включают среднюю точность (mAP) и задержку вывода, что подчеркивает компромисс между скоростью и точностью.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
YOLOX: Эволюция Anchor-Free
YOLOX представляет собой значительный сдвиг в YOLO благодаря использованию механизма без якоря и развязке головки обнаружения. Такая конструкция упрощает процесс обучения и улучшает производительность на различных наборах данных.
Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация: Megvii
Дата: 18.07.2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Ключевые архитектурные особенности
- Разделенная головка: в отличие от предыдущих YOLO , в которых для классификации и локализации использовалась совмещенная головка, YOLOX разделяет эти задачи. Это приводит к более быстрой конвергенции и повышению точности.
- Конструкция без анкеров: благодаря удалению анкерных коробок YOLOX устраняет необходимость в ручной настройке анкеров, что делает модель более устойчивой к различным формам объектов.
- Назначение меток SimOTA: YOLOX представляет SimOTA, передовую стратегию назначения меток, которая динамически сопоставляет объекты реальной действительности с прогнозами, эффективно уравновешивая функцию потерь.
Сильные и слабые стороны
YOLOX превосходит другие методы в сценариях, требующих баланса скорости и точности, особенно там, где традиционные проблемы, связанные с анкерами (такие как дисбаланс), были проблематичными. Однако его зависимость от тяжелых конвейеров пополнения данных иногда может усложнять настройку обучения для пользовательских наборов данных.
EfficientDet: Масштабируемая эффективность
EfficientDet фокусируется на оптимизации эффективности с помощью метода сложного масштабирования, который равномерно масштабирует разрешение, глубину и ширину основной сети, сети признаков и сетей прогнозирования ячеек/классов.
Авторы: Минсин Тан, Руоминг Панг и Куок В. Ле
Организация: Google
Дата: 20.11.2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: google
Ключевые архитектурные особенности
- EfficientNet Backbone: использует EfficientNet, оптимизированный для FLOP и эффективности параметров.
- BiFPN (Bidirectional Feature Pyramid Network): слой взвешенного слияния признаков, который позволяет легко и быстро осуществлять многомасштабное слияние признаков.
- Комбинированное масштабирование: особый метод, который одновременно масштабирует все измерения сети, а не просто увеличивает глубину или ширину по отдельности.
Сильные и слабые стороны
EfficientDet очень эффективен для приложений, в которых размер модели (хранение) является основным ограничением, например, для мобильных приложений. Хотя он достигает высокого mAP, его скорость вывода на GPU часто отстает от YOLO из-за сложности BiFPN и разделяемых по глубине сверток, которые иногда менее оптимизированы в аппаратном обеспечении, чем стандартные свертки.
Преимущество Ultralytics: Представляем YOLO26
Хотя YOLOX и EfficientDet играли ключевую роль в 2019-2021 годах, эта область быстро развивалась. YOLO26, выпущенный Ultralytics январе 2026 года, представляет собой передовую технологию искусственного интеллекта в области зрения, устраняющую ограничения предыдущих поколений благодаря революционным инновациям.
Простота использования и экосистема
Разработчики, выбирающие Ultralytics от единой экосистемы «от нуля до героя». В отличие от фрагментированных репозиториев исследований YOLOX или EfficientDet, Ultralytics и API Ultralytics позволяют беспрепятственно обучать, проверять и развертывать модели. Экосистема поддерживает быструю итерацию с помощью таких функций, как автоматическая аннотация и экспорт в один клик в форматы, такие как ONNX и OpenVINO.
Характеристики производительности следующего поколения
YOLO26 представляет несколько архитектурных прорывов, которые делают его превосходным для современного развертывания:
Сквозной дизайн NMS: YOLO26 изначально является сквозным, что устраняет необходимость в постобработке с помощью Non-Maximum Suppression (NMS). Это снижает разброс задержек и упрощает процессы развертывания, концепция, впервые примененная в YOLOv10 и усовершенствованная здесь.
MuSGD Optimizer: Вдохновленный обучением больших языковых моделей (LLM), MuSGD Optimizer сочетает в себе стабильность SGD импульсные свойства Muon. Это приводит к более быстрой конвергенции во время обучения и более надежным конечным весам.
Эффективность Edge-First: благодаря устранению Distribution Focal Loss (DFL) YOLO26 упрощает структуру выходного слоя. Это изменение в сочетании с оптимизацией архитектуры позволяет ускорить CPU до 43 % по сравнению с предыдущими поколениями, что делает его значительно быстрее, чем EfficientDet на пограничном оборудовании.
ProgLoss + STAL: Новые функции потерь ProgLoss и STAL обеспечивают заметные улучшения в обнаружении небольших объектов, что было слабым местом ранних моделей без якорей. Это имеет решающее значение для применения в аэрофотосъемке и робототехнике.
Совет по тренировкам
Оптимизатор MuSGD в YOLO26 позволяет использовать более агрессивные скорости обучения. При обучении на пользовательских наборах данных рекомендуется использовать руководство Ultralytics по настройкеUltralytics , чтобы максимально повысить производительность.
Универсальность и память
В отличие от YOLOX и EfficientDet, которые в первую очередь являются детекторами, YOLO26 — это многозадачный мощный инструмент. Он изначально поддерживает:
Кроме того, Ultralytics оптимизированы для эффективного использования памяти. Для обучения модели YOLO26 обычно требуется меньше CUDA , чем для альтернативных моделей на основе трансформеров, таких как RT-DETR, что позволяет использовать более крупные пакеты данных на потребительских графических процессорах.
Пример кода: Обучение YOLO26
Переход на YOLO26 не требует особых усилий благодаряPython от Ultralytics .
from ultralytics import YOLO
# Load the state-of-the-art YOLO26n model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
# NMS-free output is generated natively
results = model("https://ultralytics.com/images/bus.jpg")
Заключение
В то время как YOLOX предлагает прочную основу для исследований без использования якорей, а EfficientDet предоставляет исследование по масштабируемости, YOLO26 выделяется как прагматичный выбор для 2026 года и далее. Сочетание инференции NMS, превосходной CPU и надежной поддержки Ultralytics делает его идеальным кандидатом для разработчиков, стремящихся раздвинуть границы инференции в реальном времени.
Те, кто готов к обновлению, могут изучить все возможности YOLO26 в нашей документации или обратиться к другим современным вариантам, таким как YOLO11 для сравнения с устаревшими версиями.