Перейти к содержанию

YOLOX против EfficientDet: техническое сравнение архитектур обнаружения объектов

Выбор оптимальной архитектуры для обнаружения объектов — это критически важное решение, которое влияет на задержку, точность и масштабируемость систем компьютерного зрения. В этом сравнении подробно рассматриваются технические различия между YOLOX, высокопроизводительным детектором без якорей от Megvii, и EfficientDet, масштабируемой архитектурой Google, ориентированной на эффективность.

Хотя обе модели оказали большое влияние на развитие компьютерного зрения, современные приложения все чаще требуют решений, которые обеспечивают упрощенное развертывание и высокую производительность на периферии. Мы также рассмотрим, как передовые технологии YOLO26 опирается на эти наследия для достижения превосходных результатов.

Метрики производительности и тесты

В следующей таблице сравниваются результаты различных масштабов моделей на COCO . Ключевые показатели включают среднюю точность (mAP) и задержку вывода, что подчеркивает компромисс между скоростью и точностью.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

YOLOX: Эволюция Anchor-Free

YOLOX представляет собой значительный сдвиг в YOLO благодаря использованию механизма без якоря и развязке головки обнаружения. Такая конструкция упрощает процесс обучения и улучшает производительность на различных наборах данных.

Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
Организация: Megvii
Дата: 18.07.2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX

Ключевые архитектурные особенности

  • Разделенная головка: в отличие от предыдущих YOLO , в которых для классификации и локализации использовалась совмещенная головка, YOLOX разделяет эти задачи. Это приводит к более быстрой конвергенции и повышению точности.
  • Конструкция без анкеров: благодаря удалению анкерных коробок YOLOX устраняет необходимость в ручной настройке анкеров, что делает модель более устойчивой к различным формам объектов.
  • Назначение меток SimOTA: YOLOX представляет SimOTA, передовую стратегию назначения меток, которая динамически сопоставляет объекты реальной действительности с прогнозами, эффективно уравновешивая функцию потерь.

Сильные и слабые стороны

YOLOX превосходит другие методы в сценариях, требующих баланса скорости и точности, особенно там, где традиционные проблемы, связанные с анкерами (такие как дисбаланс), были проблематичными. Однако его зависимость от тяжелых конвейеров пополнения данных иногда может усложнять настройку обучения для пользовательских наборов данных.

EfficientDet: Масштабируемая эффективность

EfficientDet фокусируется на оптимизации эффективности с помощью метода сложного масштабирования, который равномерно масштабирует разрешение, глубину и ширину основной сети, сети признаков и сетей прогнозирования ячеек/классов.

Авторы: Минсин Тан, Руоминг Панг и Куок В. Ле
Организация: Google
Дата: 20.11.2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: google

Ключевые архитектурные особенности

  • EfficientNet Backbone: использует EfficientNet, оптимизированный для FLOP и эффективности параметров.
  • BiFPN (Bidirectional Feature Pyramid Network): слой взвешенного слияния признаков, который позволяет легко и быстро осуществлять многомасштабное слияние признаков.
  • Комбинированное масштабирование: особый метод, который одновременно масштабирует все измерения сети, а не просто увеличивает глубину или ширину по отдельности.

Сильные и слабые стороны

EfficientDet очень эффективен для приложений, в которых размер модели (хранение) является основным ограничением, например, для мобильных приложений. Хотя он достигает высокого mAP, его скорость вывода на GPU часто отстает от YOLO из-за сложности BiFPN и разделяемых по глубине сверток, которые иногда менее оптимизированы в аппаратном обеспечении, чем стандартные свертки.

Преимущество Ultralytics: Представляем YOLO26

Хотя YOLOX и EfficientDet играли ключевую роль в 2019-2021 годах, эта область быстро развивалась. YOLO26, выпущенный Ultralytics январе 2026 года, представляет собой передовую технологию искусственного интеллекта в области зрения, устраняющую ограничения предыдущих поколений благодаря революционным инновациям.

Узнайте больше о YOLO26

Простота использования и экосистема

Разработчики, выбирающие Ultralytics от единой экосистемы «от нуля до героя». В отличие от фрагментированных репозиториев исследований YOLOX или EfficientDet, Ultralytics и API Ultralytics позволяют беспрепятственно обучать, проверять и развертывать модели. Экосистема поддерживает быструю итерацию с помощью таких функций, как автоматическая аннотация и экспорт в один клик в форматы, такие как ONNX и OpenVINO.

Характеристики производительности следующего поколения

YOLO26 представляет несколько архитектурных прорывов, которые делают его превосходным для современного развертывания:

  1. Сквозной дизайн NMS: YOLO26 изначально является сквозным, что устраняет необходимость в постобработке с помощью Non-Maximum Suppression (NMS). Это снижает разброс задержек и упрощает процессы развертывания, концепция, впервые примененная в YOLOv10 и усовершенствованная здесь.

  2. MuSGD Optimizer: Вдохновленный обучением больших языковых моделей (LLM), MuSGD Optimizer сочетает в себе стабильность SGD импульсные свойства Muon. Это приводит к более быстрой конвергенции во время обучения и более надежным конечным весам.

  3. Эффективность Edge-First: благодаря устранению Distribution Focal Loss (DFL) YOLO26 упрощает структуру выходного слоя. Это изменение в сочетании с оптимизацией архитектуры позволяет ускорить CPU до 43 % по сравнению с предыдущими поколениями, что делает его значительно быстрее, чем EfficientDet на пограничном оборудовании.

  4. ProgLoss + STAL: Новые функции потерь ProgLoss и STAL обеспечивают заметные улучшения в обнаружении небольших объектов, что было слабым местом ранних моделей без якорей. Это имеет решающее значение для применения в аэрофотосъемке и робототехнике.

Совет по тренировкам

Оптимизатор MuSGD в YOLO26 позволяет использовать более агрессивные скорости обучения. При обучении на пользовательских наборах данных рекомендуется использовать руководство Ultralytics по настройкеUltralytics , чтобы максимально повысить производительность.

Универсальность и память

В отличие от YOLOX и EfficientDet, которые в первую очередь являются детекторами, YOLO26 — это многозадачный мощный инструмент. Он изначально поддерживает:

Кроме того, Ultralytics оптимизированы для эффективного использования памяти. Для обучения модели YOLO26 обычно требуется меньше CUDA , чем для альтернативных моделей на основе трансформеров, таких как RT-DETR, что позволяет использовать более крупные пакеты данных на потребительских графических процессорах.

Пример кода: Обучение YOLO26

Переход на YOLO26 не требует особых усилий благодаряPython от Ultralytics .

from ultralytics import YOLO

# Load the state-of-the-art YOLO26n model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
# NMS-free output is generated natively
results = model("https://ultralytics.com/images/bus.jpg")

Заключение

В то время как YOLOX предлагает прочную основу для исследований без использования якорей, а EfficientDet предоставляет исследование по масштабируемости, YOLO26 выделяется как прагматичный выбор для 2026 года и далее. Сочетание инференции NMS, превосходной CPU и надежной поддержки Ultralytics делает его идеальным кандидатом для разработчиков, стремящихся раздвинуть границы инференции в реальном времени.

Те, кто готов к обновлению, могут изучить все возможности YOLO26 в нашей документации или обратиться к другим современным вариантам, таким как YOLO11 для сравнения с устаревшими версиями.


Комментарии