コンテンツにスキップ

YOLOX対EfficientDet:物体検出アーキテクチャの技術的比較

物体検出に最適なアーキテクチャの選択は、コンピュータビジョンシステムのレイテンシ、精度、スケーラビリティに影響を与える重要な決定事項である。本比較では、Megviiの高性能アンカーフリー検出器YOLOXと、効率性に焦点をGoogle アーキテクチャEfficientDetの技術的差異を掘り下げる。

両モデルがコンピュータビジョンの分野を形成してきた一方で、現代のアプリケーションでは、簡素化された導入とエッジネイティブな性能を提供するソリューションへの需要が高まっています。また、最先端の YOLO26 がこれらの遺産を基盤に優れた結果を実現する手法についても考察します。

性能指標とベンチマーク

以下の表は、COCO 各種モデルスケールの性能を比較したものです。主要指標として平均精度(mAP)と推論遅延を含み、速度と精度のトレードオフを明らかにしています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

YOLOX: アンカーフリーの進化

YOLOXはアンカーフリー機構の採用と検出ヘッドの分離により、YOLO における重要な転換点を示している。この設計は学習プロセスを簡素化し、多様なデータセットでの性能向上を実現する。

著者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
組織:Megvii
日付: 2021-07-18
Arxiv:https://arxiv.org/abs/2107.08430
GitHub:https://github.com/Megvii-BaseDetection/YOLOX

主要なアーキテクチャ機能

  • 分離型ヘッド:分類と位置特定に結合型ヘッドを使用していた従来のYOLO 異なり、YOLOXではこれらのタスクを分離しています。これにより収束が早くなり、精度が向上します。
  • アンカーフリー設計: アンカーボックスを排除することで、YOLOXは手動によるアンカー調整の必要性をなくし、多様な物体形状に対するモデルの頑健性を高めています。
  • SimOTA ラベル割り当て:YOLOXは、真値オブジェクトと予測を動的に一致させ、損失関数を効果的にバランスさせる先進的なラベル割り当て戦略「SimOTA」を導入します。

長所と短所

YOLOXは、速度と精度のバランスが求められるシナリオ、特にアンカーベースの従来手法における課題(不均衡など)が問題となっていた場面で優れた性能を発揮します。ただし、大規模なデータ拡張パイプラインへの依存により、カスタムデータセットでのトレーニング設定が複雑になる場合があります。

EfficientDet: スケーラブルな効率性

EfficientDetは、バックボーン、特徴ネットワーク、およびボックス/クラス予測ネットワークの解像度、深度、幅を均一にスケーリングする複合スケーリング手法を通じて効率の最適化に焦点を当てています。

著者: Mingxing Tan, Ruoming Pang, and Quoc V. Le
所属:Google
日付: 2019-11-20
Arxiv:https://arxiv.org/abs/1911.09070
GitHub:google

主要なアーキテクチャ機能

  • EfficientNetバックボーン: FLOPsとパラメータ効率に最適化されたEfficientNetを活用する。
  • BiFPN(双方向特徴ピラミッドネットワーク):容易かつ高速なマルチスケール特徴融合を可能にする重み付け特徴融合層。
  • 複合スケーリング:深さや幅を単独で増加させるのではなく、ネットワークの全次元を同時に拡張する独自の方法。

長所と短所

EfficientDetは、モバイルアプリなどモデルサイズ(ストレージ)が主要な制約となる用途において非常に効果的です。高いmAPを達成する一方で、BiFPNと深度方向分離型畳み込みの複雑さにより、GPU上での推論速度はYOLO 遅れがちです。これらは標準的な畳み込みに比べてハードウェア最適化が不十分な場合があるためです。

Ultralyticsの利点: YOLO26の登場

YOLOXとEfficientDetが2019年から2021年にかけて重要な役割を果たした一方で、この分野は急速に進歩を遂げている。 Ultralyticsが2026年1月に発表したYOLO26は、Ultralytics リリースされ、画期的な革新によって前世代の限界に対処し、ビジョンAIの最先端を代表しています。

YOLO26についてさらに詳しく

使いやすさとエコシステム

Ultralytics を選択する開発者は、統合された「ゼロからヒーローへ」のエコシステムUltralytics 。YOLOXやEfficientDetのような断片化された研究リポジトリとは異なり、Ultralytics とAPIにより、モデルのトレーニング、検証、デプロイをシームレスに行えます。このエコシステムは自動アノテーションやワンクリックでのONNX形式などへのエクスポートといった機能により、迅速な反復開発をサポートします。 ONNXOpenVINOなどの形式へのワンクリックエクスポートなどの機能により、迅速な反復開発をサポートします。

次世代パフォーマンス機能

YOLO26は、現代的な展開において優れた性能を発揮するいくつかのアーキテクチャ上の革新を導入しています:

  1. エンドツーエンドNMS設計:YOLO26はネイティブにエンドツーエンドであり、非最大抑制(NMS)後処理を不要とします。これにより遅延変動が低減され、デプロイメントパイプラインが簡素化されます。この概念は YOLOv10 で先駆けられ、ここで完成された概念です。

  2. MuSGDオプティマイザー:大規模言語モデル(LLM)の学習に着想を得たMuSGDオプティマイザーは、SGD 。これにより、学習時の収束が高速化され、より頑健な最終重みが得られます。

  3. エッジファースト効率性: ディストリビューション焦点損失(DFL)を排除することで、YOLO26は出力層構造を簡素化します。この変更とアーキテクチャ最適化を組み合わせることで、前世代と比較して最大43%CPU を実現し、エッジハードウェア上ではEfficientDetを大幅に上回る速度を達成しています。

  4. ProgLoss + STAL:新規損失関数であるProgLossとSTALは、従来のアンカーフリーモデルにおける弱点であった小物体検出において顕著な改善をもたらす。これは航空画像やロボティクス分野での応用において極めて重要である。

トレーニングのコツ

YOLO26のMuSGDオプティマイザーは、より積極的な学習率の設定を可能にします。カスタムデータセットでのトレーニング時には、パフォーマンスを最大化するため、Ultralytics 調整ガイドの活用をご検討ください。

多様性と記憶

YOLOXやEfficientDetが主に検出器であるのとは異なり、YOLO26はマルチタスクの強力な手法です。以下をネイティブにサポートします:

さらに、Ultralytics メモリ効率に最適化されています。YOLO26モデルのトレーニングには、TransformerベースCUDA 代替モデル(例: RT-DETRなどのトランスフォーマーベースの代替モデルよりも少ないCUDAメモリで済むため、コンシューマー向けGPUでもより大きなバッチサイズでの学習が可能です。

コード例:YOLO26のトレーニング

Ultralytics Python を使えば、YOLO26への切り替えは簡単です。

from ultralytics import YOLO

# Load the state-of-the-art YOLO26n model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
# NMS-free output is generated natively
results = model("https://ultralytics.com/images/bus.jpg")

結論

YOLOXがアンカーフリー研究の強固な基盤を提供し、EfficientDetがスケーリング効率の研究事例を示す一方で、YOLO26は2026年以降に向けた実用的な選択肢として際立っている。NMS推論、優れたCPU 、Ultralytics 堅牢なサポートを兼ね備えることで、リアルタイム推論の限界に挑戦する開発者にとって理想的な候補となっている。

アップグレードの準備が整った方は、当社のドキュメントでYOLO26の全機能を探索するか、他の最新オプション(例: YOLO11 などの他の最新オプションを引用してください。


コメント