コンテンツにスキップ

EfficientDet vs YOLOv7: リアルタイムオブジェクト検出アーキテクチャの探求

コンピュータビジョンプロジェクトの成功には、最適なニューラルネットワークアーキテクチャの選択が極めて重要である。高性能AIソリューションへの需要が高まる中、精度と計算効率の両方を最適化しようとする開発者にとって、EfficientDetやYOLOv7 といった確立されたモデルの比較は不可欠YOLOv7 。

この包括的な技術分析では、両モデルのアーキテクチャ上の微妙な差異、性能指標、および理想的な導入シナリオを探求します。さらに、Ultralyticsが提供する統合エコシステム(最先端Ultralytics に集約される)が、現代のコンピュータビジョンタスクにおいて優れた選択肢となる理由を明らかにします。

効率的な検出の理解

EfficientDetは、さまざまなリソース制約下で計算コストを体系的に管理しつつ、精度を最大化するように設計されました。これは、スケーリングと特徴融合に対する斬新なアプローチによって達成されました。

EfficientDetの詳細:
著者: Mingxing Tan, Ruoming Pang, Quoc V. Le
所属: Google
日付: 2019-11-20
Arxiv: EfficientDet: Scalable and Efficient Object Detection
GitHub: Google AutoML Repository

アーキテクチャとイノベーション

その核となるのは、EfficientDetが双方向特徴ピラミッドネットワーク(BiFPN)を利用していることです。従来のFPNとは異なり、BiFPNは異なる入力特徴の重要性を学習するための学習可能な重みを導入することで、簡単かつ迅速なマルチスケール特徴融合を可能にします。これは、バックボーン、特徴ネットワーク、およびボックス/クラス予測ネットワークの解像度、深さ、幅を同時に均一にスケーリングする複合スケーリング手法と組み合わされています。

長所と短所

EfficientDetは高いスケーラビリティを備えています。その小型バリアント(d0-d2)は非常にパラメータ効率が高く、厳格なストレージ制限のある環境に適しています。より大型のバリアント(d7など)は、ハイエンドのオフライン処理における平均平均精度(mAP)の限界を押し広げます。

しかし、EfficientDetは古い TensorFlow 実装と複雑なAutoMLパイプラインに大きく依存している。このレガシーなインフラストラクチャは、現代PyTorchワークフローへの統合を著しく困難にしている。さらに、高精度なバリエーションにスケールアップすると、エッジデバイス上で重大な推論遅延が発生する問題を抱えている。

EfficientDetの詳細について。

YOLOv7の理解

2022年に発表されたYOLOv7、リアルタイムアプリケーションにおいて速度と精度の大幅な飛躍をもたらし、当時広く普及していたYOLO 新たな基準を確立した。

YOLOv7の詳細:
著者: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
所属: 台湾中央研究院情報科学研究所
日付: 2022-07-06
Arxiv: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
GitHub: 公式YOLOv7リポジトリ

アーキテクチャとイノベーション

YOLOv7 拡張効率的層集約ネットワーク(E-ELAN)YOLOv7 。このアーキテクチャ改良により、元の勾配経路を損なうことなくネットワークの学習能力が向上し、モデルがより多様な特徴を効率的に学習できるようになる。さらに「学習可能なフリービーの袋」を実装し、計画的再パラメータ化や動的ラベル割り当てといった技術を活用することで、推論コストを増加させることなく精度を向上させている。

長所と短所

YOLOv7 、動画解析や高速ロボットナビゲーションなどのリアルタイムシナリオでYOLOv7 。サーバーグレードのGPU上で非常に高いスケーラビリティを実現し、ネイティブな PyTorch 実装を提供しているため、学術研究者にも利用しやすい。

YOLOv7は印象的な速度にもかかわらず、後処理に非最大抑制(NMS)に依存しており、混雑したシーンでは可変のレイテンシを引き起こす可能性があります。さらに、トレーニング中のメモリフットプリントは新世代のモデルよりも著しく大きく、大規模なバッチサイズを処理するためにはより堅牢なハードウェアが必要です。

YOLOv7について詳しくはこちら

パフォーマンスとメトリクスの比較

これらのモデルを比較する際には、精度、推論速度、パラメータサイズ間のトレードオフを検討することが極めて重要である。以下に、様々なEfficientDetYOLOv7 の詳細な評価を示す。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

パフォーマンスの要点

EfficientDet-d7は最高のmAPを達成する一方、T4GPU上で約128msを要する。これとは対照的に、YOLOv7xは同等の53.1mAP 驚異的な高速処理速度mAP 11.57msmAP 達成し、リアルタイム展開における計算効率において世代を超えた飛躍的な進歩を示している。

ユースケースと推奨事項

EfficientDetとYOLOv7の選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステム設定に依存します。

EfficientDetを選択するタイミング

EfficientDetは、以下の用途に強力な選択肢です。

  • Google CloudおよびTPUパイプライン: EfficientDetがネイティブ最適化されているGoogle Cloud Vision APIまたはTPUインフラストラクチャと深く統合されたシステム。
  • 複合スケーリング研究:バランスの取れたネットワークの深さ、幅、解像度のスケーリング効果を研究することに焦点を当てた学術的なベンチマーク。
  • TFLiteを介したモバイルデプロイメント: Androidまたは組み込みLinuxデバイス向けにTensorFlow Liteのエクスポートを特に必要とするプロジェクト。

YOLOv7を選択すべき時

YOLOv7 以下に推奨YOLOv7 :

  • Academic Benchmarking: 2022年時代の最先端の結果を再現したり、E-ELANと学習可能なbag-of-freebies技術の効果を研究する場合に。
  • 再パラメータ化研究: 計画された再パラメータ化畳み込みと複合モデルスケーリング戦略の調査。
  • 既存のカスタムパイプライン: YOLOv7の特定のアーキテクチャを中心に構築され、容易にリファクタリングできない大幅にカスタマイズされたパイプラインを持つプロジェクト。

Ultralytics YOLO26)を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

  • NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
  • 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

Ultralyticsの利点

適切なアーキテクチャの選択は、単なる生のメトリクスを超え、機械学習ライフサイクル全体を評価することを含みます。Ultralyticsエコシステムは、比類のない開発者エクスペリエンスを提供し、堅牢なAIデプロイメントへの参入障壁を大幅に低減します。

  • 使いやすさ: Ultralyticsは高度に統一されたPython APIを提供します。開発者はわずか数行のコードでモデルをトレーニング、検証、エクスポートでき、EfficientDetに典型的な複雑で断片化されたコードベースを管理する必要がなくなります。
  • よく整備されたエコシステム: 迅速な更新、広範なドキュメント、および活発なコミュニティの恩恵を受け、UltralyticsはTensorRTやOpenVINOのような最新のデプロイメントフレームワークとの互換性を保証します。
  • メモリ要件: 高度に最適化されたPyTorchデータローダーと合理化されたネットワーク構造を利用することで、Ultralytics YOLOモデルは、マルチブランチネットワークやTransformerベースの重いモデルと比較して、トレーニング中に大幅に少ないCUDAメモリしか必要としません。
  • 多様性: バウンディングボックスdetectに厳密に結びついていた古いアーキテクチャとは異なり、Ultralyticsモデルは、Instance SegmentationPose Estimation、そしてOriented Bounding Boxes (obb)をサポートするマルチタスクの強力なツールです。

Ultralyticsによるトレーニング効率化

以下のコードは、Python を使用した最先端モデルのトレーニングの簡便性を示しており、TensorFlow の設定とは対照的です。

from ultralytics import YOLO

# Load the highly recommended YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model automatically handling hyperparameter tuning and augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the model to TensorRT for deployment
model.export(format="engine")

新たな基準:YOLO26

YOLOv7 現代のコンピュータビジョンに基盤を築いた一方で、Ultralytics が登場したことで状況は劇的に変化した。究極の精度と比類なきエッジ性能を両立させるべく設計されたYOLO26は、あらゆる新規ビジョンプロジェクトにおける究極の推奨ソリューションである。

YOLO26の主要なイノベーション

  • エンドツーエンドのNMSフリー設計: YOLOv10で築かれた基盤に基づいて、YOLO26はネイティブにエンドツーエンドです。非最大抑制(NMS)後処理を完全に排除することで、より低く、より一貫したレイテンシを実現し、自動運転のような安全性が重要なシステムにとって不可欠です。
  • 最大43%高速なCPU推論: Distribution Focal Loss (DFL)の削除により、YOLO26は大幅に簡素化されたエクスポートプロセスと、Raspberry Piのようなエッジデバイスでの比類のない速度を実現し、エッジコンピューティングの揺るぎない王者となっています。
  • MuSGDオプティマイザ: YOLO26は、Moonshot AIのLLMトレーニング革新に触発された、SGDとMuonのハイブリッドである革新的なMuSGDオプティマイザを組み込んでいます。これにより、非常に安定したトレーニングダイナミクスと、はるかに高速な収束率が実現されます。
  • ProgLoss + STAL: Progressive Loss と Scale-Targeted Alignment Loss の統合により、モデルの微小オブジェクトを detect する能力が大幅に向上し、ドローン画像およびセキュリティ警報システムにとって大きな課題を解決します。
  • タスク固有の改善点: YOLO26は単なるdetectorではありません。完璧なsegmentationのためのセマンティックsegmentation損失とマルチスケールプロト、超高精度な姿勢追跡のためのResidual Log-Likelihood Estimation (RLE)、そしてobbの境界曖昧さを解決するための特殊な角度損失を特徴としています。

YOLO26についてさらに詳しく

代替モデルの探索

YOLO26が現在の技術の頂点を代表する一方で、Ultralytics は様々なユースケース向けに最適化された多様なモデルをサポートしています。

従来のアンカーフリーのスケーリングを依然として必要とするレガシーシステムを管理する開発者にとって、YOLO11は、Ultralyticsプラットフォーム内で堅牢で高度にサポートされているオプションであり続けます。さらに、トランスフォーマーベースのアーキテクチャを明示的に要求するシナリオでは、RT-DETRは、ビジョントランスフォーマーを利用したリアルタイムdetectを提供し、ハイエンドのアテンションメカニズムとリアルタイム実行速度の間のギャップを埋めます。

結論として、EfficientDetが複合スケーリングに関する学術的知見を提供し、YOLOv7 強力なベースラインのリアルタイム性能YOLOv7 一方で、現代の企業Ultralytics 採用が最適である。YOLO26を活用することで、チームは最高の性能を確保し、トレーニングの摩擦を最小限に抑え、AI導入の将来性を保証できる。


コメント