コンテンツにスキップ

包括的比較:物体検出におけるYOLOv7 EfficientDet

最適なニューラルネットワークアーキテクチャの選択は、あらゆるコンピュータビジョンプロジェクトの成功の基盤となる。本ガイドでは、物体検出アーキテクチャの歴史において極めて重要な二つのモデル、 YOLOv7とEfficientDet。両モデルのアーキテクチャ革新、トレーニング手法、最適な導入シナリオを検証することで、開発者は情報に基づいた判断が可能となります。さらに、特にUltralytics 現代的な進歩が、現在の最先端技術をどのように再定義したかについても考察します。

モデルの起源と技術的詳細

両モデルは著名な研究チームによって開発され、機械学習の分野に重要な進歩をもたらした。

YOLOv7
著者: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
所属機関:中央研究院 情報科学研究所, 台湾
日付: 2022-07-06
Arxiv:YOLOv7: トレーニング可能なフリーアイテムの集合がリアルタイム物体検出器の新たな最先端性能を確立
GitHub:WongKinYiu/yolov7
ドキュメント:Ultralytics YOLOv7

YOLOv7について詳しくはこちら

EfficientDet
著者: Mingxing Tan, Ruoming Pang, Quoc V. Le
所属:Google
日付: 2019-11-20
Arxiv:EfficientDet: Scalable and Efficient Object Detection
GitHub:Google EfficientDet

EfficientDetの詳細について。

建築的差異と均衡分析

これらのネットワーク間の基本的な構造的差異を理解することは、効果的なモデル展開にとって極めて重要である。

EfficientDet: 複合スケーリングとBiFPN

TensorFlow内で開発された TensorFlow エコシステム内で開発されたEfficientDetは、モデルスケーリングへの原理に基づいたアプローチを導入しました。ネットワークを恣意的に幅広にしたり深層化したりする代わりに、Google 解像度、深さ、幅を均一にスケーリングする複合スケーリング手法を採用しました。

さらに、EfficientDetは双方向特徴ピラミッドネットワーク(BiFPN)を導入した。このアーキテクチャ構成要素により、容易かつ高速なマルチスケール特徴融合が可能となる。

強み:パラメータ効率が極めて高く、多くの同時代モデルよりも少ないFLOPsで高い平均精度(mAP)を達成。 弱み:従来のAutoML探索戦略に大きく依存。現代的な動的 PyTorch ワークフローへの統合は煩雑になりがちで、FLOP数が低いにもかかわらずエッジデバイスでのレイテンシは予想以上に高くなる傾向がある。

YOLOv7: Trainable Bag-of-Freebies

YOLOv7 リアルタイム推論と学習最適化YOLOv7 。拡張効率的層集約ネットワーク(E-ELAN)の概念を導入し、元の勾配経路を破壊することなく、モデルがより多様な特徴を継続的に学習できるようにした。YOLOv7 「訓練可能なフリービーの袋」と呼ばれる技術を採用し、推論コストを増加させることなく検出精度を大幅に向上させた。

強み:卓越した処理速度と有利な推論レイテンシにより、高FPS動画ストリームに最適。 弱み:高性能ながら、依然としてアンカーボックスに依存し、後処理で非最大抑制(NMS)を必要とするため、混雑したシーンではレイテンシのボトルネックが生じる可能性がある。

Ultralyticsエコシステムの利点

モデルを評価する際には、アーキテクチャと同様に周辺エコシステムも極めて重要です。Ultralytics 、統一API、豊富なドキュメント、活発なコミュニティサポートを提供します。この統合環境により、大規模なトランスフォーマーモデルと比較してトレーニング時のメモリ使用量が低減され、迅速なプロトタイピングとシームレスな実験追跡が保証されます。

性能指標とベンチマーク

以下の表は、開発者が速度、パラメータ数、精度間のトレードオフを評価できるようにする主要な性能指標を比較したものです。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

図に示すように、EfficientDet-d7は高いmAPを達成する一方で、その TensorRT の速度はYOLOv7 大きく遅れを取っており、GPU リアルタイム物体検出において後者が優位であることを示している。

物体検出の進化:YOLO26

YOLOv7 重要な基盤を築いた一方で、ビジョンAIの分野は急速に進化しています。効率性と精度の絶対的な頂点を求める現代のアプリケーションには、2026年1月にリリースされたYOLO26へのアップグレードを強く推奨します。

YOLO26は、従来世代の固有の限界に対処し、物体検出インスタンスセグメンテーション画像分類姿勢推定において例のない汎用性を提供する。

YOLO26についてさらに詳しく

YOLO26の主要なイノベーション

  • エンドツーエンドNMS設計:YOLO26は、ノンマキシマム抑制(NMS)後処理をネイティブに排除します。当初は YOLOv10で初めて導入されたこの手法により、デプロイロジックが簡素化され、物体密度に関わらず一貫した低遅延実行が保証されます。
  • DFL除去:ディストリビューション焦点損失(DFL)を除去することで、モデルアーキテクチャが大幅に簡素化され、制約の厳しいエッジコンピューティング環境との互換性が向上します。
  • 最大43%高速CPU :専用GPUを必要としない環境向けに大幅に最適化されており、軽量ハードウェア上ではEfficientDetよりも飛躍的に高速です。
  • MuSGDオプティマイザー:大規模言語モデル技術(Moonshot AIのKimi K2など)に着想を得たこのSGD ミューオンのハイブリッド手法は、コンピュータビジョン訓練にLLMレベルの安定性と高速収束をもたらします。
  • ProgLoss + STAL:これらの高度な損失関数は、航空画像や ドローン応用において重要な機能である小物体認識において顕著な改善をもたらします。
  • タスク特化型改善点:セマンティックセグメンテーション損失とマルチスケールプロトをセグメンテーションタスクに、複雑姿勢推定には残差対数尤度推定(RLE)を、向き付き境界ボックス(OBB)の境界問題を修正するための専用角度損失をそれぞれ採用。

レガシーシステムを利用中のチームは、Ultralytics 移行により、これらの最先端モデルを容易にトレーニングおよびデプロイできる効率化されたワークフローを実現できます。開発者は、以下のような過去の堅牢なイテレーションも検討可能です。 YOLO11YOLOv8 などの堅牢な過去のバージョンも、特定の互換性要件に応じて検討可能です。

効率化されたトレーニングと使いやすさ

Ultralytics 決定的な特徴の一つは、その圧倒的な使いやすさです。EfficientDetTensorFlow に必要な複雑で複数の依存関係を持つ設定とは異なり、Ultralytics シンプルでPythonicなAPIUltralytics 。

この環境はトレーニング中のCUDA 最小限に抑え、大規模なデータセットであっても、かさばるTransformerベースのアーキテクチャでよく見られるメモリ不足(OOM)エラーなしに効率的に処理できることを保証します。

コード例:Ultralytics入門

以下のスニペットは、開発者がUltralytics を活用して、最新のYOLO26モデルを箱から出してすぐにシームレスにトレーニングする方法を示しています。

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model for object detection
model = YOLO("yolo26n.pt")

# Train the model effortlessly using the integrated Ultralytics ecosystem
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Auto-selects optimal device
    batch=16,
)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the model for edge deployment (e.g., OpenVINO for CPU optimization)
model.export(format="openvino")

本番環境向けエクスポート

Ultralytics 経由でトレーニングされたモデルは、 OpenVINOONNXなどの様々な実稼働フォーマットに即時エクスポートでき、ターゲットハードウェアに関わらず高いスループットを保証します。

理想的な使用例と実世界の応用例

ソリューションを設計する際には、モデルの強みを特定のユースケースに適合させることが不可欠である。

効率的な検出をいつ活用すべきか

EfficientDetは、レガシーな学術研究やGoogle エコシステムに厳密に縛られた環境において、複合スケーリング実験が主目的となる場合の候補として残る。絶対的なディスクサイズが厳しく制約される場合には、その小型バリエーション(d0-d2)が有益である。

YOLOv7を活用すべきタイミング

YOLOv7 高性能なレガシー環境において特にYOLOv7 、TensorFlowよりもPyTorch 好まれる場面で力を発揮します。現在も以下で広く導入されています:

  • ビデオ解析: GPU 豊富な高フレームレートセキュリティストリームの処理
  • 産業検査:高速で動く製造組立ライン上の欠陥を特定する。

YOLO26を選択すべき時

新規導入においては、YOLO26が圧倒的な推奨モデルです。比類なき性能バランスと堅牢で整備されたエコシステムにより、以下の用途において最適な選択肢となります:

  • スマートシティと交通管理:そのNMS設計は一貫した推論遅延を保証し、リアルタイム交通調整に不可欠である。
  • ロボティクスと自律システム: CPU が43%も向上したことで、組み込みデバイス向けに高応答性のナビゲーションアルゴリズムが実現されました。
  • 農業・航空モニタリング:ProgLossおよびSTALを活用し、高高度画像から特定の作物や野生生物などの微小物体を精密に識別する。

要約すると、YOLOv7 貴重な歴史的背景と特定のニッチなYOLOv7 、現代のコンピュータビジョンエンジニアにとって最適なUltralytics 採用である。これは従来のボトルネックを洗練された方法で解決すると同時に、人工知能の可能性の限界を押し広げている。


コメント