コンテンツにスキップ

YOLOv7 YOLO:アーキテクチャの革新と速度のバランス

リアルタイム物体検出の分野では、2022年に YOLOv7YOLOにより、大きな変化がもたらされた。両モデルとも精度とレイテンシの限界突破を目指したが、根本的に異なる技術的アプローチで課題に取り組んだ。YOLOv7 「bag-of-freebies」手法による学習プロセスの最適化にYOLOv7 、YOLO ニューラルアーキテクチャ探索(NAS)YOLO 、効率的な構造を自動発見した。

この包括的な比較では、各モデルのアーキテクチャ、性能指標、学習手法を検証し、特定のコンピュータビジョン用途に適したモデル選択を支援します。従来プロジェクトでは両モデルとも有用ですが、新規開発においてYOLO26のような現代的ソリューションが推奨される標準となった理由についても考察します。

YOLOv7: トレーニング可能なBag-of-Freebies

2022年7月にリリースされたYOLOv7 、推論コストを増加させることなく精度を向上させるアーキテクチャ改革に焦点を当てた、YOLO 重要なマイルストーンYOLOv7 。

アーキテクチャの革新

YOLOv7 拡張効率的層集約ネットワーク(E-ELAN)YOLOv7 。最短・最長の勾配経路を制御する標準ELANとは異なり、E-ELANは元の勾配経路を破壊せずにネットワークの学習能力を高めるため、カーディナリティの拡張・シャッフル・統合を活用する。この設計によりモデルはより多様な特徴を学習でき、以下のような複雑なデータセットでの性能が向上する COCOなどの複雑なデータセットにおける性能を向上させます。

YOLOv7 重要な概念は「訓練可能なフリービーの袋」YOLOv7 。これはモデルの再パラメータ化や動的ラベル割り当てといった最適化手法であり、精度向上のために訓練コストを増加させるが、推論時にはペナルティを伴わない。YOLOv7 、医療画像解析や安全性が極めて重要な産業検査など、高精度が求められるシナリオにおいて優れたYOLOv7 となる。

YOLOv7について詳しくはこちら

アリババグループが開発したYOLO 後にDAMOアカデミーのビジョンスイートに統合)は、速度と低遅延を最優先し、特に厳密なミリ秒単位の制約が課される産業用途をターゲットとした。

MAE-NASと蒸留

YOLO、MAE-NAS(効率自動化ニューラルアーキテクチャ探索法)と呼ばれる手法を用いて導出された。この自動化プロセスは、特定のレイテンシ予算下で検出性能を最大化するバックボーン構造を発見した。また、効率的な特徴融合のためのRepGFPN(Rep-パラメータ化汎用特徴ピラミッドネットワーク)と、軽量検出ヘッドであるZeroHeadを導入した

YOLO 顕著な特徴YOLO 蒸留への強いYOLO 。モデルは通常、より大規模な「教師」モデルの支援のもとで学習され、これにより「生徒」モデルがより優れた表現を学習するよう導かれる。この手法は驚異的な効率性を生み出す一方で、標準的な物体検出ワークフローと比較して、学習パイプラインを著しく複雑化させる。

パフォーマンス比較

以下の表は、YOLO 性能を比較したものです。YOLOv7 精度(mAP)が向上する傾向にある一方、YOLO 速度を最適化した極めて軽量なモデルYOLO 。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

トレードオフの分析

  • 精度:YOLOv7x mAP 53.1% mAP トップであり、検出漏れが重大な影響を及ぼすタスクに適している。
  • 速度:DAMO-YOLOtは驚異的な高速性を実現(T4TensorRT2.32ミリ秒)、高FPS動画解析やリソース制約のあるエッジデバイスへの展開に最適です。
  • 複雑性: YOLOv7パラメータ数とFLOPsYOLOv7著しく高く、純粋な効率性よりも容量を重視していることを反映している。

トレーニングの複雑性に関する注記

YOLO 速度と精度のトレードオフにおいて優れたYOLO 一方、カスタムデータセットでの再現は困難な場合がある。その学習レシピでは、蒸留に重厚な教師モデルを必要とする多段階プロセスが求められることが多い。YOLOv7 、実装が容易なシンプルな「ゼロから学習」手法YOLOv7 。

Ultralytics 優れた選択肢である理由

YOLOv7 YOLO 当時大きなYOLO 、この分野は急速に進歩した。2026年に新規プロジェクトを開始する開発者や研究者にとって、YOLO26は高い精度と簡素化されたデプロイメントを組み合わせることで、両方の前身モデルを上回る統合ソリューションを提供する。

比類のない使いやすさとエコシステム

Ultralytics は、そのユーザーフレンドリーな設計で知られています。YOLOの複雑な蒸留パイプラインとは異なり、YOLO26はデータアノテーションからモデルデプロイメントまでを一括処理する合理化されたPython を提供します。

YOLO26の技術的ブレークスルー

YOLO26は、従来のアーキテクチャの限界を解決するいくつかの重要な革新を導入しています:

  1. エンドツーエンドNMS設計:非最大抑制(NMS)を排除することで、YOLO26は推論遅延を低減し、エクスポートロジックを簡素化する。この機能YOLOv7 YOLO いずれにも欠けている。
  2. MuSGDオプティマイザ:LLMトレーニング(Kimi K2など)に着想を得たこのハイブリッドオプティマイザは、SGD ミューオンSGD 組み合わせることで収束を加速し、安定したトレーニングを実現します。
  3. エッジ最適化:ディストリビューション焦点損失(DFL)の除去と特定のCPU 、YOLO26 CPUにおいて前世代比最大43%高速化を実現。これにより、YOLO 対象とした低遅延ニーズに対応しています。
  4. ProgLoss + STAL:高度な損失関数が小型物体検出を改善し、ドローン画像処理やロボティクスにおける重要な能力を提供する。

YOLO26についてさらに詳しく

コード例:Ultralyticsを使用したトレーニング

この例は、Ultralytics を使用して最新のYOLO26モデルを訓練することがいかに容易かを示しています。この単一のインターフェースにより、従来のリポジトリで必要だった複雑な設定ファイルや多段階のパイプラインが不要になります。

from ultralytics import YOLO

# Load the latest YOLO26 model (recommended over YOLOv7/DAMO-YOLO)
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

結論

YOLOv7 YOLO YOLOv7 コンピュータビジョンの進化に大きくYOLO 。YOLOv7 巧妙なトレーニング戦略によって手作業で設計されたアーキテクチャでも最先端の性能を達成できることをYOLOv7 、YOLO 遅延制約環境におけるNASの威YOLO 。

しかし、今日の実用的な実環境での展開においては、YOLO26が決定的な選択肢です。高い精度と速度の性能バランスを提供し、Transformersと比較してトレーニング時のメモリ要件を大幅に低減し、Ultralytics 堅牢なサポートを備えています。エッジ環境向けかクラウド向けかを問わず、YOLO26のエンドツーエンド設計と多様なタスク対応が、最も効率的な実稼働への道筋を提供します。

参考資料


コメント