YOLO YOLOv7:リアルタイム物体検出の深層分析
2022年はコンピュータビジョンの進化における転換点となり、二つの極めて影響力のあるアーキテクチャ、YOLOYOLOv7が発表された。両モデルとも速度と精度のトレードオフの限界を再定義しようとしたが、この課題へのアプローチは根本的に異なる設計思想に基づいていた。
アリババグループが開発したYOLO、ニューラルアーキテクチャ検索(NAS)と大規模な再パラメータ化を活用し、ハードウェアから最大のスループットを引き出す。一方、YOLOv4の開発者らが創出したYOLOv7、最先端の精度を達成するため、勾配伝播経路の最適化と「フリービーの袋」トレーニング戦略に焦点を当てている。
本ガイドでは、これら2つのモデルについて、アーキテクチャ、性能指標、現代のコンピュータビジョンアプリケーションへの適合性を厳密に技術的に比較分析します。また、従来の優れた手法を統合した統一的で使いやすいUltralytics の導入により、状況がどのように変化したかについても探求します。
性能指標とベンチマーク
これらのアーキテクチャの実用的な違いを理解するには、COCO 標準ベンチマークにおける性能を比較することが不可欠である。下表は、平均精度(mAP)、推論速度(レイテンシ)、計算複雑度に基づいてモデルを対比したものである。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
データが示すように、 YOLOv7 は概して純粋な精度において優位性を示し、YOLOv7 バリエーションは驚異的な 53.1% のmAP を達成しています。これにより、医療画像分析や法医学文書審査など、精度が絶対条件となるシナリオにおける有力候補となります。 一方、YOLO効率性に優れており、特に「Tiny」バリアントはTensorRT上で極めて低いレイテンシ(2.32ミリ秒)を実現するため、高速産業用選別処理に適している。
アーキテクチャの革新
これら二つのモデルの中核的な違いは、そのアーキテクチャがどのように構想されたかにあります。
YOLO:NASアプローチ
YOLO 蒸留強化モデル)はニューラルアーキテクチャ探索(NAS)に大きく依存している。各ブロックを手作業で設計する代わりに、著者らはMAE-NASと呼ばれる手法を用いて効率的なバックボーン構造を自動発見した。
- RepGFPN:効率的な再パラメータ化汎用特徴ピラミッドネットワークを導入する。これにより優れたマルチスケール特徴融合が可能となり、大小の物体双方を効果的に検出できる。
- ZeroHead:検出ヘッドの計算コストを削減するため、YOLO 「ZeroHead」戦略YOLO 、最終層を簡素化することで推論時の決定的なミリ秒単位の時間を削減する。
- 蒸留:トレーニングパイプラインの重要な部分には、大規模な教師モデルが小規模な生徒モデルを導く重度の知識蒸留が含まれ、推論コストを追加せずに精度を向上させる。
YOLOv7: 勾配経路最適化
YOLOv7 「訓練可能なフリーアイテムの袋」にYOLOv7 これは推論コストを増加させることなく、訓練中の精度を向上させる最適化手法である。
- E-ELAN:拡張効率的層集合ネットワークYOLOv7基盤となるアーキテクチャである。最短および最長の勾配経路を制御することでネットワークがより多くの特徴を学習できるようにし、効率的な収束を保証する。
- モデルのスケーリング:従来の反復では単にネットワークを拡大または深化させていたが、YOLOv7 これらのスケーリング属性をYOLOv7 、異なるハードウェア制約に対して最適なバランスを維持する。
- 補助ヘッド:学習プロセスでは補助ヘッドを用いて深層教師あり学習を行い、中間層が豊富な特徴量を学習するのを支援する。
現代の選択肢:Ultralytics
YOLOv7 重要な技術的成果YOLOv7 、この分野は急速に進歩を遂げています。2026年に新規プロジェクトを開始する開発者にとって、Ultralytics 両レガシーモデルの限界を克服する統合ソリューションを提供します。
YOLO26は単なる増分的な更新ではなく、エッジファーストの世界に向けたパラダイムシフトである。YOLOv7 YOLO効率性目標YOLOv7 、優れた使いやすさと現代的なアーキテクチャの革新を実現している。
YOLO26の主な利点
- エンドツーエンドNMS:重複検出をフィルタリングするために非最大抑制(NMS)を必要とするYOLOv7異なり、YOLO26はネイティブにエンドツーエンドです。これにより、NMS による遅延のばらつきが排除され、リアルタイムロボティクスに不可欠な決定論的な推論速度が実現されます。
- MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニングにおける革新(特にMoonshot AIのKimi K2)に着想を得て、YOLO26はMuSGDオプティマイザーを採用しています。SGD ハイブリッドであるこの手法は、コンピュータビジョン訓練に前例のない安定性をもたらし、より少ないエポックでモデルを迅速に収束させます。
- エッジファースト効率性:ディストリビューション焦点損失(DFL)を除去することで、YOLO26はエクスポート用モデルグラフを簡素化します。これにより、前世代と比較して最大43%CPU を実現し、GPUを搭載しないラズベリーパイやスマートフォンなどのデバイスにおいて最適な選択肢となります。
- ProgLoss + STAL:プログラマブルロス(ProgLoss)とソフトターゲットアンカーラベリング(STAL)の統合により、小型物体検出において大幅な性能向上が実現される。YOLO軽量モデルにとって従来からの弱点であった領域である。
Ultralyticsによる効率化されたワークフロー
研究リポジトリから本番環境への移行は、断片化されたコードベースが原因でしばしば困難を伴います。Ultralytics 統一されたインターフェースを提供することでこの課題を解決します。YOLO26モデルのトレーニング、track 、ONNXやPyTorchなどの形式へのデプロイが可能です。 ONNXCoreML といった形式へのデプロイCoreML ワンクリックCoreML 実行可能であり、YOLOで必要とされる手動のエクスポートスクリプトとは対照的です。
ユーザビリティとエコシステム
モデルのアーキテクチャは物語の半分に過ぎない。エコシステムこそが、それをいかに容易に実装できるかを決定する。
YOLO主に研究用リポジトリです。コードはオープンソースですが、大規模なPython への容易な統合を可能にする標準化されたAPIが不足しています。ユーザーはデータローダー、設定ファイル、エクスポートスクリプトを手動で処理する必要が生じることがよくあります。
YOLOv7 より優れたドキュメントでこれを改良したが、依然として従来のスクリプトベースのワークフローに依存している(train.py, detect.py)。
Ultralytics モデルは使いやすさを最優先します。ライブラリはモデルをオブジェクトとして扱うPythonic APIを提供します。これにより既存のソフトウェアスタックへのシームレスな統合が可能となります。
from ultralytics import YOLO
# Load the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100)
# Run inference with NMS-free speed
# No post-processing steps required by the user
results = model("https://ultralytics.com/images/bus.jpg")
さらに、Ultralytics 汎用性で知られています。YOLO 純粋な物体検出器YOLO に対し、Ultralytics は画像分類、インスタンスセグメンテーション、姿勢推定、および方向付き境界ボックス(OBB)検出をサポートします。これにより、単一のチームが単一の、よくメンテナンスされたライブラリを使用して多様なコンピュータビジョンタスクを処理することが可能になります。
トレーニング効率とリソース
現代の視覚モデルを訓練するには、リソースを大量に消費する可能性があります。 YOLOv7 は「bag-of-freebies」手法で知られており、モデルが非常に効率的に学習することを示唆していますが、トレーニングプロセスはVRAMを大量に消費する可能性があります。YOLO知識蒸留に依存していることは、トレーニング中に実質的に2つのモデル(教師モデルと生徒モデル)を実行する必要があることを意味し、これによりメモリオーバーヘッドとトレーニングパイプラインの複雑さが増大します。
Ultralytics 、CUDA 削減するアーキテクチャ最適化によりメモリ要件に対応します。これにより、開発者はコンシューマー向けGPUでより大きなバッチサイズを利用可能となります。さらに、DFLなどの複雑なコンポーネントの削除とMuSGDオプティマイザの導入により、トレーニングの安定性だけでなく計算効率も確保されています。
結論
YOLO YOLOv7 YOLO いずれも人工知能分野における画期的なYOLOv7 。YOLOv7 手作業による最適化で精度の限界をYOLOv7 、YOLO 低遅延アプリケーションにおける自動アーキテクチャ探索の威力をYOLO 。
しかし、2026年に堅牢で将来性のあるソリューションを求める開発者にとって、Ultralytics 明確な推奨選択肢です。YOLO 精度という伝統を、NMS検出やLLMに着想を得た最適化器といった現代的な革新技術と融合しています。Ultralytics 充実したドキュメントと活発なコミュニティに支えられたYOLO26は、性能、使いやすさ、導入の柔軟性の完璧なバランスを提供します。
YOLO
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織:Alibaba Group
- 日付: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
YOLOv7
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織: 台湾、中央研究院 情報科学研究所
- 日付: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7