Link to this sectionYOLOv7 vs YOLOv6-3.0#
コンピュータビジョンの分野は絶えず進化しており、新しい物体検出モデルが継続的に速度と精度の限界を押し広げています。この歩みにおける2つの重要なマイルストーンがYOLOv7とYOLOv6-3.0です。どちらのモデルも、実世界のアプリケーションにおいてスループットと精度を最大化するように設計された独自のアーキテクチャ上のイノベーションを導入しました。このページでは、両方のアーキテクチャの技術的な詳細を分析し、パフォーマンス、学習方法、理想的なユースケースを比較することで、次期人工知能プロジェクトに向けた情報に基づいた意思決定を支援します。
Link to this sectionYOLOv7: Bag-of-Freebies の先駆者#
2022年半ばにリリースされたYOLOv7は、推論コストを増加させることなくネットワークアーキテクチャを最適化するためのいくつかの革新的な戦略を導入しました。リアルタイム性能を維持しながら精度を向上させるために、トレーニング可能な「bag-of-freebies」に重点を置いています。
- 著者: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
- 組織: Institute of Information Science, Academia Sinica, Taiwan
- 日付: 2022-07-06
- Arxiv: 2207.02696
- GitHub: WongKinYiu/yolov7
- Docs: Ultralytics YOLOv7 Documentation
Link to this sectionアーキテクチャのハイライト#
YOLOv7は、Extended Efficient Layer Aggregation Network (E-ELAN) を特徴としています。このアーキテクチャにより、モデルは最短かつ最長の勾配パスを制御することで、より多様な特徴を学習できます。さらに、YOLOv7は推論中に構造的な再パラメータ化技術を利用して畳み込み層を統合し、学習済みの表現を犠牲にすることなく、パラメータ数と計算時間を効果的に削減します。
このモデルは、独自のアクジュリアリーヘッド(補助ヘッド)学習戦略も備えています。最終予測には「リードヘッド」、中間層の学習を誘導するためには「アクジュリアリーヘッド」を使用することで、YOLOv7はより優れた収束とより豊かな特徴抽出を実現しており、特に困難な物体検出タスクに取り組む際に有利です。
Link to this sectionYOLOv6-3.0: 産業グレードのスループット#
Meituan Vision AI Departmentによって開発されたYOLOv6-3.0は、「産業用アプリケーションのための次世代物体検出器」として明示的に設計されました。2023年初頭にリリースされ、特にNVIDIA GPU上でのハードウェア利用率を最大化することに重点を置いています。
- 著者: Chuyi Li, Lulu Li, Yifei Geng 他
- 組織: Meituan
- 日付:2023-01-13
- Arxiv:2301.05586
- GitHub:meituan/YOLOv6
- ドキュメント: Ultralytics YOLOv6 Documentation
Link to this sectionアーキテクチャのハイライト#
YOLOv6-3.0は、GPUでの並列処理に高度に最適化されたEfficientRepバックボーンを採用しています。これにより、大規模なバッチ処理に対して非常に効率的です。バージョン3.0では、ネック部分に双方向連結(Bi-directional Concatenation: BiC)モジュールが導入され、異なるスケール間での特徴融合を強化することで、さまざまなサイズの物体を検出するモデルの能力が向上しました。
さらに、YOLOv6-3.0はAnchor-Aided Training (AAT) 戦略を利用しています。この革新的なアプローチは、アンカーベースの学習とアンカーフリーの推論の利点を組み合わせたもので、学習フェーズではアンカーの安定性を享受しつつ、展開時にはアンカーフリー設計の速度とシンプルさを維持することを可能にしました。
Link to this sectionパフォーマンスの比較#
本番環境向けにモデルを評価する際、精度(mAP)と推論速度および計算オーバーヘッド(FLOPs)のバランスを取ることが重要です。以下に、両モデルの標準的なバリアントの詳細な比較を示します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
YOLOv6-3.0は高スループットのGPU環境(TensorRTなど)に非常に適していますが、YOLOv7は特徴保持が強く優先されるシステムにおいて堅牢なバランスを提供します。
Link to this sectionUltralyticsの利点#
YOLOv7とYOLOv6-3.0のスタンドアロンリポジトリだけでも強力ですが、それらをUltralytics ecosystem内で活用することで、開発者体験が大きく向上します。ultralytics Pythonパッケージは、これらの多様なアーキテクチャを1つの直感的なフレームワークの下で標準化しています。
- 使いやすさ: 複雑なセットアップスクリプトの時代は終わりました。Ultralytics APIを使用すると、最小限の定型コードでYOLOv7またはYOLOv6モデルを読み込み、学習させ、デプロイできます。モデルの重みファイルを変更するだけで、アーキテクチャを簡単に切り替えることが可能です。
- 十分にメンテナンスされたエコシステム: Ultralyticsは頻繁な更新によって堅牢な環境を提供しており、最新のPyTorchディストリビューションおよびCUDAバージョンとのネイティブな互換性を確保しています。
- 学習効率: 学習パイプラインはGPUリソースを効果的に活用するように高度に最適化されています。さらに、Ultralytics YOLOモデルは通常、重量級のTransformerベースのモデル(RT-DETRなど)と比較して学習時のメモリ要件が低く、民生グレードのハードウェアでもより大きなバッチサイズが可能です。
- 汎用性: 標準的なバウンディングボックス検出に加え、Ultralyticsフレームワークは、互換性のあるモデルファミリー全体で姿勢推定やインスタンスセグメンテーションといった高度なタスクをシームレスにサポートしています。これは、独立した研究リポジトリでは欠けていることが多い機能です。
Link to this sectionコード例: 学習と推論#
これらのモデルをPythonパイプラインに統合するのは簡単です。データセットが正しくフォーマットされていること(標準的なCOCOなど)を確認し、以下を実行してください。
from ultralytics import YOLO
# Load a pretrained YOLOv7 model (or 'yolov6n.pt' for YOLOv6)
model = YOLO("yolov7.pt")
# Train the model with built-in hyperparameter management
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image URL or local path
predictions = model("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
predictions[0].show()Link to this section理想的なユースケース#
Link to this sectionYOLOv7を選択すべき時#
YOLOv7は、高い精度と密な特徴抽出を必要とするシナリオで優れています。
- 複雑な監視: 細かな詳細を保持する能力により、混雑したシーンの監視やスマートシティインフラにおける小さな異常の検出に適しています。
- 学術的なベンチマーク: その包括的な「bag-of-freebies」設計哲学により、研究における強力なベースラインとしてよく使用されます。
Link to this sectionYOLOv6-3.0を選択すべき場合#
YOLOv6-3.0は、大容量のGPU加速パイプラインにとっての主力です。
- 産業オートメーション: サーバーグレードのGPUが複数のビデオストリームを同時に処理する工場ラインや製造時の欠陥検出に最適です。
- 高スループット分析: 1秒あたりのフレーム数を最大化することが主目的となる、オフラインのビデオアーカイブの処理に優れています。
Link to this section未来: YOLO26#
YOLOv7とYOLOv6-3.0は非常に高い性能を持っていますが、人工知能の急速な革新には、さらなる効率性が求められます。2026年1月にリリースされたUltralytics YOLO26は、コンピュータビジョンの世代的な飛躍を表しており、古いアーキテクチャの制限を体系的に解決しています。
新しいプロジェクトを開始する場合、以前の世代よりもYOLO26が強く推奨されます。これは、いくつかの画期的な機能を導入しています。
- エンドツーエンドのNMSフリー設計: YOLOv10によって築かれた基盤の上に構築されたYOLO26は、Non-Maximum Suppression (NMS) をネイティブに排除しました。これにより、後処理のオーバーヘッドが削減され、モバイルアプリケーションへのデプロイが簡素化され、極めて決定論的で低遅延な推論が保証されます。
- MuSGDオプティマイザー: 高度なLLM学習技術(Moonshot AIのKimi K2で使用されているものなど)に触発されたYOLO26は、SGDとMuonを組み合わせたハイブリッドオプティマイザーを利用しています。これにより、より安定した学習ダイナミクスと劇的に速い収束が保証されます。
- 最大43%高速なCPU推論: Distribution Focal Loss (DFL) を戦略的に排除することで、YOLO26はCPU上で大幅な高速化を実現しています。これにより、Raspberry PiやリモートIoTセンサーのようなエッジ環境において、比類のない王者となっています。
- ProgLoss + STAL: シングルステージ検出器の歴史的な弱点であった小さな物体の認識を改善するために、特別に設計された高度な損失関数。
これらのイノベーションと強力なUltralytics Platformを組み合わせることで、YOLO26は現代の機械学習エンジニアに対して、比類のないパフォーマンス、汎用性、およびデプロイの容易さを提供します。