YOLOv7 YOLOv6.0:包括的な技術比較
コンピュータビジョン分野は絶えず進化を続けており、新たな物体検出モデルが速度と精度の限界を押し広げ続けている。 この進化の過程における二つの重要なマイルストーンYOLOv7 YOLOv6です。両モデルは実世界アプリケーションにおけるスループットと精度を最大化するために設計された独自のアーキテクチャ革新を導入しました。本ページでは両アーキテクチャの詳細な技術分析を提供し、性能・トレーニング手法・最適なユースケースを比較することで、次の人工知能プロジェクトにおける適切な選択を支援します。
YOLOv7:フリービーの袋の先駆者
2022年半ばに発表されたYOLOv7 、推論コストを増加させることなくネットワークアーキテクチャを最適化する複数の革新的な戦略YOLOv7 。リアルタイム性能を維持しつつ精度を向上させるため、学習可能な「フリービーの袋」に重点を置いた。
- 著者:王建耀、アレクセイ・ボチコフスキー、廖宏源マーク
- 組織名:台湾中央研究院情報科学研究所
- 日付: 2022年7月6日
- Arxiv:2207.02696
- GitHub:WongKinYiu/yolov7
- ドキュメント: Ultralytics YOLOv7 ドキュメント
アーキテクチャのハイライト
YOLOv7 拡張効率的層集約ネットワーク(E-ELAN)をYOLOv7 。このアーキテクチャにより、最短最長勾配経路を制御することで、モデルはより多様な特徴を学習できる。YOLOv7 推論時に構造的再パラメータ化技術YOLOv7 、畳み込み層を統合することで、学習された表現を損なうことなく、パラメータ数と計算時間を効果的に削減する。
本モデルは独自の補助ヘッド訓練戦略も特徴としている。最終予測に「リードヘッド」を用い、中間層の訓練を「補助ヘッド」で誘導することで、YOLOv7 収束性の向上と特徴抽出のYOLOv7 、特に困難な物体検出課題に取り組む際に有益である。
YOLOv6.0: 産業グレードのスループット
Meituan Vision AI部門によって開発されたYOLOv6-3.0は、「産業用アプリケーション向けの次世代物体検出器」として明示的に設計されました。2023年初頭にリリースされ、特にNVIDIA GPUでのハードウェア利用率の最大化に重点を置いています。
- 著者:Chuyi Li、Lulu Li、Yifei Geng 他
- 組織:美団(Meituan)
- 日付: 2023-01-13
- Arxiv: 2301.05586
- GitHub:YOLOv6
- ドキュメント: Ultralytics YOLOv6 ドキュメント
アーキテクチャのハイライト
YOLOv6icientRepバックボーンを採用しており、GPU上での並列処理に高度に最適化されています。これにより大規模バッチ処理において非常に効率的です。バージョン3.0ではネック部分に双方向連結(BiC)モジュールを導入し、異なるスケール間での特徴融合を強化。これにより、様々なサイズのdetect モデルの能力が向上しました。
さらに、YOLOv6-3.0はアンカー支援学習 (AAT) 戦略を利用しています。この革新的なアプローチは、アンカーベースの学習の利点とアンカーフリーの推論を組み合わせることで、モデルが学習フェーズ中にアンカーの安定性を享受しつつ、デプロイメント中にアンカーフリー設計の速度とシンプルさを維持することを可能にします。
パフォーマンス比較
モデルを実運用向けに評価する際には、精度(mAP)と推論速度、計算負荷(FLOPs)のバランスが極めて重要である。以下に両モデルの標準的なバリエーションの詳細な比較を示す。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
ハードウェアに関する考慮事項
YOLOv6.0は、高スループットGPU 環境(例えば TensorRT)に非常に適している一方、YOLOv7 特徴量の保持を最優先するシステムにおいて堅牢なバランスYOLOv7 。
Ultralyticsの利点
YOLOv7 YOLOv6.0のスタンドアロンリポジトリは強力ですが、それらを Ultralyticsエコシステム 開発者体験を変革します。 ultralytics Python 、これらの多様なアーキテクチャを直感的な単一フレームワークの下で標準化します。
- 使いやすさ: 複雑なセットアップスクリプトの時代は終わりました。Ultralytics APIを使用すると、最小限のボイラープレートコードでYOLOv7またはYOLOv6モデルをロード、トレーニング、デプロイできます。モデルの重みファイルを変更するだけで、アーキテクチャ間を簡単に切り替えることができます。
- 整備されたエコシステム: Ultralyticsは、頻繁な更新により堅牢な環境を提供し、最新のPyTorchディストリビューションおよびCUDAバージョンとのネイティブな互換性を確保しています。
- 訓練効率: 訓練パイプラインは、GPUリソースを効果的に利用するために深く最適化されています。さらに、Ultralytics YOLOモデルは、重いトランスフォーマーベースのモデル(RT-DETRなど)と比較して、訓練中のメモリ要件が一般的に低く、民生用ハードウェアでより大きなバッチサイズを可能にします。
- 多様性: 標準的なバウンディングボックスdetectに加えて、Ultralyticsフレームワークは、互換性のあるモデルファミリー全体で姿勢推定やインスタンスセグメンテーションのような高度なタスクをシームレスにサポートします。これは、孤立した研究リポジトリではしばしば欠けている機能です。
コード例: トレーニングと推論
これらのモデルPython 統合するのは簡単です。データセットが正しくフォーマットされていることを確認してください(例:標準 COCO)であることを確認し、以下を実行してください:
from ultralytics import YOLO
# Load a pretrained YOLOv7 model (or 'yolov6n.pt' for YOLOv6)
model = YOLO("yolov7.pt")
# Train the model with built-in hyperparameter management
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image URL or local path
predictions = model("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
predictions[0].show()
理想的なユースケース
YOLOv7を選択すべき時
YOLOv7 、高精度と高密度特徴抽出が求められるシナリオにおいてYOLOv7 。
- 複雑な監視:きめ細かな詳細を保持する能力により、混雑したシーンの監視やスマートシティインフラにおける小さな異常のdetectに適しています。
- Academic Benchmarking: その包括的な「bag-of-freebies」設計思想のため、研究において強力なベースラインとしてよく使用されます。
YOLOv6-3.0を選択するタイミング
YOLOv6.YOLOv6、大量処理のGPUパイプラインにおける主力モデルである。
- 産業オートメーション: サーバーグレードのGPUが複数のビデオストリームを同時に処理する、工場ラインや製造欠陥detectに最適です。
- 高スループット分析: フレーム/秒の最大化が主要な目標となるオフラインのビデオアーカイブ処理に優れています。
未来:YOLO26
YOLOv6高い性能を発揮するが、人工知能の急速な革新にはさらなる効率性が求められる。2026年1月にUltralytics 、コンピュータビジョンにおける世代を超えた飛躍を体現し、従来のアーキテクチャの限界を体系的に克服している。
新規プロジェクトを開始する場合、YOLO26は従来世代よりも強く推奨されます。以下のような画期的な機能を導入しています:
- エンドツーエンドのNMSフリー設計: YOLOv10で築かれた基盤に基づいて、YOLO26は非最大抑制(NMS)をネイティブに排除します。これにより、後処理のオーバーヘッドが削減され、モバイルアプリケーションへのデプロイが簡素化され、非常に決定論的で低レイテンシの推論が保証されます。
- MuSGDオプティマイザ: 高度なLLMトレーニング技術(Moonshot AIのKimi K2などで使用されているものなど)に触発され、YOLO26はSGDとMuonを組み合わせたハイブリッドオプティマイザを利用しています。これにより、より安定したトレーニングダイナミクスと劇的に高速な収束が保証されます。
- CPU推論が最大43%高速化: Distribution Focal Loss (DFL)を戦略的に削除することで、YOLO26はCPU上で大幅な高速化を実現します。これにより、Raspberry Piや遠隔地のIoTセンサーのようなエッジ環境において、YOLO26は比類なき性能を発揮します。
- ProgLoss + STAL: 小さな物体認識を改善するために特別に設計された高度な損失関数は、シングルステージ検出器の歴史的な弱点でした。
これらの革新技術を強力なUltralytics Platformと組み合わせることで、YOLO26は現代の機械学習エンジニアに比類のないパフォーマンス、汎用性、デプロイの容易さを提供します。