YOLOv5 YOLOv7:エコシステムとアーキテクチャのバランス
適切な物体検出モデルを選択することは、開発者にとっても研究者にとっても重要な決断である。YOLO Only Look Once)ファミリーの進化形、 YOLOv5と YOLOv7は、コンピュータ・ビジョンの展望を形作った極めて重要なアーキテクチャとして際立っている。YOLOv7 精度のための重要なアーキテクチャの革新を導入した一方で、Ultralytics YOLOv5 、使いやすさ、デプロイメント、および堅牢なエコシステムに焦点を当て、開発者のエクスペリエンスに革命をもたらしました。
このガイドでは、これら2つのモデルの詳細な技術的比較を行い、アーキテクチャ、COCO データセットでの性能指標、実世界のアプリケーションへの適合性を分析する。
Ultralytics YOLOv5:エンジニアリング・スタンダード
2020年に発表されたYOLOv5 5は、オープンソースの物体検出ソフトウェアに対する期待を再定義した。YOLOv5 、主に研究用コードとして存在していた以前のバージョンとは異なり、製品として使用可能なフレームワークとして設計された。YOLOv5は、使いやすさ、エクスポートのしやすさ、スピードを最優先し、リアルタイム推論アプリケーションを構築する企業にとって最適な選択肢となった。
著者Glenn Jocher
組織:Ultralytics
Date:2020-06-26
GitHubyolov5
Docsyolov5
YOLOv55の主な利点
- ユーザー中心の設計: YOLOv5 、合理化されたAPIとシームレスなトレーニングワークフローを導入し、カスタムオブジェクト検出モデルのトレーニングへの参入障壁を下げました。
- 展開の柔軟性: エクスポート・モードのネイティブ・サポートにより、YOLOv5 モデルは以下のようなフォーマットに簡単に変換できる。 ONNXCoreML、TFLite、および TensorRTなどの形式に簡単に変換できます。
- 効率的なリソース使用:このアーキテクチャはメモリ消費量が少ないように最適化されているため、NVIDIA JetsonやRaspberry PiのようなエッジAIデバイスに最適です。
エコシステム・サポート
YOLOv5 5は、包括的なUltralytics エコシステムによって支えられています。これには、以下のような実験追跡ツールとのシームレスな統合が含まれます。 CometやMLflow、データセット管理プラットフォームとのシームレスな統合が含まれます。
YOLOv7:「おまけ袋」アプローチ
2022年にリリースされたYOLOv7 、アーキテクチャの最適化を通じて精度の限界を押し広げることに重点を置いた。著者らは、推論コストを増加させることなく特徴学習を改善することを目的としたいくつかの新しいコンセプトを導入した。"trainable bag-of-freebies "と彼らは呼んでいる。
Authors: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organization: Institute of Information Science, Academia Sinica, Taiwan
Date: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docs:https://docs.ultralytics.com/models/yolov7/
建築イノベーション
YOLOv7 、ネットワークの学習能力を高めるために、拡張効率的レイヤ集約ネットワーク(E-ELAN)を組み込んでいる。また、アーキテクチャの深さと幅を同時に変更するモデル・スケーリング技術を利用している。mAP スコアの向上には効果的ですが、このような複雑なアーキテクチャー変更は、YOLOv5 に見られるような、より単純な CSP-Darknet バックボーンと比較して、モデルの修正や展開を困難にする場合があります。
技術性能の比較
2つのモデルを比較する場合、通常、生の精度と実用的な展開速度の間でトレードオフがある。YOLOv7 モデル(特に大型モデル)は、COCO val2017 データセットで一般的に高いmAP 達成しています。しかし、Ultralytics YOLOv5 5は、推論速度とパラメータ効率、特にモバイル展開に重要な小型モデル(NanoとSmall)で優位性を維持しています。
下の表は、パフォーマンス指標をハイライトしたものです。YOLOv5nの卓越したスピードにご注目ください。これは、リソースが極端に制限された環境向けの最速オプションの1つであり続けています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
メトリクスの分析
- 速度対精度:YOLOv7xは53.1%という高い mAP達成しており、すべてのピクセルが重要なハイエンドのセキュリティや医療分析に適している。しかし、ビデオ解析や自律航法などのアプリケーションでは、TensorRT 上のYOLOv5nの1.12msの推論時間は、より重いモデルでは対応できないフレームレート能力を提供します。
- トレーニングの効率性: Ultralytics YOLOv5 5は、「AutoAnchor」ストラテジーと高度なハイパーパラメータ進化を利用しており、YOLOv7必要とする複雑な再パラメータ化スキームと比較して、トレーニング中の収束が速くなります。
- メモリフットプリント:トランスフォーマーやYOLOv7 ような複雑なアーキテクチャーのトレーニングには、多くの場合ハイエンドGPU(A100など)が必要です。対照的に、YOLOv55の効率的な設計は、コンシューマーグレードのハードウェアでのトレーニングを可能にし、AI開発へのアクセスを民主化します。
コードの実装
Ultralytics YOLOv5 5の最も強力な主張の一つは、そのPython APIのシンプルさである。事前に訓練されたモデルをロードし、推論を実行するのに必要なコードはわずか数行であり、フレームワークが成熟していることの証である。
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Define an image (url, local path, or numpy array)
img = "https://ultralytics.com/images/zidane.jpg"
# Run inference
results = model(img)
# Print results and show the image with bounding boxes
results.print()
results.show()
この抽象化レベルにより、開発者はモデル・アーキテクチャのデバッグよりも、ビジネス・ソリューションの構築に集中することができる。
理想的なユースケース
YOLOv7選ぶとき
YOLOv7 、学術研究や、ハードウェアの制約が生の検出性能の二の次となるようなシナリオに最適な選択肢である。
- 学術研究: 最先端のdetect技術のベンチマーク用。
- 高精度検査: 製造品質管理など、微細な欠陥の検出が重要で、待ち時間があまり気にならない場合。
Ultralytics YOLOv5選ぶとき
YOLOv5 5は、迅速な開発と生産展開のための業界標準です。
- エッジデプロイメント: TFLite またはCoreML エクスポートにより、iOS Androidデバイス上で動作させるのに最適です。
- ロボット工学: 自律型ロボット工学で必要とされるフィードバックループには、その低レイテンシーが欠かせない。
- 汎用性:検出だけでなく、YOLOv5 リポジトリはインスタンスのセグメンテーションと 画像の分類をサポートし、複数のビジョンタスクのための統一されたコードベースを提供します。
結論現代の進むべき道
YOLOv7 アーキテクチャー・チューニングの威力を示した一方で、 Ultralytics YOLOv5は、信頼性が高く、十分に文書化され、導入が容易なソリューションを必要とする開発者にとって、優れた選択肢であり続けています。そのスピード、精度、エコシステムのサポートのバランスは、世界中のプロダクション環境において適切であり続けることを保証します。
しかし、コンピュータビジョンの分野は急速に進歩している。絶対的なパフォーマンスを求める人たちへ、 YOLO11は、Ultralytics最新の進化形です。YOLO11 、YOLOv5 5の使いやすさをベースに、最先端のトランス・ベースのモジュールとアンカー・フリー設計を取り入れ、精度と効率においてYOLOv5 YOLOv7 両方を凌駕しています。
物体検出、姿勢推定、OBB(Oriented Bounding Boxes)をサポートする将来性のあるソリューションとしては、Ultralytics YOLO11 フレームワークへの移行を強くお勧めします。
その他の比較を見る
他のモデルとUltralytics YOLO ファミリーの比較をご覧ください: