モデルの比較:物体検出におけるYOLOv7 YOLOv8 比較
急速に進化するコンピュータ・ビジョンの中で、"You Only Look Once"YOLO)モデルファミリーは、一貫してリアルタイムの物体検出の基準を設定してきました。この系譜における2つの重要なマイルストーンは、YOLOv7 Ultralytics YOLOv8です。両モデルともリリース時に精度とスピードの限界を押し上げましたが、設計哲学とエコシステムの成熟度は異なります。
このガイドでは、開発者や研究者が、学術研究から生産グレードの導入まで、特定のニーズに適したツールを選択するのに役立つ詳細な技術比較を提供します。
パフォーマンス指標の比較
次の表は、主要なYOLOv7 モデルとYOLOv8 モデルの性能指標を直接比較したものです。YOLOv8 、特にエッジAIアプリケーションに重要な、より小さなモデルのバリエーションにおいて、推論速度の大幅な優位性と有利なパラメータ数を示しています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
YOLOv7:「福袋」進化論
2022年7月にリリースされたYOLOv7 、主にYOLOv4とYOLORの作者によって開発された。YOLOv7は、推論コストを増加させることなく学習プロセスを最適化することを目的とした、いくつかのアーキテクチャ上の革新を導入している。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織: Institute of Information Science, Academia Sinica, Taiwan
- Date: 2022-07-06
- リンク:Arxiv論文|GitHubリポジトリ
主な建築上の特徴
YOLOv7 、拡張効率的レイヤ集約ネットワーク(E-ELAN)を導入した。このアーキテクチャは、ネットワークがより多様な特徴を学習できるように、最短および最長の勾配パスを制御する。さらに、アーキテクチャの深さと幅を同時に変更するモデル・スケーリング技術を利用し、異なるサイズにわたって最適な性能を確保した。
YOLOv7 、発売時のベンチマークは印象的であったにもかかわらず、主にオブジェクト検出に重点を置いており、新しいフレームワークと比較して、他のタスクの統合サポートが少ない。
Ultralytics YOLOv8:統一されたフレームワークとモダンなアーキテクチャ
Ultralytics社によって2023年初頭に発表されたYOLOv8 、YOLO アーキテクチャの大幅な見直しを意味する。単なるモデルとしてではなく、検出、インスタンス分割、ポーズ推定、分類をシームレスに実行できる統合フレームワークとして設計された。
- 著者: Glenn Jocher、Ayush Chaurasia、Jing Qiu
- 組織: Ultralytics
- Date: 2023-01-10
- リンク:Ultralytics ドキュメント|GitHubリポジトリ
建築イノベーション
YOLOv8 、以前のバージョン(YOLOv7含む)で使われていたアンカーベースの検出から、アンカーフリーの検出メカニズムに移行した。この変更により、アンカーボックスを計算する必要がなくなり、学習プロセスが簡素化され、物体の形状やサイズのばらつきに対してよりロバストなモデルになりました。
バックボーンはC2fモジュール(Cross-Stage Partial Bottleneck with two convolutions)にアップグレードされた。 YOLOv5.この変更により、勾配フローが改善され、より豊富な特徴情報を取り込みながらモデルを軽量に保つことができる。
詳細な技術比較
アンカーベースとアンカーフリー
最も決定的な違いのひとつは、検出ヘッドだ。YOLOv7 、アンカーボックス(モデルがオブジェクトにマッチさせようとする、あらかじめ定義された形状)に依存している。効果的ではあるが、これにはカスタムデータセット用にハイパーパラメーターをチューニングする必要がある。
対照的に、YOLOv8 アンカーフリーのアプローチを利用し、オブジェクトの中心を直接予測します。これにより、ボックスの予測数を減らし、非最大抑制NMS)を高速化し、手動でアンカーを設定することなく、多様なデータでモデルを簡単にトレーニングすることができます。
トレーニング効率とメモリ使用量
Ultralytics モデルは、そのエンジニアリング効率の高さで有名です。YOLOv8 、トレーニングの最終エポックではモザイク拡張を無効にするスマートなデータ拡張戦略を利用している。このテクニックはトレーニングの損失を安定させ、精度を向上させます。
メモリ効率
トランスフォーマー(例:RT-DETR)のような複雑なアーキテクチャーに比べ、Ultralytics YOLOv8 8の大きな利点がある、 RT-DETRなど)のような複雑なアーキテクチャーと比較した場合の大きな利点は、必要なCUDA メモリが少ないことです。これにより、ユーザーはコンシューマーグレードのGPUでより大きなバッチサイズをトレーニングすることができ、最先端のモデルトレーニングへのアクセスを民主化することができます。
エコシステムと使いやすさ
YOLOv7 強力なリサーチリポジトリですが、Ultralytics YOLOv8 洗練された製品体験を提供します。Ultralytics エコシステムは以下を提供します:
- 合理化されたAPI:すべてのタスクに一貫したPython インターフェイス。
- デプロイメント: エクスポートモードにより、ONNX、TensorRT、CoreML、TFLite フォーマットにワンクリックでエクスポート。
- コミュニティサポート:活発なDiscordコミュニティと、最新のPyTorch バージョンとの互換性を保証する頻繁なアップデート。
コード比較
推論を実行するために必要なコードを比較すると、ユーザビリティのギャップは明らかである。Ultralytics ローコードアプローチを優先し、開発者が最小限のオーバーヘッドでビジョンAIをアプリケーションに統合できるようにしている。
Python YOLOv8 動かす
from ultralytics import YOLO
# Load a pre-trained YOLOv8 model
model = YOLO("yolov8n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
for result in results:
result.show()
CLI 実装
YOLOv8 コマンドラインから直接実行することもでき、パイプラインの統合や迅速なテストを簡素化する機能である。
# Detect objects in an image using the nano model
yolo predict model=yolov8n.pt source='https://ultralytics.com/images/zidane.jpg' imgsz=640
理想的なユースケース
YOLOv7使用時期
YOLOv7 、2022/2023年標準に対するベンチマークを行う研究者や、ダークネット・スタイルのアーキテクチャを中心に構築されたレガシー・システムを維持する研究者にとって、依然として実行可能な選択肢である。その "bag-of-freebies "アプローチは、ニューラルネットワークの最適化戦略を研究する研究者に興味深い洞察を提供する。
YOLOv8使用時期
YOLOv8 、以下のような新規プロジェクトの大半に推奨されている:
- リアルタイム・アプリケーション: YOLOv8n (nano)モデルは、驚異的なスピード(CPU約80ms)を提供し、モバイルアプリケーションや組み込みシステムに最適です。
- マルチタスクパイプライン:検出と同時にポーズ推定や セグメンテーションを必要とするプロジェクトは、単一のAPIを使用できます。
- 商用展開:堅牢なエクスポート互換性により、PyTorch 学習されたモデルは、TensorRT OpenVINO使用した本番環境へ効率的にデプロイできます。
結論
YOLOv7 学習可能なパラメータを最適化することで、コンピュータ・ビジョンの分野に大きく貢献した、 Ultralytics YOLOv8は、実用的なAI開発のための現代的な標準となっている。
スピードと精度のバランスに優れたYOLOv8、アンカーフリーの設計と広範なUltralytics サポート・エコシステムと相まって、初心者にはより身近に、エキスパートにはより強力になりました。拡張性、保守性、高性能のビジョン・アプリケーションの構築を目指す開発者にとって、YOLOv8その後継機である YOLO11-は、最も魅力的な道筋を提供します。
参考資料
物体検出の最新の進歩に興味のある方は、これらの関連モデルのレビューをご検討ください:
- YOLO11: Ultralytics最新版で、アーキテクチャを改良し、効率をさらに向上させた。
- YOLOv6:産業用途に特化したもうひとつのアンカーなしモデル。
- YOLOv9:ディープネットワークのトレーニングのためのProgrammable Gradient Information (PGI)にフォーカス。