YOLOv7 YOLO11比較:リアルタイム・レガシーから最先端の効率性へ
コンピュータビジョンモデルの展望をナビゲートするには、確立されたアーキテクチャと最新の最先端(SOTA)イノベーションの間のニュアンスを理解することが必要です。このガイドでは、YOLO シリーズの重要なマイルストーンであるYOLOv7、YOLO 7の包括的な技術比較を提供します。 Ultralytics YOLO11このガイドでは、YOLOシリーズの重要なマイルストーンであるYOLOv7と、優れたパフォーマンスと多用途性を目指して設計された最先端モデルであるUltralytics YOLO11の包括的な技術比較を行います。
オブジェクト検出から複雑なインスタンスのセグメンテーションまで、開発者や研究者が最適なツールを選択できるよう、アーキテクチャの違い、ベンチマーク指標、実用的なアプリケーションを探ります。
YOLOv7:効率的なアーキテクチャのベンチマーク
2022年7月にリリースされたYOLOv7 、トレーニング効率と推論スピードのバランスにおいて大きな飛躍を遂げた。YOLOv7は、精度を犠牲にすることなくパラメータ数を削減するアーキテクチャの最適化に重点を置くことで、これまでの検出器を上回る性能を発揮するように設計されている。
著者Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organization:Institute of Information Science, Academia Sinica, Taiwan
Date:2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
建築ハイライト
YOLOv7 、E-ELAN(Extended Efficient Layer Aggregation Network)が導入された。このアーキテクチャは、最短および最長の勾配経路を制御することで、モデルがより多様な特徴を学習することを可能にし、学習中の収束性を高める。さらに、モデルの再パラメータ化や動的ラベル割り当てなどの最適化戦略のセットである「訓練可能なbag-of-freebies」を利用し、推論コストを増加させることなく精度を向上させた。
主に物体検出モデルであるが、オープンソースコミュニティでは、YOLOv7 ポーズ推定用に拡張することが検討されている。しかし、これらの実装は、統一されたフレームワークに見られるようなシームレスな統合を欠いていることが多い。
強みと限界
YOLOv7 その点で高く評価されている:
- 確かな性能:リリースと同時にリアルタイム検出器の新たなベースラインを確立し、COCO データセットで好成績を収めた。
- アーキテクチャーの革新:E-ELANの導入は、その後のネットワーク設計の研究に影響を与えた。
しかし、現代のワークフローでは課題に直面している:
- 複雑さ:トレーニング・パイプラインは複雑で、最新の標準と比較すると、かなりの手動設定を必要とする。
- 限られた汎用性: 分類や オリエンテッドバウンディングボックス(OBB)のようなタスクをネイティブにサポートしていない。
- リソースの使用:YOLOv7xのような大きなバリエーションをトレーニングするには、かなりの GPUメモリが必要となり、ハードウェアに制限のある研究者にとってはボトルネックとなる可能性があります。
Ultralytics YOLO11:スピード、精度、使いやすさを再定義
Ultralytics YOLO11は、定評あるYOLO 系譜を受け継ぐ最新の進化形であり、幅広いコンピュータビジョンタスクでSOTA性能を発揮するように設計されています。YOLO11 、継続的な改良の遺産に基づき、実世界への導入効率を最大化する洗練されたアーキテクチャを提供します。
著者Glenn Jocher、Jing Qiu
組織:Ultralytics
日付:2024-09-27
GitHubultralytics
Docsyolo11
高度なアーキテクチャと多用途性
YOLO11 、様々なスケールの特徴をより効果的に捉えるために、C3k2ブロックと強化されたSPPFモジュールを利用した最新のバックボーンを採用している。この設計により、従来モデルや競合モデルと比較して、精度が高いだけでなく、パラメータやFLOP数も大幅に軽量化されています。
YOLO11 特徴は、ネイティブ・マルチタスク・サポートである。ひとつのフレームワークの中で、ユーザーは次のことができる:
- 検出:バウンディングボックスでオブジェクトを識別する。
- セグメンテーション:正確な形状解析のためのピクセルレベルのマスキング。
- 分類:画像全体にクラスラベルを割り当てる。
- 姿勢推定:人体のキーポイントを検出する。
- OBB:空撮画像で重要な、回転した物体の検出。
統一エコシステム
Ultralytics YOLO11 、データセット管理、コードなしトレーニング、ワンクリック導入のためのプラットフォームであるUltralytics HUBとシームレスに統合されています。この統合により、MLOpsのライフサイクルが大幅に加速します。
開発者がYOLO11選ぶ理由
- 使いやすさ:ユーザー中心の設計により、YOLO11 わずか数行のPython コードまたはシンプルな CLI.
- 整備されたエコシステム:活発なコミュニティとUltralytics チームに支えられ、モデルは頻繁に更新され、最新の PyTorchバージョンとハードウェアアクセラレータとの互換性を保証します。
- パフォーマンス・バランス: 推論速度と 平均平均精度(mAP)の優れたトレードオフを実現し、エッジデバイスとクラウドサーバーの両方に最適です。
- メモリ効率: YOLO11 モデルは通常、旧アーキテクチャやトランスフォーマベースのモデルと比較して、トレーニング時に必要なCUDA メモリが少ないため、より大きなバッチサイズや控えめなハードウェアでのトレーニングが可能です。
パフォーマンス比較:技術ベンチマーク
次の表は、YOLOv7 YOLO11性能の違いを示している。このデータは、最新の最適化により、YOLO11 いかに優れた精度をわずかな計算コストで達成できるかを浮き彫りにしている。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
分析する:
- 効率:YOLO11mは、YOLOv7lの精度(51.5対51.4mAP)に匹敵する一方で、使用するパラメータはほぼ半分(20.1M対36.9M)であり、FLOP数も大幅に少ない。
- スピード:リアルタイム・アプリケーションでは、YOLO11nは劇的に速く、T4GPU1.5msを記録し、高FPSビデオ処理に最適です。
- 精度:最大のモデルであるYOLO11xは、YOLOv7xを上回る精度(54.7対53.1mAP)を示しながら、依然として競争力のあるパラメータ数を維持している。
実際のユースケース
農業と環境モニタリング
精密農業では、作物の病気を検出したり、成長を監視したりするには、ドローンやフィールドセンサーなど、電力が限られたデバイスで動作するモデルが必要だ。
- YOLO11:その軽量アーキテクチャ(特にYOLO11n/s)は、Raspberry Piや NVIDIA Jetsonデバイスへの展開を可能にし、リアルタイムでの作物の健康状態のモニタリングを可能にする。
- YOLOv7:精度は高いが、計算負荷が高いため、バッテリー駆動のエッジデバイスでの実用性は制限される。
スマート製造と品質管理
自動外観検査システムは、製造ラインの微細な欠陥をdetect するために高い精度が要求される。
- YOLO11:ここでは、セグメンテーションと OBBを実行するモデルの能力が重要である。例えば、OBBは、ベルトコンベア上の回転した部品を検出するために不可欠であり、この機能はYOLO11 ネイティブでサポートされているが、YOLOv7カスタム実装が必要である。
- YOLOv7:標準的なバウンディングボックスの検出には適しているが、複雑な幾何学的欠陥には、大きな変更を加えなければ適応できない。
監視とセキュリティ
セキュリティシステムは、複数のビデオストリームを同時に処理することが多い。
- YOLO11: 推論速度が速いため、1台のサーバーでより多くのストリームを並列処理でき、インフラコストを削減できる。
- YOLOv7:効果的だが、1フレームあたりのレイテンシーが高いため、1台で扱えるチャンネルの総数が減る。
実施とトレーニングの効率化
Ultralytics エコシステムの際立った特徴の1つは、合理化された開発者エクスペリエンスです。以下は、開始方法の比較です。
コードにおけるシンプルさ
Ultralytics YOLO11 11は、複雑な定型コードを抽象化し、「バッテリー込み」で設計されている。
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
対照的に、古いリポジトリでは、しばしばリポジトリのクローンを作成し、設定ファイルを手動で調整し、学習と推論のために複雑なシェルスクリプトを実行する必要がある。
輸出の柔軟性
YOLO11 、配備のための様々なフォーマットへのワンクリックでのエクスポートをサポートしています。 ONNX, TensorRTCoreML、TFLiteです。この柔軟性により、あなたのモデルは、どのような環境でも本番に対応することができます。
結論明確な勝者
一方 YOLOv7はコンピュータ・ビジョンの歴史において立派なモデルであることに変わりはない、 Ultralytics YOLO11は未来を象徴している。開発者や研究者にとって、YOLO11 11は魅力的なパッケージです:
- 優れた指標:より高いmAP より速い推論速度。
- 豊富なエコシステム: Ultralytics HUB、広範なドキュメント、コミュニティサポートへのアクセス。
- 汎用性:検出、セグメンテーション、ポーズ、分類、OBBのための単一のフレームワーク。
- 将来への備え:継続的なアップデートとメンテナンスにより、新しいハードウェアやソフトウェアライブラリとの互換性を確保します。
YOLO11の効率性と使いやすさを活用すれば、どのような新しいプロジェクトにも対応できる。 YOLO11の効率性と使いやすさを活用することが、摩擦を最小限に抑えながら最先端の成果を達成するための推奨される道です。
その他のモデルを見る
さらなる比較に興味がある方は、ドキュメントの関連ページをご覧ください: