YOLO11 vs YOLOv9:オブジェクト検出の技術比較
Ultralyticsは、常に最先端のYOLOモデルを提供し、リアルタイム物体検出の限界を押し広げています。このページでは、Ultralytics YOLO11とYOLOv9という2つの高度なモデル間の技術的な比較を提供します。アーキテクチャの革新、パフォーマンスのベンチマーク、およびお客様のコンピュータビジョンタスクに最適なモデルを選択するための適切なアプリケーションを分析します。
Ultralytics YOLO11:最先端
Ultralytics YOLO11は、Ultralytics YOLOシリーズの最新イテレーションであり、YOLOv8のような以前の成功を基に構築されています。YOLO11は、物体検出、インスタンスセグメンテーション、画像分類、姿勢推定など、さまざまなコンピュータビジョンタスクにおいて、精度と効率が向上するように設計されています。
技術詳細:
- 著者: Glenn Jocher、Jing Qiu
- 組織: Ultralytics
- 日付: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- ドキュメント: https://docs.ultralytics.com/models/yolo11/
アーキテクチャと主な機能
YOLO11は、改善された特徴抽出とより高速な処理のために設計されたアーキテクチャを特徴としています。多くの場合、前モデルよりも少ないパラメータでより高い精度を達成し、リアルタイムパフォーマンスを向上させ、NVIDIA JetsonやRaspberry Piのようなエッジデバイスからクラウドインフラストラクチャまで、多様なプラットフォームへの展開を可能にします。YOLO11の主な利点は、適切にメンテナンスされたUltralyticsエコシステムへのシームレスな統合であり、シンプルなPython APIと広範なドキュメントを通じて、効率化されたユーザーエクスペリエンスを提供します。このエコシステムは、すぐに利用できる事前トレーニング済みの重みによる効率的なトレーニングを保証し、GitHubやDiscordを介した活発な開発、強力なコミュニティサポート、および頻繁なアップデートから恩恵を受けます。さらに、YOLO11は、検出以外の複数のビジョンタスクをサポートすることにより、汎用性を発揮します。これは、競合モデルではしばしば欠けている機能です。また、他のモデルタイプ(トランスフォーマーなど)と比較して、トレーニングおよび推論中のメモリ消費量が通常少なくなります。
長所
- パフォーマンスバランス: 速度と精度の間で優れたトレードオフを実現します。
- 使いやすさ: シンプルなAPI、包括的なドキュメント、および統合されたエコシステム(Ultralytics HUB)。
- 多様性: 検出、セグメンテーション、分類、ポーズ、OBBタスクをサポートします。
- 効率性: さまざまなハードウェア向けに最適化され、効率的なトレーニング、およびより低いメモリフットプリントを実現します。
- 適切に管理: 活発な開発、強力なコミュニティサポート、頻繁なアップデート。
弱点
- シングルステージ検出器として、一部のツーステージ検出器と比較して、極めて小さいオブジェクトに対して課題が生じる可能性があります。
- より大型のモデルは、より多くの計算リソースを必要としますが、一般的にTransformerベースのモデルよりは少なくなります。
理想的なユースケース
YOLO11は、高い精度とリアルタイム処理が要求されるアプリケーションに最適です。
- スマートシティ: 交通管理およびセキュリティシステム向け。
- 医療:診断支援のための医療画像解析。
- 製造: 自動化された生産ラインでの品質管理。
- 農業: 精密農業のための作物の健康状態の監視。
YOLOv9:斬新なコンセプトによる精度向上
2024年初頭に発表されたYOLOv9は、深層ニューラルネットワークにおける情報損失の克服に焦点を当てた、オブジェクト検出に対する重要な学術的貢献です。
技術詳細:
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織: 台湾 Academia Sinica 情報科学研究所
- Date: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Docs: https://docs.ultralytics.com/models/yolov9/
アーキテクチャと主な機能
YOLOv9では、Programmable Gradient Information (PGI)とGeneralized Efficient Layer Aggregation Network (GELAN)という2つの主要なアーキテクチャ革新が導入されています。PGIは、損失関数の計算に完全な入力情報を提供し、それによって、深いネットワークの性能を低下させる可能性のある情報ボトルネック問題を軽減するように設計されています。GELANは、パラメータの使用率と計算効率を最適化する、斬新で非常に効率的なネットワークアーキテクチャです。これらの機能により、YOLOv9はCOCOデータセットで新たな精度ベンチマークを確立できます。
長所
- 精度の向上: リアルタイムオブジェクト検出器において、COCOデータセットで新たな最先端の結果を確立し、多くの既存モデルをmAPで上回ります。
- 効率の向上: GELANとPGIは、以前のモデルと比較して同等またはより優れたパフォーマンスのために、より少ないパラメータと計算リソース(FLOP)を必要とするモデルに貢献します。
- 情報保持: PGIは、情報のボトルネックの問題に効果的に対処し、より深く、より複雑なネットワークを正確にトレーニングするために不可欠です。
弱点
- 学習リソース: YOLOv9のドキュメントに記載されているように、YOLOv9モデルの学習は、Ultralytics YOLOv5と比較して、より多くのリソースを消費し、時間がかかる場合があります。
- Newer Architecture: 異なる研究グループによるより新しいモデルであるため、そのエコシステム、コミュニティサポート、およびサードパーティの統合は、確立されたUltralyticsのエコシステムよりも成熟度が低いです。
- タスクの汎用性: 主に物体検出に重点を置いており、YOLO11やYOLOv8のようなUltralyticsモデルにあるセグメンテーション、分類、姿勢推定に対する組み込みサポートがありません。
理想的なユースケース
YOLOv9は、可能な限り最高のオブジェクト検出精度を達成することが主な目標となるアプリケーションに適しています。
- 高度なビデオ分析:複雑なシーンでの高精度な追跡と分析。
- 高精度産業検査: 製造業における微細な欠陥の検出。
- 研究とベンチマーク: 標準的なデータセットで検出精度を限界まで高めます。
性能の直接対決:YOLO11 vs. YOLOv9
YOLO11とYOLOv9はいずれも、さまざまなモデルサイズを提供しており、開発者は特定のニーズに合わせて速度と精度の適切なバランスを見つけることができます。次の表は、COCOデータセットでのパフォーマンス指標を直接比較したものです。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
データから、YOLO11モデルがパフォーマンスの優れたバランスを提供していることがわかります。たとえば、YOLO11sは、YOLOv9sよりも少ないFLOPsでより高いmAPを達成しています。同様に、YOLO11lは、YOLOv9cよりも高い精度で、FLOPsが大幅に少なく、GPU推論速度が高速です。最大のYOLOv9-Eモデルは最高のmAPを達成していますが、YOLO11は、特にUltralyticsフレームワークによって提供される包括的な速度ベンチマークと容易なデプロイメントを考慮すると、モデル範囲全体でより実用的なトレードオフを提供します。
アーキテクチャとエコシステムの相違点
根本的な違いは、設計思想にあります。Ultralytics YOLO11は、実務者のために構築されています。そのアーキテクチャは、パフォーマンスだけでなく、使いやすさ、汎用性、および統合のために最適化されています。統合されたフレームワークは、複数のタスクをすぐにサポートしているため、複雑なAIシステムの開発時間を大幅に短縮できます。Ultralytics HUB、広範なドキュメント、および活発なコミュニティを含む周辺のエコシステムにより、本番環境に対応できるアプリケーションを構築およびデプロイするための最適な選択肢となっています。
一方、YOLOv9は、画期的な学術的概念を導入する研究中心のモデルです。その強みは、情報損失などの深層学習の課題を解決するための斬新なアプローチにあります。強力ではありますが、この焦点は、Ultralyticsモデルを定義する全体的で開発者フレンドリーなエコシステムがないことを意味します。YOLOv9をマルチタスクパイプラインに統合したり、多様なハードウェアに展開したりするには、より多くの手作業と専門知識が必要になる場合があります。
結論: どのモデルを選ぶべきか?
圧倒的多数の開発者、研究者、および企業にとって、Ultralytics YOLO11が推奨される選択肢です。高性能、速度、汎用性、および比類のない使いやすさの優れた組み合わせを提供します。堅牢なエコシステムとアクティブなメンテナンスにより、コンセプトから生産まで迅速かつ効率的に移行できます。単一のフレームワーク内で検出、セグメンテーション、分類などを処理できる機能により、強力で将来性のあるソリューションとなっています。
YOLOv9は、ベンチマークで絶対的な最大検出精度を達成することを主な目標とし、統合されたエコシステムの外部でのトレーニングと展開の追加の複雑さに対応する用意があるスペシャリストや研究者にとって、優れたモデルです。
その他のモデルを見る
オブジェクト検出の世界は常に進化しています。YOLO11 と YOLOv9 に加えて、Ultralytics エコシステム内で利用可能な他の強力なモデルにも興味があるかもしれません。YOLOv10、前身のYOLOv8、およびトランスフォーマーベースのRT-DETRの比較をチェックして、プロジェクトに最適なものを見つけてください。