YOLOv10 YOLO11:リアルタイム物体検出の最前線を行く
適切なコンピュータビジョンモデルを選択することは、AIプロジェクトの成功にとって極めて重要であり、スピード、精度、導入の容易さのトレードオフのバランスを取る必要があります。このガイドでは YOLOv10と、NMSトレーニングに焦点を当てたアカデミック・リリースである Ultralytics YOLO11エンタープライズ・グレードのパフォーマンスと汎用性を目指して設計された、有名なYOLO シリーズの最新版です。
YOLOv10 待ち時間を短縮するための興味深いアーキテクチャ・コンセプトを導入する一方で、YOLO11 、優れた精度、より広範なタスク・サポート、データ注釈からモデル展開までのワークフローを簡素化する強固なエコシステムによって、最先端技術を洗練させている。
YOLOv10:NMSスペシャリスト
YOLOv10 、Non-Maximum SuppressionNMS)の必要性を排除して推論パイプラインを最適化するという、特定の目標を掲げた学術研究から生まれた。このアプローチは、特定のエッジシナリオにおける低レイテンシーを目標としている。
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織清華大学
- Date: 2024-05-23
- Arxiv:2405.14458
- GitHubTHU-MIG/yolov10
- ドキュメントYOLOv10 ドキュメント
建築とイノベーション
YOLOv10 特徴は、NMSトレーニングのための一貫したデュアル割り当て戦略です。従来のYOLO モデルは、1つのオブジェクトに対して複数のバウンディングボックスを予測することが多く、重複をフィルタリングするためにNMS 後処理が必要でした。YOLOv10 、学習損失を修正し、モデルがオブジェクトごとに単一の最適なボックスを直接出力するよう促します。さらに、全体的な効率と精度を重視したモデル設計を採用し、軽量分類ヘッドを利用してFLOPとパラメータ数を削減します。
長所と短所
長所:
- NMS推論: NMS ステップを削除することで、このモデルは後処理の待ち時間を短縮し、非行列演算のCPU パワーが制限されているハードウェアでは有益である。
- パラメータ効率:アーキテクチャは軽量に設計されており、比較的少ないパラメータで高い精度を達成する。
弱点:
- 限られた汎用性: YOLOv10 、ほぼ物体検出に特化している。インスタンスのセグメンテーションや ポーズ推定のような複雑なタスクをネイティブでサポートしていないため、多面的なAIアプリケーションにおける実用性が制限されている。
- 研究中心のサポート:学術的なプロジェクトであるため、企業がサポートするモデルと同レベルの長期的なメンテナンス、更新頻度、配備ツールとの統合を提供できない可能性がある。
理想的な使用例
YOLOv10 、NMS ステップを削除することが、特定の組み込みハードウェアで厳しいレイテンシバジェットを満たすために重要な、高度に特殊化されたシングルタスクのアプリケーションに最適です。
Ultralytics YOLO11:多用途性とパフォーマンスの頂点
Ultralytics YOLO11は、ビジョンAIの最先端を象徴するもので、YOLOv8の遺産を基に構築されています。 YOLOv8と YOLOv5.単なるモデルとしてではなく、現実世界のAI課題に対する包括的なソリューションとして設計されている。
- 著者: Glenn Jocher、Jing Qiu
- 組織Ultralytics
- 日付: 2024-09-27
- GitHubultralytics
- ドキュメントYOLO11 ドキュメント
建築とエコシステム
YOLO11 、特徴抽出の効率を高めるC3k2とC2PSAモジュールを組み込み、改良されたバックボーンとネック・アーキテクチャにより、アンカーなし検出メカニズムに磨きをかけている。競合他社とは異なり、YOLO11 11はマルチタスク大国である。単一のフレームワークで検出、セグメンテーション、分類、ポーズ推定、OBB(Oriented Bounding Boxes)をサポートし、開発者はAIスタックを統合することができます。
重要なことは、YOLO11 Ultralytics エコシステムによって支えられているということです。これにより、データ管理のためのツールとのシームレスな統合が保証され、以下のようなフォーマットへのモデルのエクスポートが容易になります。 ONNXや TensorRTやTensorRTのようなフォーマットへの容易なモデルエクスポート、そして強固なコミュニティサポートが保証されます。
主な利点
- 優れたパフォーマンスバランス: YOLO11 一貫して高い mAPを達成し、GPU上での実際のスループットでは、NMS代替製品を上回ることがよくあります。
- 比類のない汎用性:スポーツの選手track 、医療画像のsegment 、航空写真における回転した物体のdetect 、YOLO11 11は1つのPython APIですべてを処理します。
- 使いやすさ: Ultralytics インターフェースは、そのシンプルさで知られています。最先端のモデルをトレーニングするのに必要なコードはわずか数行で、高度なAIへのアクセスを民主化します。
- トレーニングの効率化:最適化された学習ルーチンと高品質な事前学習済み重みにより、収束が早くなり、時間と計算リソースを節約できます。
- より低いメモリ要件:以下のようなトランスベースのアーキテクチャと比較して RT-DETRなどのトランスフォーマー型アーキテクチャに比べ、YOLO11 11はトレーニング時のメモリ効率が大幅に向上しており、より幅広いハードウェアで利用できる。
エコシステムの恩恵
YOLO11 使用することで、実験追跡のためのMLFlowや、以下のような統合機能を利用できる。 OpenVINOを含む一連の統合を利用できるようになり、プロトタイプから量産まで、プロジェクトのスムーズなスケールを保証します。
性能比較:速度、精度、効率
YOLOv10 YOLO11比較する際には、パラメータ数だけでなく、実際のパフォーマンス指標を調べることが不可欠である。YOLOv10 NMS取り除くことで理論的な複雑さを軽減しているが、YOLO11 TensorRT搭載したT4GPU ような標準的なハードウェア構成で優れた推論速度を示している。
データから、YOLO11 ほとんどの用途でより優れたトレードオフを提供していることが明らかになった。例えば、YOLO11nは、YOLOv10nと同じ精度(39.5mAP)を達成していますが、Ultralytics APIによってサポートされる、よりロバストなアーキテクチャを備えています。モデル・サイズが大きくなるにつれて、精度におけるYOLO11優位性はより顕著になり、YOLO11xは 54.7mAP達し、検出精度の高いハードルを設定した。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
分析
- スピード: YOLO11 、ほぼすべてのモデルサイズにおいて、GPUTensorRT)での推論を高速化します。例えば、YOLO11lは、YOLOv10lの8.33ミリ秒と比較して、6.2ミリ秒で実行され、リアルタイムのビデオ分析において大きなスループットの優位性を示しています。
- 精度: YOLO11 mAP一貫してYOLOv10 おり、自律航法や 欠陥検出のような安全性が重要なタスクにおいて、偽陰性を減らし、より優れたローカライゼーションを実現している。
- 計算: YOLOv10 パラメータを最小化するのに対して、YOLO11 実際の計算グラフを最適化して実行時間を短縮し、パラメータ数だけではスピードが決まらないことを証明している。
実際のアプリケーションとコード例
モデルの真価が問われるのは、プロダクションのワークフローにどれだけ簡単に統合できるかだ。YOLO11 、そのわかりやすいPython インターフェースにより、この点で優れている。以下は、事前にトレーニングされたYOLO11 モデルを読み込み、画像に対して推論を実行する方法の例です。
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
このシンプルなスニペットで、最先端のパフォーマンスにアクセスできる。同じAPIを使用することで、カスタムデータセットでのトレーニング、モデルパフォーマンスの検証、ビデオストリーム内のオブジェクトのトラッキングに簡単に移行することができます。
結論評決
一方 YOLOv10はNMSアーキテクチャーに革新的な視点を提供し、学術研究や制約の多いエッジ・シナリオでは立派な選択肢となる、 Ultralytics YOLO11は、大多数の開発者や企業にとって優れた選択肢として際立っている。
YOLO11、より高い精度、より速い実世界の推論速度、そして比類のない汎用性を兼ね備えており、現代のコンピュータ・ビジョンのための決定的なソリューションとなっています。活発にメンテナンスされるUltralytics エコシステムに支えられ、開発者は単なるモデルではなく、AIの旅における長期的なパートナーを得ることができ、アプリケーションの堅牢性、拡張性、最先端性を維持することができます。
さらに詳しく知りたい方は、以下のような他のモデルとの比較をご覧ください。 YOLOv9や RT-DETRのような他のモデルとの比較は、物体検出の進化する状況について、さらなる文脈を提供することができる。