YOLO11 RTDETRv2の比較:リアルタイム検出器の技術比較
最適な物体検出アーキテクチャを選択するには、推論速度、検出精度、計算資源効率のトレードオフの複雑な状況をナビゲートする必要がある。この分析では Ultralytics YOLO11と、高性能なリアルタイム検出トランスフォーマーであるRTDETRv2との包括的な技術比較を行います。
RTDETRv2は、高精度タスクに対するトランス・アーキテクチャの可能性を示している、 YOLO11は、推論速度の高速化、メモリフットプリントの大幅な削減、より強固な開発者エコシステムを実現し、実用的な展開において優れたバランスを提供している。
Ultralytics YOLO11:リアルタイム・コンピュータ・ビジョンのスタンダード
Ultralytics YOLO11は、効率的な畳み込みニューラルネットワーク(CNN)に関する長年の研究の集大成です。実世界のコンピュータ・ビジョン・アプリケーションのための決定的なツールとなるよう設計されており、最先端の精度に妥協することなく効率を優先しています。
著者Glenn Jocher, Jing Qiu
組織:Ultralytics
日付:2024-09-27
GitHubultralytics
Docsyolo11
アーキテクチャーと強み
YOLO11 、洗練されたシングルステージ、アンカーフリーアーキテクチャを採用しています。最適化されたC3k2ブロックやSPPF(Spatial Pyramid Pooling - Fast)モジュールなどの高度な特徴抽出モジュールを統合し、さまざまなスケールの特徴を捉える。
- 汎用性:多くの特殊なモデルとは異なり、YOLO11 単一のフレームワークで、物体検出、インスタンス分割、ポーズ推定、オリエンテッドバウンディングボックス(OBB)、画像分類など、幅広いコンピュータビジョンタスクをサポートしている。
- メモリ効率: YOLO11 、組み込みエッジデバイスからエンタープライズグレードのサーバーまで、幅広いハードウェア上で効率的に動作するように設計されています。トランスフォーマーベースの代替品と比較して、トレーニング時に必要なCUDA メモリが大幅に少なくて済みます。
- エコシステムの統合:このモデルはUltralytics エコシステムによって支えられており、モデル管理のためのUltralytics HUBやデータセット分析のためのUltralytics Explorerなどのツールへのシームレスなアクセスを提供します。
RTDETRv2:トランス電源による精度
RTDETRv2はリアルタイム検出トランスフォーマーRT-DETR)であり、Vision Transformers(ViT)のパワーを活用してベンチマークデータセットで高精度を達成する。従来DETRに類似したモデルに関連する待ち時間の問題を解決することを目的としている。
著者Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organization:Baidu
Date:2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR
DocsRT-DETR
建築と特徴
RTDETRv2は、CNNバックボーンと効率的な変換エンコーダ・デコーダを組み合わせたハイブリッドアーキテクチャを利用している。自己アテンションメカニズムにより、モデルはグローバルコンテキストを捉えることができ、これは複雑なオブジェクト関係を持つシーンに有益である。
- グローバル・コンテキスト:トランスフォーマーアーキテクチャは、局所的な特徴があいまいな混雑した環境で物体を識別するのに優れている。
- リソース強度:速度のために最適化されていますが、トランスフォーマー層は本質的に、特に高解像度の入力に対して、より多くの計算とメモリを必要とします。
- フォーカスRTDETRv2は主に検出に特化したアーキテクチャであり、YOLO ファミリーに見られるネイティブ・マルチタスク・サポートがない。
性能分析:速度、精度、効率
YOLO11 RTDETRv2を比較した場合、その違いは、純粋な精度指標と運用効率との間のアーキテクチャ上のトレードオフにある。
ハードウェアに関する考察
RTDETRv2のようなTransformerベースのモデルは、効果的な学習と推論を行うために強力なGPUを必要とすることが多い。対照的に、YOLO11 ようなCNNベースのモデルは、CPUやRaspberry PiのようなエッジAIデバイスなど、より幅広いハードウェアに高度に最適化されている。
定量的比較
下の表は、COCO データセットの性能指標を示したものである。RTDETRv2が強力なmAP スコアを示しているのに対し、YOLO11 、特にCPU上で大幅に速い推論速度で競争力のある精度を提供しています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
結果の分析
- 推論速度: YOLO11 速度で圧倒している。例えば、YOLO11xはRTDETRv2-x(54.3mAP)よりも高い精度(54.7mAP)を達成する一方で、T4GPU 約25%高速に動作する(11.3ms対15.03ms)。
- パラメータ効率: YOLO11 モデルは一般的に、同様の精度レベルを達成するために必要なパラメータとFLOP数が少なくて済みます。YOLO11lは、RTDETRv2-lと同じ53.4mAP 達成していますが、FLOPはほぼ半分です(86.9B対136B)。
- CPU パフォーマンス:RTDETRv2の変換演算は、CPUでは計算コストが高い。YOLO11 、標準的なプロセッサーで実行可能なフレームレートを提供し、GPU 展開のための好ましい選択肢であり続けている。
ワークフローとユーザビリティ
開発者にとって、モデルの「コスト」には、統合時間、トレーニングの安定性、配備のしやすさなどが含まれる。
使いやすさとエコシステム
Ultralytics Python APIは、複雑なトレーニングループを数行のコードに抽象化します。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
これとは対照的に、RTDETRv2は強力な研究ツールであるが、カスタムデータセットに適応させたり、以下のような特定のフォーマットにエクスポートしたりするには、より手作業による設定や、基礎となるコードベースに関する深い知識が必要になることが多い。 ONNXや TensorRT.
トレーニング効率
トランスフォーマー・モデルのトレーニングには、通常、かなり大きなGPU メモリー(VRAM)が必要となる。そのため、開発者はより小さなバッチサイズを使用するか、より高価なクラウドハードウェアをレンタルすることを余儀なくされます。YOLO11CNNアーキテクチャはメモリ効率に優れているため、コンシューマーグレードのGPUでより大きなバッチサイズと高速な収束が可能です。
理想的なユースケース
YOLO11選ぶとき
- リアルタイム・エッジ展開: NVIDIA Jetson、Raspberry Pi、携帯電話など、コンピュート・リソースが限られているデバイスに展開する場合。
- 多様なビジョンタスク:検出と同時にセグメンテーションまたは姿勢推定が必要なプロジェクト。
- 迅速な開発:市場投入までの時間が非常に重要な場合、Ultralytics 広範なドキュメントとコミュニティサポートがライフサイクルを加速します。
- ビデオ分析:交通監視やスポーツ分析のようなアプリケーションでの高FPS処理向け。
RTDETRv2を選択するタイミング
- 学術研究:視覚トランスフォーマーの特性と注意メカニズムの研究。
- サーバーサイド処理: GPU パワーが無制限に利用可能で、レイテンシーに関係なく、特定のベンチマークで絶対的に高い精度が唯一の指標となる場合。
- 静的画像解析:オフラインの医用画像解析など、処理時間に制約のないシナリオ。
結論
RTDETRv2は、視覚におけるトランスフォーマーアーキテクチャーの学術的進歩を紹介している、 Ultralytics YOLO11は、実世界のアプリケーションの大部分にとって実用的な選択肢であり続けています。その優れた速度対精度比、低いメモリ要件、複数のビジョンタスクを処理する能力により、それは汎用性の高い強力なツールとなっています。成熟し、メンテナンスの行き届いたエコシステムと相まって、YOLO11 、開発者が最小限の摩擦でコンセプトから生産に移行できるよう支援します。
その他のモデルを見る
モデルを比較することは、特定の制約に適したツールを選択するのに役立ちます。Ultralytics ドキュメントでより多くの比較をご覧ください: