YOLO11 vs RTDETRv2:技術比較
適切な物体検出モデルの選択には、精度、速度、および使いやすさのトレードオフが伴います。このページでは、最先端のリアルタイム検出器であるUltralytics YOLO11と、Transformerアーキテクチャに基づく高精度モデルであるRTDETRv2の詳細な技術的比較を提供します。どちらのモデルも大きな進歩を遂げていますが、YOLO11は、パフォーマンス、汎用性、および開発者エクスペリエンスの優れたバランスを提供し、研究から本番環境まで、幅広いアプリケーションに最適な選択肢となっています。
Ultralytics YOLO11:リアルタイム検出の最前線
Ultralytics YOLO11は、リアルタイム物体検出およびその他のコンピュータビジョンタスクの限界を押し広げるためにUltralyticsによって設計された、名高いYOLOシリーズの最新の進化です。YOLOv8のような前身の成功を基に、精度と効率の両方を高めるアーキテクチャの改良が施されています。
- 著者: Glenn Jocher、Jing Qiu
- 組織: Ultralytics
- 日付: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- ドキュメント: https://docs.ultralytics.com/models/yolo11/
アーキテクチャと主な機能
YOLO11は、高度に最適化されたシングルステージのアンカーフリーアーキテクチャを採用しています。この設計により、計算オーバーヘッドを最小限に抑えながら、特徴抽出機能を最大化し、卓越した速度と精度を実現します。YOLO11の重要な利点は、包括的なUltralyticsエコシステムへの統合です。これにより、シンプルなPython APIとCLI、広範なドキュメント、および活発なコミュニティサポートにより、合理化されたユーザーエクスペリエンスが提供されます。
さらに、YOLO11は非常に汎用性が高く、物体検出、インスタンスセグメンテーション、画像分類、ポーズ推定、およびOriented Bounding Boxes(OBB)を含む、単一の統合フレームワーク内の複数のタスクをサポートします。このマルチタスク機能は、より特化したモデルに対する大きな利点です。
長所
- パフォーマンスバランス: 速度と精度の間で卓越したトレードオフを提供し、多様な現実世界のシナリオに適しています。
- 使いやすさ: ユーザーフレンドリーなAPI、包括的なドキュメント、および豊富なチュートリアルを備えており、迅速なプロトタイピングとデプロイが可能です。
- 優れた維持管理体制のエコシステム: 継続的な開発、頻繁なアップデート、MLOpsのためのUltralytics HUBのようなツールとのシームレスな統合の恩恵を受けています。
- 学習効率: 効率的かつ高速な学習プロセスと、すぐに利用できる事前学習済みウェイトを提供します。通常、TransformerベースのモデルよりもCUDAメモリの消費量が少なく、収束が速くなります。
- Deployment Flexibility: NVIDIA Jetsonのようなエッジデバイスから強力なクラウドサーバーまで、さまざまなハードウェア向けに最適化されています。
弱点
- ワンステージ検出器として、一部の特殊なツーステージ検出器と比較して、非常に密集したオブジェクトや小さいオブジェクトのクラスターに対して課題が生じる可能性がありますが、ほとんどの場合、非常に優れたパフォーマンスを発揮します。
- YOLO11xのような最大のモデルは、最大の精度を得るためにかなりの計算リソースを必要とします。
理想的なユースケース
YOLO11は、速度、精度、汎用性を兼ね備えているため、以下の用途に最適です。
- 産業オートメーション: 生産ラインでの品質管理と欠陥検出。
- スマートシティ: 交通管理や公共安全監視などのアプリケーションを強化します。
- 小売分析: 在庫管理と顧客行動分析を可能にします。
- Healthcare: 腫瘍検出などの医療画像解析を支援します。
RTDETRv2: Transformerベースの高精度検出
Baiduの研究者によって開発されたRTDETRv2は、Vision Transformer (ViT)を活用して高精度を実現するリアルタイム物体検出器です。これは、CNNベースのYOLOファミリーに対する代替のアーキテクチャアプローチを表しています。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織: Baidu
- Date: 2023-04-17
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- ドキュメント: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
アーキテクチャと主な機能
RTDETRv2は、特徴抽出のためのCNN バックボーンと、Transformerベースのエンコーダ・デコーダを組み合わせたハイブリッドアーキテクチャを使用しています。Transformerの自己注意メカニズムにより、モデルは画像内のオブジェクト間のグローバルな関係を捉えることができ、これにより、オクルージョンや密集したオブジェクトを含む複雑なシーンでの精度を向上させることができます。
長所
- 高精度: Transformerアーキテクチャにより、RTDETRv2は特に複雑な学術ベンチマークで、競争力のあるmAPスコアを達成できます。
- グローバルコンテキストの理解: 画像内の遠く離れたオブジェクト間の関係性を理解することに優れています。
弱点
- Computational Cost: RTDETRv2のようなTransformerベースのモデルは、一般的にパラメータ数とFLOPsが多く、YOLO11よりも多くの計算リソース(GPUメモリと処理能力)を必要とします。
- Training Complexity: トレーニングは、YOLO11と比較して、CUDAメモリがはるかに多く、トレーニング時間が長くなるため、遅く、リソースを消費することがよくあります。
- 推論が遅い: リアルタイム向けに最適化されていますが、特にCPUおよびリソース制約のあるエッジデバイスでは、同等のYOLO11モデルよりも一般的に遅くなります。
- 限定的なエコシステム: Ultralyticsが提供する広範で統一された、ユーザーフレンドリーなエコシステムが不足しています。ドキュメント、チュートリアル、およびコミュニティサポートは包括性に欠けます。
- 汎用性の欠如: 主にオブジェクト検出用に設計されており、YOLO11をより汎用性の高いツールにするセグメンテーション、分類、およびポーズ推定の組み込みサポートがありません。
理想的なユースケース
RTDETRv2は、以下のような用途に適しています。
- 学術研究: 特定のベンチマークで可能な限り最高のmAPを達成することが主な目標であり、計算リソースが主要な制約とならない場合。
- 特殊なアプリケーション: モデルが複雑なオブジェクト関係を処理する能力が重要な、強力で専用のハードウェアを備えたシナリオ。
性能分析:YOLO11 vs. RTDETRv2
パフォーマンスを比較すると、Ultralytics YOLO11は、ほとんどの実際のアプリケーションにとって、より実用的で効率的なソリューションを提供することは明らかです。以下の表は、YOLO11モデルが、速度と精度の間で一貫してより良いバランスを達成していることを示しています。
たとえば、YOLO11mは、T4 GPUでより高速(4.7 ms対5.03 ms)でありながら、RTDETRv2-s(48.1)よりも高いmAP(51.5)を達成しています。ハイエンドでは、YOLO11xはRTDETRv2-xを精度(54.7対54.3 mAP)で上回るだけでなく、パラメータとFLOPが少なく、大幅に高速(11.3 ms対15.03 ms)です。重要なことに、YOLO11モデルはCPU推論用に高度に最適化されており、これはトランスフォーマーベースのモデルが苦労することが多い分野です。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
結論: YOLO11が推奨される理由
RTDETRv2は、物体検出のためのTransformerの力を実証する強力な学術モデルですが、Ultralytics YOLO11は、実用的で高性能かつ汎用性の高いソリューションを求める開発者や研究者にとって、優れた選択肢として際立っています。
YOLO11の主な利点は、速度と精度の卓越したバランス、CPUとGPUハードウェア両方での優れた効率、そしてマルチタスク機能です。最も重要なことは、成熟した、十分に文書化された、ユーザーフレンドリーなエコシステムによってサポートされており、トレーニングや検証からデプロイメントやモニタリングまで、MLOpsライフサイクル全体を劇的に簡素化することです。リアルタイム性能、リソース効率、開発の容易さを求めるプロジェクトにとって、YOLO11は明確な勝者です。
その他のモデルを見る
YOLO11とRT-DETRv2と他の主要モデルとの比較にご興味があれば、以下の比較もご覧ください。