RTDETRv2 vs.YOLO11: トランスフォーマーとCNNアーキテクチャの比較
リアルタイム物体検出の分野は急速に進化しており、二つの異なるアーキテクチャ哲学が主導的役割を果たしている。一つはRTDETRv2などのモデルが推進するビジョントランスフォーマー(ViT)アプローチ、もう一つは Ultralytics YOLO11によって完成された畳み込みニューラルネットワーク(CNN)の系譜である。
RTDETRv2(リアルタイム検出トランスフォーマー第2版)は、トランスフォーマーベースのアーキテクチャが達成し得る精度とグローバルコンテキスト理解の限界を押し広げている一方で、 YOLO11 は効率性、汎用性、導入の容易さにおいて頂点を示しています。本比較では技術仕様、アーキテクチャの違い、実用的な応用例を探り、開発者が自身のコンピュータビジョンプロジェクトに適したツールを選択する手助けをします。
比較表:指標と仕様
以下の表は両モデルのパフォーマンス指標を比較したものです。注目すべきは YOLO11 はより幅広いモデルサイズを提供し、マイクロコントローラーからハイエンドサーバーまであらゆる用途に適応できるのに対し、RTDETRv2は主に大容量モデルに焦点を当てている点に注目してください。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
アーキテクチャ分析
これら二つの最先端モデルの中核的な違いは、視覚情報を処理する方法にある。
RTDETRv2:Transformerアプローチ
百度の研究者によって開発されたRTDETRv2は、RT-DETRを基盤としています。このモデルはトランスフォーマーの力を活用し、画像内の長距離依存関係を捕捉します。これは従来のCNNでは困難な課題でした。
- ハイブリッドエンコーダー:RTDETRv2はマルチスケール特徴を処理するハイブリッドエンコーダーを採用しており、モデルが画像の異なる部分に同時に「注意を向ける」ことを可能にします。
- NMS予測:その特徴の一つは、非最大抑制(NMS)を排除することである。クエリセットを用いてオブジェクトを直接予測することで、後処理パイプラインを簡素化するが、これはしばしばトレーニングの複雑性が高まる代償を伴う。
- Bag-of-Freebies:「v2」アップデートでは、最適化された学習戦略とアーキテクチャ調整を導入し、元のベースラインと比較して収束速度と精度を向上させます。
メタデータ:
- 著者: Wenyu Lv、Yian Zhao、Qinyao Changら
- 組織: Baidu
- 日付:2024年7月17日 (Arxiv v2)
- Arxiv:RT-DETRv2論文
- GitHub:RT-DETR Repository
YOLO11: 洗練されたCNN標準
Ultralytics YOLO11CNNアーキテクチャの進化を体現し、計算オーバーヘッドを最小化しながら特徴抽出効率を最大化することに焦点を当てています。
- C3k2およびC2PSAブロック: YOLO11 バックボーンとネックに高度な構成要素YOLO11 。C3k2ブロックは多様なカーネルサイズを活用して特徴表現を豊かにし、C2PSAブロックは完全なトランスフォーマーの重いコストなしに注意機構を効率的に統合する。
- 統合タスクサポート:主に物体検出器であるRTDETRv2とは異なり、YOLO11 汎用的なビジョン基盤としてYOLO11 。同一フレームワーク内でインスタンスセグメンテーション、姿勢推定、OBB、分類をネイティブにサポートします。
- エッジ最適化:このアーキテクチャは、CPUから NVIDIA のようなエッジAIアクセラレータに至るまで、多様なハードウェア上で高速動作するよう特別に調整されています。
メタデータ:
- 著者: Glenn Jocher、Jing Qiu
- 組織:Ultralytics
- 日付: 2024-09-27
- ドキュメント:YOLO11ドキュメント
ご存知でしたか?
RTDETRv2はNMS 排除していますが、Ultralytics YOLO26もネイティブなエンドNMS設計を採用しており、CNNの高速処理とトランスフォーマーの効率的なデプロイメントを両立させています。
エコシステムと使いやすさ
開発者や機械学習エンジニアにとって、モデルを取り巻くソフトウェアエコシステムは、モデルの純粋な指標と同様に重要であることが多い。
Ultralytics 強み: YOLO11 業界をリードUltralytics のYOLO11 、データ管理からデプロイメントまで一貫した体験を提供します。
- トレーニング効率: YOLO11 トレーニングが非常に高速で知られています。コードベースには自動化されたハイパーパラメータ調整とスマートなデータセットチェックが含まれています。
- デプロイの柔軟性:ユーザーはモデルをONNXなどの形式にエクスポートできます ONNX、 TensorRT、CoreML、TFLite エクスポートできます。
- コミュニティサポート:数百万回のダウンロードをUltralytics 、YouTubeチュートリアルから活発なGitHubイシューディスカッションまで、豊富なリソースを提供しています。
RTDETRv2に関する考慮事項: RTDETRv2は主に研究用リポジトリです。強力ではありますが、「すぐに使える」体験にはしばしば欠けます。トレーニングパイプラインの設定、データセットの管理、エッジデバイス向けエクスポートには通常、より多くの手動設定と Python スクリプトを必要とします。
パフォーマンスとリソース要件
実環境での展開においては、精度とリソース消費のバランスが重要である。
GPU
トランスフォーマーは、そのメモリ消費量で悪名高い。RTDETRv2は通常、かなりの GPU VRAMを必要とする。これにより、一般消費者向けハードウェアでのトレーニングが困難になるか、より小さなバッチサイズが必要となり、バッチ正規化の統計に影響を与える可能性がある。
YOLO11 はメモリ効率が大幅に向上している。CNNベースのアーキテクチャにより、標準GPU上でより大きなバッチサイズを処理可能となり、トレーニングの高速化と開発コストの削減を実現する。この効率性は推論段階にも及び、YOLO11nモデルはCPU上でリアルタイム実行が可能である。これは、画像トークンに対する計算量が二次関数的に増加するトランスフォーマーベースモデルでは達成が困難な成果である。
精度と速度のトレードオフ
比較表に示す通り、YOLO11xはより高いmAPを達成している mAP (54.7)を達成し、RTDETRv2-x(54.3)を上回っています。同時に、競争力のある推論速度を維持しています。極端な速度が求められるアプリケーションでは、より軽量なYOLO11 (n/s)が、RTDETRv2が対象としていない性能レベルを提供します。これにより、モバイルおよびIoT展開においては、YOLO11 明らかなYOLO11 となります。
コード例:YOLO11 RT-DETRの使用
Ultralytics 、ネイティブのYOLO とサポート対象のRT-DETRバージョンの両方に最高水準のサポートUltralytics 、アーキテクチャをシームレスに切り替えることを可能にします。
from ultralytics import RTDETR, YOLO
# 1. Load the Ultralytics YOLO11 model (Recommended)
# Best for general purpose, edge deployment, and versatility
model_yolo = YOLO("yolo11n.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# 2. Load an RT-DETR model via Ultralytics API
# Useful for research comparison or specific high-compute scenarios
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
# Visualize the YOLO11 results
for result in results_yolo:
result.show()
現実世界のアプリケーション
YOLO11 が優れている点
軽量なフットプリントと高速性により、YOLO11 以下の用途に最適な選択肢YOLO11 :
- 自律システム:低遅延が安全上極めて重要となるドローンおよびロボティクス。
- スマートシティ: NVIDIA Jetsonなどのエッジデバイスにおけるリアルタイム交通監視
- 農業:バッテリー駆動の移動式機器による作物の監視と雑草の検出。
- 多様なタスク:検出に加え、姿勢推定または方向付き境界ボックスを必要とするプロジェクト。
RTDETRv2の立ち位置
RTDETRv2は、以下のような用途に適しています。
- ハイコンピューティングサーバー:無制限の電力とGPU が利用可能なシナリオ。
- 複雑な遮蔽:トランスフォーマーのグローバル受容野が物体間の重なりを解消するのに役立つ環境。
- 研究:ビジョン・トランスフォーマー(ViTs)に関する学術的探求。
結論
両アーキテクチャはコンピュータビジョン分野の驚異的な進歩を示している。RTDETRv2は、検出タスクにおけるCNNの優位性に挑戦するトランスフォーマーの可能性を実証した。しかし、実用的なアプリケーションの大多数においては、 Ultralytics YOLO11 が依然として優れた選択肢です。
統一されたフレームワーク、低リソース要件、幅広い対応タスク、成熟したデプロイメントエコシステムを備えたYOLO11 、開発者がプロトタイプから本番環境への移行を迅速化することをYOLO11 。効率性とNMSにおける究極の進化を求める方には、両方の長所を統合したエンドツーエンドの強力なソリューションである最先端のYOLO26の検討も推奨します。