Link to this sectionRTDETRv2とYOLO11:リアルタイム物体検出アーキテクチャの詳細な比較#
コンピュータビジョンの領域は絶えず進化しており、新しいアーキテクチャがエッジデバイスやクラウドサーバーで可能なことの境界を押し広げています。現在、リアルタイム物体検出の分野で最も注目されている2つのモデルが、RTDETRv2とYOLO11です。どちらのモデルも優れたパフォーマンスを発揮しますが、その設計思想は根本的に異なります。一方はTransformerベースのアプローチであり、もう一方は高度に最適化された畳み込みニューラルネットワーク(CNN)です。
この包括的な技術比較では、両モデルのアーキテクチャ、パフォーマンス指標、トレーニング方法、および理想的なユースケースを検討し、次回の人工知能アプリケーション開発において情報に基づいた意思決定ができるようサポートします。
Link to this sectionRTDETRv2:Transformerベースのチャレンジャー#
オリジナルのReal-Time Detection Transformerの進化形として導入されたRTDETRv2は、アテンションメカニズムを活用して視覚データを処理します。画像パッチをシーケンスとして扱うことで、画像コンテキストをグローバルに理解することができ、複雑なシーンで重なり合う物体を検出する際に非常に有益です。
モデル詳細:
- 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
- 組織: Baidu
- 日付: 2024年7月24日
- Arxiv: 2407.17140
- GitHub: RT-DETR リポジトリ
- ドキュメント: RTDETRv2 ドキュメント
Link to this sectionアーキテクチャの利点と欠点#
RTDETRv2の主な革新は、エンドツーエンドのNMSフリーアーキテクチャにあります。Non-Maximum Suppression(NMS)を排除することで、後処理パイプラインが簡素化されました。さらに、元のRT-DETRモデルと比較してマルチスケール特徴抽出機能が改善されており、様々なサイズの物体をより的確に識別できるようになっています。
しかし、RTDETRv2はTransformerに依存しているため、通常、トレーニング中のメモリ消費量が大幅に増大します。一般的に、Transformerは収束が遅く、従来のCNNと比較して大幅に多くのCUDAメモリを必要とするため、コンシューマーグレードのハードウェアで運用する研究者や、制約のあるedge AI環境に展開する場合には適しにくくなります。
Link to this sectionUltralytics YOLO11:CNN効率の頂点#
長年の基礎研究の上に構築されたUltralyticsは、YOLO系統の大きな飛躍としてYOLO11をリリースしました。これはCNNアーキテクチャを洗練させ、前例のない速度と精度を実現しつつ、コミュニティが期待する柔軟で開発者にとって使いやすいエコシステムを維持しています。
モデル詳細:
- 著者: Glenn Jocher and Jing Qiu
- 組織: Ultralytics
- 日付: 2024年9月27日
- GitHub: Ultralytics リポジトリ
Link to this sectionUltralyticsの利点#
YOLO11は、そのパフォーマンスのバランスにおいて優れています。速度と精度の間で非常に優れたトレードオフを実現しており、大規模なcloud computingクラスターから軽量なモバイルデバイスまで、多様な実環境への展開シナリオで極めて高い汎用性を発揮します。
さらに、UltralyticsのYOLOモデルは、トレーニングおよび推論中のメモリ使用量が少ないことで知られています。VRAMをすぐに使い果たしてしまう可能性のあるTransformerモデルとは異なり、YOLO11は標準的なGPU上でより大きなバッチサイズを扱えます。さらに、YOLO11は単なる物体検出にとどまりません。その汎用性は素晴らしく、Instance Segmentation、Image Classification、Pose Estimation、およびOriented Bounding Boxes (OBB)をネイティブでサポートしています。
Link to this sectionパフォーマンスと指標の比較#
数値を単純に比較すると、RTDETRv2が高い精度を実現している一方で、YOLO11はより細かなモデルサイズの選択肢を提供しており、特にTensorRT上では優れた推論速度を誇ることが明らかです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
表からわかるように、YOLO11xモデルは、RTDETRv2-xバリアントと比較して、少ないFLOPs(194.9B対259B)で54.7%という優れたmAPvalを実現し、かつTensorRTでの推論も高速(11.3ms対15.03ms)です。また、nanoおよびsmallサイズのYOLO11バリアントは、Raspberry Piのような制約のあるデバイス向けに、他に類を見ない軽量なオプションを提供します。
Link to this sectionエコシステム、使いやすさ、トレーニング#
Ultralyticsモデルの決定的な特徴は、その合理化されたユーザー体験です。ultralytics Pythonパッケージは、data augmentation、分散トレーニング、モデルエクスポートといった複雑な処理を一括して扱う、統一された直感的なAPIを提供します。RTDETRv2の研究用リポジトリには煩雑な定型コードや設定が必要ですが、Ultralyticsは「ゼロからヒーローへ」のパイプラインを提供します。
興味深いことに、Ultralyticsのエコシステムは非常に堅牢で、RT-DETRモデルをYOLOモデルと一緒にネイティブで実行することも可能です!これにより、実験のトラッキングを簡単に行うためにWeights & BiasesやComet MLなどのインテグレーションを含む、Ultralyticsの充実したエコシステムを最大限に活用できます。
from ultralytics import RTDETR, YOLO
# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")
# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")機械学習においてトレーニング効率は最優先事項です。Ultralyticsモデルは、素早く収束する事前学習済みウェイトを利用します。コードを書かずにデータセット、トレーニング実行、デプロイエンドポイントを管理するには、統合されたMLOps体験を提供するUltralytics Platformを検討してください。
Link to this section実際のアプリケーション#
これらのアーキテクチャのどちらを選択するかは、多くの場合、プロジェクト特有のデプロイ環境の制約によって決まります。
RTDETRv2が適している場合: RTDETRv2のTransformerバックボーンは、高密度で物体が重なり合い、グローバルなコンテキストが必要なシナリオで非常に効果的です。これは多くの場合、学術研究や、計算予算よりもアテンションベースの関係性マッピングが優先されるアプリケーションで評価されます。
YOLO11が優れている場合: YOLO11は、実用的な現場への展開において紛れもないチャンピオンです。その最小限のメモリフットプリントと爆速の推論速度は、次のような用途に理想的です。
- Smart Manufacturing: 産業用PCを使用して製造ラインでのリアルタイムの欠陥検出を行う。
- Agriculture: ドローンに搭載し、作物の健康状態のリアルタイム監視や自動収穫ロボットに使用する。
- Retail Analytics: 巨大なサーバー群を必要とせず、複数のカメラストリームを同時に処理して行列管理や在庫追跡を行う。
Link to this sectionユースケースと推奨事項#
RT-DETRとYOLO11のどちらを選択するかは、具体的なプロジェクトの要件、デプロイの制約、およびエコシステムの優先順位に依存します。
Link to this sectionRT-DETRを選択すべき時#
RT-DETRは以下のような場合に強力な選択肢です。
- Transformerベースの検出研究: NMSなしのエンドツーエンド物体検出に向けたアテンションメカニズムやTransformerアーキテクチャを探求するプロジェクト。
- 高い精度が求められ、レイテンシに柔軟性があるシナリオ: 検出精度が最優先され、多少推論レイテンシが高くても許容されるアプリケーション。
- 大きな物体の検出: 主に中規模から大規模な物体が中心となるシーンで、Transformerのグローバルアテンションメカニズムが自然な利点となる場合。
Link to this sectionYOLO11を選択すべき時#
YOLO11は以下のような場合に推奨されます。
- 本番環境へのエッジ展開: Raspberry PiやNVIDIA Jetsonなどのデバイス上で動作する商業アプリケーションで、信頼性と継続的なメンテナンスが最優先される場合。
- マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内でdetection、segmentation、pose estimation、OBBが必要なプロジェクト。
- 迅速なプロトタイピングと展開: 効率化されたUltralytics Python APIを使用して、データ収集から本番運用まで素早く移行する必要があるチーム。
Link to this sectionUltralytics (YOLO26) を選択すべき時#
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。
- NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
- 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。
Link to this section今後の展望:YOLO26の登場#
新しいプロジェクトを開始する場合は、次世代のビジョンAIである**Ultralytics YOLO26も検討してください。2026年1月にリリースされたYOLO26は、両者の長所を兼ね備えています。YOLOv10で最初に採用されたエンドツーエンドNMSフリー設計**を導入し、RTDETRv2のように後処理のレイテンシを完全になくしつつ、CNNならではの比類なき速度を実現しました。
YOLO26は、LLMトレーニングのイノベーションに着想を得たMuSGD Optimizerを搭載しており、信じられないほど安定した高速な収束を可能にします。また、Distribution Focal Loss (DFL) を削除することで、最大43%のCPU推論の高速化を実現しました。専門化されたProgLoss + STAL損失関数により、微小物体認識の精度が劇的に向上しており、現代のあらゆるコンピュータビジョンパイプラインにおいて究極の推奨事項となります。
実証済みの汎用性を持つYOLO11、アテンションメカニズムを持つRTDETRv2、そして究極のエッジ性能を誇る最先端のYOLO26のどれを選択する場合でも、Ultralytics documentationには、コンピュータビジョンの旅を成功させるために必要なすべてのリソースが揃っています。