RTDETRv2 vs.YOLO11：リアルタイム物体検出アーキテクチャの徹底比較

コンピュータビジョンの分野は絶えず進化を続けており、新たなアーキテクチャがエッジデバイスやクラウドサーバーにおける可能性の限界を押し広げている。現在のリアルタイム物体検出領域で最も注目される2つの手法は、RTDETRv2と YOLO11である。両モデルとも卓越した性能を発揮するが、その基盤となるアーキテクチャの哲学は根本的に異なる。トランスフォーマーベースのアプローチと、高度に最適化された畳み込みニューラルネットワーク（CNN）との対比である。

この包括的な技術比較では、両モデルのアーキテクチャ、性能指標、トレーニング手法、および最適なユースケースを検証し、次の人工知能アプリケーションにおける情報に基づいた意思決定を支援します。

RTDETRv2: トランスフォーマーベースの挑戦者

オリジナルのリアルタイム検出トランスフォーマーを進化させたRTDETRv2は、注意機構を活用して視覚データを処理する。画像パッチをシーケンスとして扱うことで、画像コンテキストの全体的な理解を実現し、複雑なシーンにおける重なり合う物体の検出に極めて有効である。

モデル詳細：

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織:Baidu
日付: 2024-07-24
Arxiv:2407.17140
GitHub:RT-DETR Repository
ドキュメント:RTDETRv2 ドキュメント

アーキテクチャの強みと弱み

RTDETRv2の主な革新点は、NMSである。非最大抑制（NMS）を排除することで、後処理パイプラインを簡素化する。さらに、マルチスケール特徴抽出能力がRT-DETR 向上し、様々なサイズの物体をより正確に識別できるようになった。

ただし、Transformersに依存しているため、RTDETRv2は通常、学習中に著しく高いメモリ要件に悩まされる。Transformersは一般的に収束が遅く、従来のCNNと比較して大幅にCUDA 必要とするため、コンシューマー向けハードウェアで作業する研究者や、制約のあるエッジAI環境に展開する場合に利用しづらい。

RTDETRの詳細について。

Ultralytics YOLO11：CNN効率化の頂点

長年の基礎研究を基盤とし、Ultralyticsは、YOLO系統における大きな飛躍としてYOLO11をリリースしました。これは、CNNアーキテクチャを洗練させ、前例のない速度と精度を達成し、コミュニティが期待する柔軟性と開発者フレンドリーなエコシステムを維持しています。

モデル詳細：

著者: Glenn Jocher、Jing Qiu
組織:Ultralytics
日付: 2024年9月27日
GitHub:Ultralytics リポジトリ

Ultralyticsの利点

YOLO11 パフォーマンスバランスにおいてYOLO11 。速度と精度の間で並外れたトレードオフを実現し、大規模なクラウドコンピューティングクラスターから軽量モバイルデバイスまで、多様な実世界の展開シナリオにおいて非常に汎用性の高い性能を発揮する。

さらに、Ultralytics YOLO 、トレーニング時および推論時のメモリ使用量が少ないことで知られています。VRAMを容易に枯渇させるTransformerモデルとは異なり、YOLO11 標準GPU上でより大きなバッチサイズをYOLO11 。さらに、YOLO11 単なる物体検出にYOLO11 、驚異的な汎用性を誇り、インスタンスセグメンテーション、画像分類、姿勢推定、およびオリエンテッドバウンディングボックス（OBB）のネイティブサポートを備えています。

YOLO11の詳細について。

パフォーマンスとメトリクスの比較

数値を比較すると、RTDETRv2が優れた精度を達成している一方で、YOLO11 モデルサイズの選択肢がはるかに細かく、特にTensorRT上では優れた推論速度YOLO11 明らかになる。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

表が示すように、YOLO11xモデルは、54.7%という優れたmAP^valを達成しており、FLOPsはより少なく（194.9B対259B）、RTDETRv2-xバリアントと比較して、TensorRTでの推論速度も高速です（11.3ms対15.03ms）。ナノおよびスモールYOLO11バリアントは、Raspberry Piのような制約のあるデバイス向けに比類のない軽量オプションを提供します。

エコシステム、使いやすさ、トレーニング

Ultralytics 決定的な特徴は、合理化されたユーザー体験である。 ultralytics Python 、面倒な処理を代行する統一された直感的なAPIを提供します。データ拡張、分散学習、およびモデルのエクスポート。RTDETRv2の研究リポジトリはかなりの定型コードと設定を必要としますが、Ultralyticsは「ゼロからヒーロー」のパイプラインを提供します。

興味深いことに、Ultralytics は非常に堅牢で、RT-DETR YOLO 同時に実行することをネイティブにサポートしています！これにより、Ultralyticsの整備されたエコシステムを活用できます——これには以下との統合も含まれます Weights & Biases Comet ）を活用して、実験の追跡を容易に行うことができます。

from ultralytics import RTDETR, YOLO

# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")

# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")

ワークフローを効率化する

機械学習においてトレーニング効率は最重要課題です。Ultralytics 事前学習済み重みを活用し、迅速に収束します。コードを書かずにデータセット管理、トレーニング実行、デプロイ先エンドポイントを実現するには、統合型MLOps環境Ultralytics 検討ください。

現実世界のアプリケーション

これらのアーキテクチャの選択は、多くの場合、プロジェクトの特定のデプロイ制約が決め手となります。

RTDETRv2が優れている点： RTDETRv2のTransformerバックボーンは、グローバルなコンテキストが必要とされる、密で重なり合ったオブジェクトが存在するシナリオで非常に効果的です。計算リソースが、生の注意ベースの関係マッピングよりも懸念事項とならない学術研究やアプリケーションで頻繁に評価されます。

YOLO11が優位に立つ点： YOLO11は、実用的で現実世界への展開において疑いのない王者です。その最小限のメモリフットプリントと超高速な推論速度は、以下の用途に最適です。

Smart Manufacturing: 産業用PCを使用して生産ライン上でリアルタイムの欠陥検出を実行します。
農業: ドローンに展開し、作物の健康状態のリアルタイム監視や自動収穫ロボットに活用されます。
Retail Analytics: 大規模なサーバーファームを必要とせずに、複数のカメラストリームを同時に処理し、キュー管理や在庫追跡を行います。

ユースケースと推奨事項

RT-DETRとYOLO11の選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステム設定に依存します。

RT-DETRを選択すべきタイミング

RT-DETR 以下に最適RT-DETR ：

トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。

YOLO11を選択すべき時

YOLO11 以下に推奨YOLO11 ：

本番エッジデプロイ: Raspberry PiやNVIDIA Jetsonのようなデバイス上での商用アプリケーションにおいて、信頼性と継続的なメンテナンスが最重要となります。
マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内で、detect、segment、姿勢推定、およびOBBを必要とするプロジェクト。
迅速なプロトタイピングとデプロイ: 合理化されたUltralytics Python APIを使用して、データ収集から本番環境へ迅速に移行する必要があるチーム向け。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

展望：YOLO26の登場

新しいプロジェクトを始めるなら、次世代のビジョンAIも検討すべきです： Ultralytics 。2026年1月にリリースされたYOLO26は、両方の長所を兼ね備えています。エンドツーエンドNMS設計（最初に YOLOv10で初めて導入された）を完全に組み込み、RTDETRv2と同様に後処理の遅延を完全に排除しながら、CNNの比類のない速度を実現しています。

YOLO26は、LLMトレーニングの革新に着想を得たMuSGDオプティマイザーを搭載し、驚異的な安定性と高速な収束を実現。分布焦点損失（DFL）を除去することで最大43%CPU を提供します。特殊なProgLoss + STAL損失関数により小物体認識が大幅に向上したYOLO26は、あらゆる現代的なコンピュータビジョンパイプラインにおける究極の推奨ソリューションです。

YOLO11 確かな汎用性、RTDETRv2の注意メカニズム、あるいは究極のエッジ性能を誇る最先端のYOLO26YOLO11 を選択する場合でも、Ultralytics 、コンピュータビジョンにおける成功に必要なあらゆるリソースを提供します。