YOLO11 vs RTDETRv2: CNNとVision Transformerの進化を比較する

コンピュータビジョンの領域は急速に拡大しており、開発者は堅牢なビジョンベースのアプリケーションを構築するために無数の選択肢を得ています。リアルタイム物体検出の分野では、畳み込みニューラルネットワーク(CNN)とVision Transformer(ViT)の議論がこれまで以上に注目されています。本テクニカル比較では、高度に最適化されたCNNフレームワークの頂点である YOLO11 と、Detection Transformerファミリーの強力なイテレーションである RTDETRv2 という2つの主要なアーキテクチャについて掘り下げます。

アーキテクチャ、パフォーマンス指標、および理想的なデプロイシナリオを分析することで、本ガイドは機械学習エンジニアが情報に基づいた意思決定を行えるよう支援することを目的としています。両モデルとも精度の限界を押し広げていますが、Ultralytics YOLO モデルは通常、実世界のプロダクションにおいて、速度、エコシステムのサポート、および使いやすさの面で優れたバランスを提供します。

YOLO11: 実用性のベンチマーク

Ultralyticsによって導入されたYOLO11は、長年の基礎研究の上に構築されており、高速、高精度、そして非常に多才なモデルを実現しています。物体検出インスタンスセグメンテーション画像分類姿勢推定、および 指向性バウンディングボックス (OBB) 抽出をネイティブでシームレスに処理できるように設計されています。

YOLO11の詳細はこちら

アーキテクチャと強み

YOLO11は、洗練されたCNNバックボーンと高度な空間的特徴ピラミッドを特徴としており、非常にリソース効率に優れています。厳しいハードウェア制約のある環境でも力を発揮し、トレーニングと推論の両方において最小限のメモリフットプリントを実現します。Ultralytics Platform はYOLO11をネイティブでサポートしており、異なるMLOpsツールを継ぎ合わせることなく、モデル監視、データアノテーション、およびクラウドトレーニングを合理化できます。

エッジコンピューティングをターゲットとする開発者にとって、YOLO11は超低遅延を誇ります。その軽量な性質により、Raspberry Piから一般的なスマートフォンに至るまで、幅広いデバイスで効率的に動作するため、スマートリテール、製造品質管理、および自動交通管理の標準となっています。

RTDETRv2: BaiduによるリアルタイムTransformer

RTDETRv2 (Real-Time Detection Transformer version 2) は、Transformerベースのアーキテクチャをリアルタイムタスクで実行可能にするためのBaiduの取り組みを象徴しています。これは、推論遅延を増大させることなくベースライン精度を向上させる「bag-of-freebies」アプローチを組み込むことで、オリジナルのRT-DETRをベースに構築されています。

RTDETRの詳細はこちら

アーキテクチャと強み

従来のCNNとは異なり、RTDETRv2は自己注意(セルフアテンション)機構を備えたエンコーダー・デコーダーアーキテクチャを採用しており、画像全体のグローバルなコンテキストを捉えることができます。これは、遮蔽が頻繁に発生する混雑したシーンで特に有利です。RTDETRv2は後処理におけるNMS (Non-Maximum Suppression) の必要性を排除し、代わりにトレーニング中にHungarianマッチングを利用して1対1の二部グラフマッチングを行います。

しかし、TransformerモデルはVRAMとCUDAメモリを大量に消費することで知られています。ゼロからRTDETRv2をトレーニングしたり、カスタムデータセットでファインチューニングしたりするには、しばしば高性能なGPUクラスターが必要となり、Ultralyticsモデルの軽量なトレーニングフットプリントと比較して、小規模なアジャイルチームにとっては障壁となる可能性があります。

パフォーマンスと指標の分析

標準の COCOデータセット でこれらのモデルを評価すると、パラメータ数、FLOPs、および生の精度の間に明確なトレードオフがあることがわかります。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

結果の解明

表に見られるように、YOLO11は驚異的なパフォーマンスとサイズの比率を提供します。YOLO11xは、RTDETRv2-x(54.3)よりも高いmAPval(54.7)を達成しつつ、使用するパラメータ数は大幅に少なく(56.9M vs 76M)、計算FLOPsも大幅に削減されています(194.9B vs 259B)。

さらに、T4 TensorRT 上でのYOLO11の推論速度は非常に高速です。YOLO11sはわずか2.5msで推論を完了しますが、最小のRTDETRv2-sは5.03msを要します。これにより、フレーム処理時間が主要なボトルネックとなる高速なリアルタイムビデオ解析ストリームにおいて、YOLO11は決定的な選択肢となります。

Transformerのコスト

RTDETRv2はそのアテンション層によって優れた精度を達成していますが、これらの機構は画像解像度とともに二乗でスケールするため、トレーニングと推論の両方でVRAM消費量が増加します。YOLO11は、その超効率的な畳み込みブロックによってこれを回避しています。

トレーニングエコシステムとユーザビリティ

Ultralyticsモデルを採用する中核的な利点は、周辺のエコシステムにあります。RTDETRv2のトレーニングには、複雑な研究グレードのリポジトリを操作し、複雑な二部グラフマッチングの損失重みを調整し、かなりのメモリオーバーヘッドを管理する必要があることがよくあります。

Conversely, Ultralytics focuses heavily on developer experience. The unified Python API abstracts away boilerplate code, integrating seamlessly with tools like Weights & Biases for experiment tracking, and handling data augmentations automatically.

ultralytics パッケージを使用してモデルをトレーニングし、エクスポートする方法は以下の通りです:

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

トレーニングが完了したら、YOLO11モデルを ONNXOpenVINO、または CoreML などのフォーマットにエクスポートするには1つのコマンドだけで済み、多様なハードウェアバックエンド間でビジョンパイプラインを容易にスケールさせることができます。

マルチタスク機能

RTDETRv2はバウンディングボックス検出のみに焦点を当てていますが、YOLO11アーキテクチャは 姿勢推定インスタンスセグメンテーション をネイティブでサポートしており、複数のビジョンタスクを単一のモデルファミリーに統合できることに留意してください。

ユースケースと推奨事項

YOLO11とRT-DETRのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって異なります。

YOLO11を選択すべき場合

YOLO11は次のような場合に強力な選択肢です:

  • 本番環境のエッジデプロイメント: 信頼性と積極的なメンテナンスが最優先される、Raspberry PiNVIDIA Jetsonなどのデバイス上での商用アプリケーション。
  • マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内で、検出セグメンテーションポーズ推定、およびOBBを必要とするプロジェクト。
  • 迅速なプロトタイピングとデプロイメント: 合理化されたUltralytics Python APIを使用して、データ収集から本番環境まで迅速に移行する必要があるチーム。

RT-DETRを選ぶべき場面

RT-DETRは次の場合に推奨されます:

  • Transformerベースの検出研究: NMSなしでのエンドツーエンドの物体検出に向けて、アテンションメカニズムとTransformerアーキテクチャを研究するプロジェクト。
  • レイテンシを柔軟に調整できる高精度シナリオ: 検出精度が最優先であり、わずかに高い推論レイテンシが許容されるアプリケーション。
  • 大型物体の検出: 主に中型から大型の物体が含まれるシーン。Transformerのグローバルアテンションメカニズムが自然な利点をもたらします。

Ultralytics (YOLO26) を選択すべき場合

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:

  • NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
  • 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。

今後の展望:YOLO26の力

YOLO11は優れたプロダクションの選択肢ですが、最先端技術を求めるチームは YOLO26 を強く検討すべきです。2026年1月にリリースされたYOLO26は、End-to-End NMS-Free Design(YOLOv10で初めて導入)をコアに直接組み込むことで、後処理の遅延とデプロイロジックの複雑さを完全に排除し、アーキテクチャのギャップを埋めています。

YOLO26はまた、いくつかの革新的な機能を導入しています:

  • MuSGD Optimizer: Moonshot AIのKimi K2のLLMトレーニング技術から着想を得たこのSGDとMuonのハイブリッドは、信じられないほど安定したトレーニングと劇的に高速な収束を確実にします。
  • DFL Removal: Distribution Focal Lossが削除され、よりクリーンで簡素化されたエクスポートプロセスを実現し、低電力エッジデバイスとの互換性が大幅に向上しました。
  • ProgLoss + STAL: これらの高度な損失関数は、ドローン監視、農業モニタリング、およびIoTエッジセンサーにとって重要な要件である小物体認識において顕著な改善をもたらします。
  • CPU推論が最大43%高速化: 専用のGPUを持たない環境向けに、YOLO26はCPU実行用に特別に最適化されており、前世代を大きく上回るパフォーマンスを発揮します。

YOLO26の詳細はこちら

より幅広いアーキテクチャを探索したい方のために、Ultralyticsのドキュメントでは、YOLOv8、広く採用されている YOLOv5、およびオープンボキャブラリー検出アプリケーション向けの YOLO-World のような専門的なモデルに関する洞察も提供しています。最終的に、YOLO11の証明された安定性を優先するか、YOLO26の革新的なブレイクスルーを優先するかにかかわらず、Ultralyticsのエコシステムは、コンピュータビジョンソリューションを実現するための比類のないツールを提供します。

コメント