YOLO11 RTDETRv2: CNNとビジョントランスフォーマーの進化比較

コンピュータビジョンの領域は急速に拡大し、開発者に堅牢なビジョンベースアプリケーション構築のための無数の選択肢を提供している。リアルタイム物体検出の分野では、畳み込みニューラルネットワーク（CNN）とビジョントランスフォーマー（ViT）の議論がかつてないほど活発化している。本技術比較では二つの主要アーキテクチャを掘り下げる： YOLO11（高度に最適化されたCNNフレームワークの頂点を代表）と、RTDETRv2（検出トランスフォーマーファミリーの強力な進化形）を比較検討する。

これらのモデルのアーキテクチャ、パフォーマンス指標、理想的なデプロイメントシナリオを分析することで、このガイドは機械学習エンジニアが情報に基づいた意思決定を行うのに役立つことを目指しています。両モデルとも精度を限界まで高めていますが、Ultralytics YOLOモデルは通常、実世界のプロダクションにおいて、速度、エコシステムサポート、使いやすさの優れたバランスを提供します。

YOLO11：実世界の汎用性を測るベンチマーク

Ultralytics提供するYOLO11 、長年にわたる基礎研究を基盤としてYOLO11 、高速かつ高精度で驚くほど汎用性の高いモデルを実現します。物体検出、インスタンスセグメンテーション、画像分類、姿勢推定、方向付きバウンディングボックス（OBB）抽出をネイティブにシームレスに処理するよう設計されています。

著者: Glenn Jocher、Jing Qiu
組織:Ultralytics
日付: 2024-09-27
GitHub:Ultralytics リポジトリ
ドキュメント:YOLO11ドキュメント

YOLO11の詳細について。

アーキテクチャと強み

YOLO11 洗練されたCNNバックボーンと高度な空間特徴ピラミッドYOLO11 、非常にリソース効率に優れています。ハードウェア制約が厳しい環境でも高い性能を発揮し、トレーニング時と推論時の両方で最小限のメモリ使用量を実現します。Ultralytics YOLO11ネイティブサポートし、異なるMLOpsツールを組み合わせる必要なく、モデル監視、データアノテーション、クラウドトレーニングを効率的に行えます。

エッジコンピューティングをターゲットとする開発者にとって、YOLO11は超低レイテンシを誇ります。その軽量な性質により、Raspberry Piから一般消費者向け携帯電話まで、さまざまなデバイスで効率的に動作するため、スマートリテール、製造品質管理、自動交通管理の標準となっています。

RTDETRv2: Baiduによるリアルタイムトランスフォーマー

RTDETRv2（リアルタイム検出トランスフォーマー第2版）は、トランスフォーマーベースのアーキテクチャをリアルタイムタスクに適用可能とする百度の取り組みである。RT-DETR を基盤とし、「bag-of-freebies」アプローチを採用RT-DETR 、推論遅延を増加させることなくベースライン精度を向上させている。

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織:Baidu
日付: 2024-07-24
Arxiv:2407.17140
GitHub:RT-DETRv2 リポジトリ
ドキュメント:RTDETRv2 README

RTDETRの詳細について。

アーキテクチャと強み

従来のCNNとは異なり、RTDETRv2は自己注意機構を備えたエンコーダ-デコーダ構造を採用しており、画像全体のグローバルな文脈を捕捉できる。これは遮蔽が頻繁に発生する混雑したシーンにおいて特に有利である。RTDETRv2は後処理における非最大抑制（NMS）を不要とし、代わりに訓練中にハンガリアンマッチングを用いて一対一の二部グラフマッチングを実現する。

ただし、トランスフォーマーモデルはVRAMとCUDA 大量に消費することで知られている。RTDETRv2をスクラッチから学習させるか、カスタムデータセットで微調整するには、多くの場合、大規模なハイエンドGPU が必要となる。これは、Ultralytics 軽量なトレーニングフットプリントと比較すると、小規模で機敏なチームにとっては障壁となり得る。

パフォーマンスとメトリクスの分析

標準的なCOCO でこれらのモデルを評価した際、パラメータ数、FLOPs、および純粋な精度との間に明確なトレードオフが観察される。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

結果の分析

表が示すように、YOLO11は驚異的な性能対サイズ比を提供します。YOLO11xはRTDETRv2-x（54.3）と比較してより高いmAP^val（54.7）を達成しており、パラメータ数（56.9M対76M）と計算FLOPs（194.9B対259B）を大幅に削減しています。

さらに、YOLO11T4上での推論速度は TensorRT での推論速度は極めて高速である。YOLO11sはわずか2.5msで推論を完了する一方、最小規模のRTDETRv2-sでも5.03msを要する。これにより、フレーム処理時間が主要なボトルネックとなる高速リアルタイム動画解析ストリームにおいて、YOLO11 決定的なYOLO11 となる。

トランスフォーマーのコスト

RTDETRv2は注意層によって優れた精度を達成するが、これらの機構は画像解像度に対して二次的にスケールするため、学習時と推論時の両方でVRAM消費量が増加する。YOLO11 超効率的な畳み込みブロックによってこの問題をYOLO11 。

トレーニングエコシステムとユーザビリティ

Ultralytics 核心的な利点は、その周辺エコシステムにある。RTDETRv2のトレーニングでは、研究レベルの複雑なリポジトリの操作、複雑な二部グラフマッチング損失の重み調整、そして膨大なメモリオーバーヘッドの管理が頻繁に必要となる。

対照的に、Ultralyticsは開発者エクスペリエンスに重点を置いています。統合されたPython APIは、ボイラープレートコードを抽象化し、Weights & Biasesのようなツールとシームレスに統合して実験追跡を行い、データ拡張を自動的に処理します。

以下に、モデルをトレーニングしてエクスポートする手順の簡単さを示します。 ultralytics パッケージ：

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

トレーニング後、YOLO11 を ONNX、 OpenVINO、または CoreML は単一のコマンドのみで動作し、多様なハードウェアバックエンドにビジョンパイプラインを容易に拡張できます。

マルチタスク機能

RTDETRv2がバウンディングボックス検出に特化している一方で、YOLO11 は姿勢推定とインスタンスセグメンテーションをネイティブにサポートしており、複数のビジョンタスクを単一のモデルファミリーに統合することが可能です。

ユースケースと推奨事項

YOLO11とRT-DETRの選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステムへの適合性によって決まります。

YOLO11を選択すべき時

YOLO11 以下に最適YOLO11 ：

本番エッジデプロイ: Raspberry PiやNVIDIA Jetsonのようなデバイス上での商用アプリケーションにおいて、信頼性と継続的なメンテナンスが最重要となります。
マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内で、detect、segment、姿勢推定、およびOBBを必要とするプロジェクト。
迅速なプロトタイピングとデプロイ: 合理化されたUltralytics Python APIを使用して、データ収集から本番環境へ迅速に移行する必要があるチーム向け。

RT-DETRを選択すべきタイミング

RT-DETR 以下に推奨RT-DETR ：

トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

今後の展望: YOLO26の力

YOLO11 優れた実用的な選択肢YOLO11 一方、最先端を求めるチームはYOLO26を強く検討すべきである。2026年1月にリリースされたYOLO26は、エンドツーエンドNMS設計（YOLOv10初めて導入）を中核に直接組み込むことでアーキテクチャのギャップを埋め、後処理の遅延とデプロイロジックの複雑さを完全に排除している。

YOLO26はまた、いくつかの革新的な機能を導入しています：

MuSGDオプティマイザ: Moonshot AIのKimi K2のLLMトレーニング技術に着想を得たSGDとMuonのこのハイブリッドは、非常に安定したトレーニングと劇的に速い収束を保証します。
DFLの削除: Distribution Focal Lossが削除されたことで、よりクリーンで簡素化されたエクスポートプロセスが実現し、低電力エッジデバイスとの互換性が大幅に向上します。
ProgLoss + STAL: これらの高度な損失関数は、ドローン監視、農業監視、およびIoTエッジセンサーにとって重要な要件である小物体認識において、顕著な改善をもたらします。
CPU推論が最大43%高速化: 専用GPUを持たないデプロイメント向けに、YOLO26はCPU実行向けに特別に最適化されており、以前の世代を大幅に上回る性能を発揮します。

YOLO26についてさらに詳しく

より広範なアーキテクチャの探求に興味がある方には、Ultralyticsのドキュメントでは、YOLOv8、広く採用されているYOLOv5、そしてオープンボキャブラリー検出アプリケーション向けのYOLO-Worldのような特殊モデルについても情報を提供しています。最終的に、YOLO11の実証された安定性を優先するか、YOLO26の画期的な革新を優先するかにかかわらず、Ultralyticsエコシステムは、コンピュータビジョンソリューションを実現するための比類ないツールを提供します。

YOLO11 RTDETRv2: CNNとビジョントランスフォーマーの進化比較

YOLO11：実世界の汎用性を測るベンチマーク

アーキテクチャと強み

RTDETRv2: Baiduによるリアルタイムトランスフォーマー

アーキテクチャと強み

パフォーマンスとメトリクスの分析

結果の分析

トレーニングエコシステムとユーザビリティ

ユースケースと推奨事項

YOLO11を選択すべき時

RT-DETRを選択すべきタイミング

Ultralytics YOLO26）を選択すべきタイミング

今後の展望: YOLO26の力

コメント