YOLO11 RTDETRv2: CNNとビジョントランスフォーマーの進化比較
コンピュータビジョンの領域は急速に拡大し、開発者に堅牢なビジョンベースアプリケーション構築のための無数の選択肢を提供している。リアルタイム物体検出の分野では、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の議論がかつてないほど活発化している。本技術比較では二つの主要アーキテクチャを掘り下げる: YOLO11(高度に最適化されたCNNフレームワークの頂点を代表)と、RTDETRv2(検出トランスフォーマーファミリーの強力な進化形)を比較検討する。
本ガイドでは、アーキテクチャ、パフォーマンス指標、理想的な導入シナリオを分析することで、機械学習エンジニアが情報に基づいた意思決定を行うことを支援します。両モデルとも精度の限界を押し広げていますが、 Ultralytics YOLO モデルは、実運用環境において速度、エコシステムサポート、使いやすさの優れたバランスを提供します。
YOLO11:実世界の汎用性を測るベンチマーク
Ultralytics提供するYOLO11 、長年にわたる基礎研究を基盤としてYOLO11 、高速かつ高精度で驚くほど汎用性の高いモデルを実現します。物体検出、インスタンスセグメンテーション、画像分類、姿勢推定、方向付きバウンディングボックス(OBB)抽出をネイティブにシームレスに処理するよう設計されています。
- 著者: Glenn Jocher、Jing Qiu
- 組織:Ultralytics
- 日付: 2024-09-27
- GitHub:Ultralytics リポジトリ
- ドキュメント:YOLO11ドキュメント
アーキテクチャと強み
YOLO11 洗練されたCNNバックボーンと高度な空間特徴ピラミッドYOLO11 、非常にリソース効率に優れています。ハードウェア制約が厳しい環境でも高い性能を発揮し、トレーニング時と推論時の両方で最小限のメモリ使用量を実現します。Ultralytics YOLO11ネイティブサポートし、異なるMLOpsツールを組み合わせる必要なく、モデル監視、データアノテーション、クラウドトレーニングを効率的に行えます。
エッジコンピューティングをターゲットとする開発者向けに、YOLO11 超低遅延YOLO11 。軽量設計により、ラズベリーパイから民生用スマートフォンまで幅広いデバイスで効率的に動作し、スマート小売、製造品質管理、自動交通管理の標準技術となっています。
RTDETRv2: Baiduによるリアルタイムトランスフォーマー
RTDETRv2(リアルタイム検出トランスフォーマー第2版)は、トランスフォーマーベースのアーキテクチャをリアルタイムタスクに適用可能とする百度の取り組みである。RT-DETR を基盤とし、「bag-of-freebies」アプローチを採用RT-DETR 、推論遅延を増加させることなくベースライン精度を向上させている。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETRv2 リポジトリ
- ドキュメント:RTDETRv2 リードミー
アーキテクチャと強み
従来のCNNとは異なり、RTDETRv2は自己注意機構を備えたエンコーダ-デコーダ構造を採用しており、画像全体のグローバルな文脈を捕捉できる。これは遮蔽が頻繁に発生する混雑したシーンにおいて特に有利である。RTDETRv2は後処理における非最大抑制(NMS)を不要とし、代わりに訓練中にハンガリアンマッチングを用いて一対一の二部グラフマッチングを実現する。
ただし、トランスフォーマーモデルはVRAMとCUDA 大量に消費することで知られている。RTDETRv2をスクラッチから学習させるか、カスタムデータセットで微調整するには、多くの場合、大規模なハイエンドGPU が必要となる。これは、Ultralytics 軽量なトレーニングフットプリントと比較すると、小規模で機敏なチームにとっては障壁となり得る。
パフォーマンスとメトリクスの分析
標準的なCOCO でこれらのモデルを評価した際、パラメータ数、FLOPs、および純粋な精度との間に明確なトレードオフが観察される。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
結果の分析
表に示す通り、YOLO11 驚異的な性能対サイズ比YOLO11 YOLO11xはRTDETRv2-x(54.3)と比較して高いmAPval(54.7)を達成しつつ、パラメータ数を大幅に削減(56.9M vs 76M)し、計算FLOPsも大幅に低減(194.9B vs 259B)している。
さらに、YOLO11T4上での推論速度は TensorRT での推論速度は極めて高速である。YOLO11sはわずか2.5msで推論を完了する一方、最小規模のRTDETRv2-sでも5.03msを要する。これにより、フレーム処理時間が主要なボトルネックとなる高速リアルタイム動画解析ストリームにおいて、YOLO11 決定的なYOLO11 となる。
トランスフォーマーのコスト
RTDETRv2は注意層によって優れた精度を達成するが、これらの機構は画像解像度に対して二次的にスケールするため、学習時と推論時の両方でVRAM消費量が増加する。YOLO11 超効率的な畳み込みブロックによってこの問題をYOLO11 。
トレーニングエコシステムとユーザビリティ
Ultralytics 核心的な利点は、その周辺エコシステムにある。RTDETRv2のトレーニングでは、研究レベルの複雑なリポジトリの操作、複雑な二部グラフマッチング損失の重み調整、そして膨大なメモリオーバーヘッドの管理が頻繁に必要となる。
一方、Ultralytics 開発者体験に重点をUltralytics 。統一されたPython 定型コードを抽象化し、以下のようなツールとシームレスに統合します Weights & Biasesなどの実験追跡ツールとシームレスに連携し、データ拡張を自動的に処理します。
以下に、モデルをトレーニングしてエクスポートする手順の簡単さを示します。 ultralytics パッケージ:
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")
トレーニング後、YOLO11 を ONNX、 OpenVINO、または CoreML は単一のコマンドのみで動作し、多様なハードウェアバックエンドにビジョンパイプラインを容易に拡張できます。
マルチタスク機能
RTDETRv2がバウンディングボックス検出に特化している一方で、YOLO11 は姿勢推定とインスタンスセグメンテーションをネイティブにサポートしており、複数のビジョンタスクを単一のモデルファミリーに統合することが可能です。
ユースケースと推奨事項
RT-DETR YOLO11 プロジェクトの具体的な要件、デプロイメント上の制約、およびエコシステムの選RT-DETR 。
YOLO11を選択すべき時
YOLO11 以下に最適YOLO11 :
- 生産環境への導入: ラズベリーパイやNVIDIA などのデバイス上で動作する商用アプリケーションにおいて、信頼性と積極的なメンテナンスが最優先事項となる場合。
- マルチタスク視覚アプリケーション:単一の統合フレームワーク内で検出、セグメンテーション、姿勢推定、およびOBBを必要とするプロジェクト。
- 迅速なプロトタイピングとデプロイメント:データ収集から生産までを迅速に進める必要があるチーム向けに、Ultralytics Python 効率化されたインターフェースを提供します。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
今後の展望: YOLO26の力
YOLO11 優れた実用的な選択肢YOLO11 一方、最先端を求めるチームはYOLO26を強く検討すべきである。2026年1月にリリースされたYOLO26は、エンドツーエンドNMS設計(YOLOv10初めて導入)を中核に直接組み込むことでアーキテクチャのギャップを埋め、後処理の遅延とデプロイロジックの複雑さを完全に排除している。
YOLO26はまた、いくつかの革新的な機能を導入しています:
- MuSGDオプティマイザー:Moonshot AIのKimi K2のLLMトレーニング技術に着想を得た、SGD ミューオンのハイブリッド手法。驚異的な安定性を実現し、収束速度を劇的に向上させます。
- DFL除去:ディストリビューション・フォーカル・ロス(DFL)を除去し、よりクリーンで簡素化されたエクスポートプロセスを実現。これにより、低消費電力エッジデバイスの互換性が大幅に向上しました。
- ProgLoss + STAL:これらの高度な損失関数は、ドローン監視、農業モニタリング、IoTエッジセンサーにとって重要な要件である小規模物体認識において顕著な改善をもたらす。
- 最大43%高速CPU :専用GPUを配備していない環境向けに、YOLO26はCPU に特化して最適化されており、従来世代を大幅に上回る性能を発揮します。
より幅広いアーキテクチャを探求したい方に向けて、Ultralytics 以下の内容についても解説しています YOLOv8、広く採用されている YOLOv5、およびオープンボキャブラリ検出アプリケーションYOLO特化モデルに関する知見を提供しています。最終的に、実績ある安定性をYOLO11 画期的な革新YOLO11 、Ultralytics 比類のないツールを提供し、コンピュータビジョンソリューションを実現します。