コンテンツにスキップ

RTDETRv2 vs.YOLO:現代的なリアルタイム物体検出の包括的ガイド

コンピュータビジョンの分野は絶えず進化を続けており、研究者やエンジニアは速度、精度、効率の完璧なバランスを実現するモデルの構築に尽力している。この領域で大きな波紋を呼んだ二つの主要なアーキテクチャが、百度が開発したRTDETRv2と、アリババグループが構築YOLO。両モデルともリアルタイム物体検出の限界を押し広げているが、その驚異的な成果を達成するために採用しているアーキテクチャの哲学は根本的に異なる。

この技術比較では、各モデルのアーキテクチャ、トレーニング手法、実環境での展開能力を詳細に検証します。さらに、高度に最適化Ultralytics や最先端のYOLO26アーキテクチャなど、広範なエコシステムにおけるこれらのモデルの比較評価も行います。

アーキテクチャの革新

これらのモデルの中核的な仕組みを理解することは、本番環境に適したツールを選択する任務を負う機械学習エンジニアにとって極めて重要である。

RTDETRv2:Transformerアプローチ

RT-DETR成功を基盤に、RTDETRv2はハイブリッドエンコーダとトランスフォーマーデコーダを採用しています。この設計により、モデルはグローバルコンテキストを非常に効率的に処理でき、高密度シーンにおける重なり合う物体の識別において特に優れた性能を発揮します。 このアーキテクチャの最大の利点は、NMS(非最大抑制)NMSネイティブな設計である。NMS ステップを排除することで、RTDETRv2は推論パイプラインを効率化し、様々なハードウェア構成においてより安定したレイテンシを確保する。

RTDETRv2の詳細について。

YOLO: CNN効率の向上

一方、YOLO、非常に成功したCNNベースYOLO に根ざしつつも、いくつかの画期的な改良を導入している。ニューラルアーキテクチャ検索(NAS)を活用してバックボーンを最適化し、特徴抽出効率を最大化する。 さらに、効率的なRepGFPN(再パラメータ化汎用特徴ピラミッドネットワーク)とZeroHead設計を組み込み、AlignedOTAおよびディスティレーション強化技術を採用している。これらの革新により、YOLO 高速推論YOLO 、極めて競争力のあるmAPvalスコアを維持している。

DAMO-YOLOの詳細

建築的分岐

RTDETRv2NMSを用いずにグローバル特徴理解のための注意機構を活用することに焦点を当てる一方、YOLO NASと高度なディスティレーションを通じて従来型CNNの効率をYOLO 、標準的な後処理を必要とするものの、特定のハードウェア上で顕著な速度優位性を提供する。

パフォーマンスとメトリクスの比較

モデルをデプロイする際に評価する上で、平均精度(mAP)、推論速度、パラメータ数などの性能指標が極めて重要である。以下に、2つのモデルファミリーの詳細な比較を示す。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

結果の分析

表に示す通り、RTDETRv2-xはmAPval54.3という最高精度を達成し、COCO のような複雑な検証データセットにおいてトランスフォーマーアーキテクチャの威力を示している。ただし、これはパラメータ数(76M)とFLOPsが大幅に増加するという代償を伴う。

一方、DAMO-YOLO(Tiny)は極めて軽量で、わずか850万パラメータしか必要としないため、CUDA 厳しく制限される環境において非常に高速な選択肢となる。YOLO 、レガシーなエッジデバイスにおいて、速度と精度の間でYOLO 良好なトレードオフを提供する。

エコシステム、ユーザビリティ、そしてUltralytics

公式RT-DETR YOLO といった独立リポジトリでは、これらのモデルを訓練するための生コードを提供していますが、それらを本番パイプラインに統合するには、多くの場合、膨大な定型コードと手動による最適化が必要となります。

Ultralytics 、開発者体験を劇的に簡素化します。Ultralytics RTDETRv2などのモデルを統一APIに直接Ultralytics 、ユーザーはたった1行のコードでモデルのトレーニング、検証、エクスポートが可能です。さらに、Ultralytics 、重いトランスフォーマーベースのスタンドアロンリポジトリと比較して、トレーニング時のメモリ要件が最小限であることで知られています。

コード例:シームレスな統合

Ultralytics Python を活用して推論を実行する手順は驚くほど簡単です。トランスフォーマーモデルを使用する場合でも、最先端のCNNを使用する場合でも、APIは一貫して同じです。

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")

# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")

# Display the results
results_yolo[0].show()

生産用モデルのエクスポート

Ultralytics を使用することで、シームレスに 学習済みモデルをエクスポートする TensorRT、ONNX、CoreML などの形式へCoreML 簡単な model.export(format="engine") コマンドにより、デプロイの摩擦を大幅に削減します。

理想的なユースケース

これらのアーキテクチャの選択は、完全にプロジェクトの具体的な要件に依存します:

  • RTDETRv2は、VRAMが豊富なサーバーサイド処理において優れた性能を発揮します。そのグローバルコンテキスト認識能力は、遮蔽が頻繁に発生する医療画像処理や密集した群衆分析に最適です。
  • YOLO、パラメータ数が少なく高FPSが厳格に要求される組み込みIoTアプリケーションや高速な産業用検査ラインに極めて適しています。

未来: Ultralytics YOLO26

RTDETRv2とYOLO それぞれ長所YOLO ものの、コンピュータビジョン分野は急速に進歩している。新規プロジェクトでは最新の Ultralytics は、速度、精度、開発者体験の究極の融合を実現しています。

YOLO26はエンドツーエンドNMS設計を採用し、膨大な計算オーバーヘッドなしに変換器の主要な利点を実現します。大規模言語モデルトレーニングに着想を得た革新的なMuSGDオプティマイザーを組み込み、安定した高速収束を実現します。さらにDFL除去(分布焦点損失を除去し、簡素化されたエクスポートとエッジ/低電力デバイスとの互換性を向上)により、 CPU 最大43%高速化エッジコンピューティング分野における圧倒的な優位性を確立しました。加えてProgLoss + STALにより損失関数が改良され、IoT・ロボティクス・航空画像処理で重要な小物体認識性能が顕著に向上しています。

バウンディングボックスに限定されたモデルとは異なり、YOLO26ファミリーは比類のない汎用性を提供し、インスタンスセグメンテーションや 姿勢推定から方向付きバウンディングボックス(OBB)に至るまでのタスクをサポートします。これら全てはUltralytics 管理されます。

PlatformでYOLO26を探索する

モデルの詳細と参照情報

RTDETRv2

DAMO-YOLO

他の比較に興味のあるユーザーは、RTDETRv2 vs.YOLO11またはYOLO .YOLOv8のガイドを参照し、これらのモデルUltralytics 従来世代と比べてどのように動作するかを確認してください。


コメント