RTDETRv2 vs.YOLO:現代的なリアルタイム物体検出の包括的ガイド
コンピュータビジョンの分野は絶えず進化を続けており、研究者やエンジニアは速度、精度、効率の完璧なバランスを実現するモデルの構築に尽力している。この領域で大きな波紋を呼んだ二つの主要なアーキテクチャが、百度が開発したRTDETRv2と、アリババグループが構築YOLO。両モデルともリアルタイム物体検出の限界を押し広げているが、その驚異的な成果を達成するために採用しているアーキテクチャの哲学は根本的に異なる。
この技術比較では、各モデルのアーキテクチャ、トレーニング手法、実環境での展開能力を詳細に検証します。さらに、高度に最適化Ultralytics や最先端のYOLO26アーキテクチャなど、広範なエコシステムにおけるこれらのモデルの比較評価も行います。
アーキテクチャの革新
これらのモデルの中核的な仕組みを理解することは、本番環境に適したツールを選択する任務を負う機械学習エンジニアにとって極めて重要である。
RTDETRv2:Transformerアプローチ
オリジナルのRT-DETRの成功を基盤とし、RTDETRv2はハイブリッドエンコーダーとトランスフォーマーデコーダーを利用しています。この設計により、モデルはグローバルなコンテキストを非常に効果的に処理でき、密集したシーンで重なり合う物体を区別するのに非常に優れています。このアーキテクチャの最も重要な利点は、ネイティブなNMSフリー(非最大抑制)設計であることです。NMSの後処理ステップを排除することで、RTDETRv2は推論パイプラインを合理化し、さまざまなハードウェア構成でより安定したレイテンシを保証します。
DAMO-YOLO: CNN効率の向上
一方、DAMO-YOLOは、非常に成功したCNNベースのYOLO系統に根ざしながらも、いくつかの画期的な強化を導入しています。ニューラルアーキテクチャ探索(NAS)を活用してバックボーンを最適化し、最大の特徴抽出効率を確保しています。さらに、効率的なRepGFPN(Reparameterized Generalized Feature Pyramid Network)とZeroHead設計を、AlignedOTAおよび蒸留強化技術とともに組み込んでいます。これらの革新により、DAMO-YOLOは高い競争力のあるmAPvalスコアを維持しながら、高速な推論速度を達成できます。
アーキテクチャの相違点
RTDETRv2NMSを用いずにグローバル特徴理解のための注意機構を活用することに焦点を当てる一方、YOLO NASと高度なディスティレーションを通じて従来型CNNの効率をYOLO 、標準的な後処理を必要とするものの、特定のハードウェア上で顕著な速度優位性を提供する。
パフォーマンスとメトリクスの比較
モデルをデプロイする際に評価する上で、平均精度(mAP)、推論速度、パラメータ数などの性能指標が極めて重要である。以下に、2つのモデルファミリーの詳細な比較を示す。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
結果の分析
表が示すように、RTDETRv2-xは、mAPvalが54.3で最高の精度を達成しており、COCOデータセットのような複雑な検証におけるトランスフォーマーアーキテクチャの力を示しています。しかし、これは大幅に高いパラメータ数(76M)とFLOPsを伴います。
対照的に、DAMO-YOLOt (Tiny) は非常に軽量で、わずか8.5Mのパラメータしか必要としないため、CUDAメモリが厳しく制限されている環境では、信じられないほど高速な選択肢となります。DAMO-YOLOは一般的に、レガシーなエッジデバイスにおいて、速度と精度の間で良好なトレードオフを提供します。
エコシステム、ユーザビリティ、そしてUltralyticsの優位性
公式RT-DETR YOLO といった独立リポジトリでは、これらのモデルを訓練するための生コードを提供していますが、それらを本番パイプラインに統合するには、多くの場合、膨大な定型コードと手動による最適化が必要となります。
Ultralytics 、開発者体験を劇的に簡素化します。Ultralytics RTDETRv2などのモデルを統一APIに直接Ultralytics 、ユーザーはたった1行のコードでモデルのトレーニング、検証、エクスポートが可能です。さらに、Ultralytics 、重いトランスフォーマーベースのスタンドアロンリポジトリと比較して、トレーニング時のメモリ要件が最小限であることで知られています。
コード例:シームレスな統合
Ultralytics Python を活用して推論を実行する手順は驚くほど簡単です。トランスフォーマーモデルを使用する場合でも、最先端のCNNを使用する場合でも、APIは一貫して同じです。
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")
# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")
# Display the results
results_yolo[0].show()
本番環境向けモデルのエクスポート
Ultralytics を使用することで、シームレスに トレーニング済みモデルをエクスポートする TensorRT、ONNX、CoreML などの形式へCoreML 簡単な model.export(format="engine") コマンドで、デプロイメントの摩擦を大幅に軽減します。
理想的なユースケース
これらのアーキテクチャの選択は、お客様の特定のプロジェクト要件に完全に依存します。
- RT-DETRv2は、VRAMが豊富なサーバーサイド処理において優れています。そのグローバルなコンテキスト認識は、オクルージョンが頻繁に発生する状況での医用画像処理と高密度な群衆分析に最適です。
- DAMO-YOLOは、低いパラメータ数と高いFPSが厳密な要件である組み込みIoTアプリケーションや高速な産業検査ラインに非常に適しています。
未来: Ultralytics YOLO26
RTDETRv2とYOLO それぞれ長所YOLO ものの、コンピュータビジョン分野は急速に進歩している。新規プロジェクトでは最新の Ultralytics は、速度、精度、開発者体験の究極の融合を実現しています。
YOLO26はエンドツーエンドNMS設計を採用し、膨大な計算オーバーヘッドなしに変換器の主要な利点を実現します。大規模言語モデルトレーニングに着想を得た革新的なMuSGDオプティマイザーを組み込み、安定した高速収束を実現します。さらにDFL除去(分布焦点損失を除去し、簡素化されたエクスポートとエッジ/低電力デバイスとの互換性を向上)により、 CPU 最大43%高速化。エッジコンピューティング分野における圧倒的な優位性を確立しました。加えてProgLoss + STALにより損失関数が改良され、IoT・ロボティクス・航空画像処理で重要な小物体認識性能が顕著に向上しています。
バウンディングボックスに限定されたモデルとは異なり、YOLO26ファミリーは比類のない汎用性を提供し、インスタンスセグメンテーションや 姿勢推定から方向付きバウンディングボックス(OBB)に至るまでのタスクをサポートします。これら全てはUltralytics 管理されます。
モデルの詳細と参照情報
RTDETRv2
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETR Repository
DAMO-YOLO
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織:Alibaba Group
- 日付: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:DAMO-YOLOリポジトリ
他の比較に興味があるユーザーは、RTDETRv2 vs. YOLO11またはDAMO-YOLO vs. YOLOv8に関するガイドをご覧になり、これらのモデルがUltralyticsファミリーの以前の世代と比較してどのように機能するかを確認してください。