RTDETRv2 対YOLOv9:リアルタイム検出用トランスフォーマーとCNNの比較
コンピュータビジョン分野では、主に畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのモデルの間で、アーキテクチャ哲学における興味深い分岐が見られる。RTDETRv2YOLOv9比較する際、開発者は本質的にグローバルアテンション機構とプログラム可能な勾配情報のトレードオフを評価している。両モデルはそれぞれのパラダイムの頂点を示し、リアルタイム物体検出の限界を押し広げている。
モデルの紹介
RTDETRv2: リアルタイム検出トランスフォーマー
百度の研究者によって開発されたRTDETRv2は、ベースラインとなるリアルタイム検出トランスフォーマーを強化するため「Bag-of-Freebies」RT-DETR 導入RT-DETR オリジナルのRT-DETR を基盤としています。これはトランスフォーマーの従来のボトルネックである推論速度の問題に対処し、リアルタイムアプリケーションでの実用性を実現します。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- リンク:Arxiv,GitHub
RTDETRv2の決定的な特徴は、ネイティブにエンドツーエンドNMS設計であることだ。後処理段階での非最大抑制(NMS)を完全に排除することで、推論レイテンシを安定化させ、デプロイメントパイプラインを簡素化する。グローバルアテンション機構により、画像全体の文脈を同時に評価するため、複雑なシーン理解や密集した群衆において優れた性能を発揮する。
YOLOv9: プログラマブル勾配情報
YOLOv9、高効率なCNNベースのアーキテクチャであり、深層ニューラルネットワークに内在する情報ボトルネック問題に対処する。プログラマブル勾配情報(PGI)と汎用効率的層集約ネットワーク(GELAN)を導入している。
- 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
- 組織:中央研究院情報科学研究所
- 日付: 2024年2月21日
- リンク:Arxiv,GitHub
YOLOv9 実績のある畳み込みニューラルネットワークの基盤にYOLOv9 、パラメータ効率を最大化している。順伝播処理中に重要な情報を保持することで、信頼性の高い重み更新を保証し、驚くほど軽量でありながら高精度なモデルを実現している。ただし、RTDETRv2とは異なり、YOLOv9 標準NMS に依存している。
性能と資源効率
これらのモデルを実運用で評価する際には、平均精度(mAP)と計算コストのバランスが極めて重要である。下表はMSCOCO における各モデルの性能を示している。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
メモリ要件とトレーニング効率
RTDETRv2のようなトランスフォーマーは、学習中に非常にメモリを消費することで知られており、完全な収束には多くのCUDA 長い学習スケジュールが必要となる場合が多い。一方、YOLOv9 Ultralytics YOLO のようなCNNアーキテクチャは、非常に低いメモリ使用量を実現しており、開発者はコンシューマー向けハードウェア上でより大きなバッチサイズで学習を行える。
効率的なトレーニング
ハードウェア利用率を最大化するには、Ultralytics 効率的なクラウドトレーニングの利用をご検討ください。環境設定と最適なバッチサイズ設定を自動的に処理します。
Ultralytics :エコシステムと使いやすさ
公式のRTDETRv2やYOLOv9 のようなスタンドアロンリポジトリを調査することは非常に教育的ですが、本番環境では安定性、使いやすさ、そして適切に管理されたエコシステムが求められます。Ultralytics Python を通じてこれらのモデルを統合することで、シームレスな開発者体験が実現します。
統一APIと汎用性
Ultralytics は、データロード、拡張、分散トレーニングの複雑さを抽象化します。さらに、オリジナルのRTDETRv2が検出に特化しているのに対し、Ultralytics では、物体検出、インスタンスセグメンテーション、姿勢推定の間を容易に移行できます。
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")
堅牢なドキュメント機能、自動実験追跡、ONNXなどのフォーマットへのシームレスなエクスポート機能を備えています。 ONNXなどのフォーマットへのシームレスなエクスポート機能を備えています。 TensorRT、OpenVINOなどへのシームレスなエクスポート機能により、Ultralytics プロトタイプから本番環境への移行時間をUltralytics 短縮します。
理想的なユースケース
RTDETRv2が優れている点
グローバルな注意メカニズムにより、RTDETRv2はサーバーサイド処理やグローバルコンテキストが最優先される環境において強力な処理能力を発揮します。特に以下の点で優れています:
- 医療画像診断:周囲の文脈が極めて重要となる微細な異常の特定
- 空中監視:従来のCNN畳み込みによる空間バイアスなしに、高解像度ドローン映像内の微小物体を検出する。
- 密集群衆解析:重度の遮蔽が通常アンカーベースモデルを混乱させる状況下での個人追跡
YOLOv9 点
YOLOv9 、リソース制約のあるエッジデプロイメントのチャンピオンYOLOv9 。その計算効率により、以下に最適です:
- ロボティクス:最小限の遅延が要求されるリアルタイムナビゲーションと障害物回避。
- スマートシティIoT: NVIDIA Jetsonなどのエッジデバイスへの展開による交通監視。
- 産業用検査:高速フレームレート(FPS)を必要とする高速組立ラインの品質管理。
未来:Ultralytics の登場
YOLOv9 RTDETRv2YOLOv9 大きな飛躍を遂げたものの、状況は急速に変化している。現代的な導入においては、新たにリリースされた Ultralytics は、両方のアーキテクチャ哲学の究極の融合を体現しています。
トランスフォーマーとCNNの優れた点を組み合わせることで、YOLO26は新たな基準を確立した:
- エンドツーエンドNMS設計:RTDETRv2と同様に、YOLO26はネイティブにエンドツーエンドであり、NMS 完全に排除することで、より高速で簡素化され、予測性の高いデプロイメントパイプラインを実現します。
- MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニング技術(Moonshot AIのKimi K2など)に着想を得て、YOLO26SGD ミューオンのハイブリッド方式を採用しています。これにより、コンピュータービジョン分野において比類のないトレーニング安定性と高速収束を実現します。
- 最大43%高速CPU :重いトランスフォーマーとは異なり、YOLO26はエッジコンピューティングやGPU非搭載デバイス向けに大幅に最適化されています。
- DFL除去:ディストリビューション・フォーカル・ロス(DFL)を除去することでモデルグラフが劇的に簡素化され、低消費電力のエッジデバイスや組み込み型ニューラルプロセッシングユニット(NPU)への完璧なエクスポートが保証されます。
- ProgLoss + STAL:これらの改良された損失関数は、IoTおよび航空データセットにとって重要な特徴である小規模物体認識を劇的に向上させる。
新たなコンピュータビジョンプロジェクトを開始するチームには、YOLO26の評価を強く推奨します。これは、トランスフォーマーのNMSという洗練性と、高度に最適化されたYOLO 驚異的な速度および学習効率を兼ね備えています。
概要
RTDETRv2YOLOv9 選択は、YOLOv9 デプロイ環境のハードウェアと具体的な精度要件によって決まります。RTDETRv2はサーバーバックエンドアプリケーション向けに最先端の精度と文脈認識能力を提供し、一方YOLOv9 エッジデバイス向けに卓越した効率性YOLOv9 。
しかし、成熟したUltralytics を活用することで、開発者は両方を容易に試すことができます。さらに、 YOLO11 やネイティブのエンドツーエンドモデルであるYOLO26などの新モデルが登場したことで、高速推論、多様なタスク対応、低メモリ消費の最適なバランスを見つけることがこれまで以上に容易になりました。