RTDETRv2 対YOLOv9：リアルタイム検出用トランスフォーマーとCNNの比較

コンピュータビジョン分野では、主に畳み込みニューラルネットワーク（CNN）とトランスフォーマーベースのモデルの間で、アーキテクチャ哲学における興味深い分岐が見られる。RTDETRv2YOLOv9比較する際、開発者は本質的にグローバルアテンション機構とプログラム可能な勾配情報のトレードオフを評価している。両モデルはそれぞれのパラダイムの頂点を示し、リアルタイム物体検出の限界を押し広げている。

モデルの紹介

RTDETRv2: リアルタイム検出トランスフォーマー

Baiduの研究者によって開発されたRTDETRv2は、ベースラインのReal-Time Detection Transformerを強化するために「Bag-of-Freebies」を導入することで、オリジナルのRT-DETRを基盤として構築されています。これにより、Transformerの従来のボトルネックである推論速度に対処し、リアルタイムアプリケーションでの実用性を高めています。

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織:Baidu
日付: 2024-07-24
リンク:Arxiv,GitHub

RTDETRv2の決定的な特徴は、ネイティブなエンドツーエンドNMSフリー設計です。後処理中のNon-Maximum Suppression (NMS)を完全に排除することで、モデルは推論レイテンシを安定させ、デプロイメントパイプラインを簡素化します。グローバルアテンションメカニズムにより、モデルは画像全体のコンテキストを同時に評価するため、複雑なシーン理解と密集した群衆において優れています。

RTDETRv2の詳細について。

YOLOv9: プログラマブル勾配情報

YOLOv9、高効率なCNNベースのアーキテクチャであり、深層ニューラルネットワークに内在する情報ボトルネック問題に対処する。プログラマブル勾配情報（PGI）と汎用効率的層集約ネットワーク（GELAN）を導入している。

著者: Chien-Yao Wang and Hong-Yuan Mark Liao
組織:中央研究院情報科学研究所
日付: 2024年2月21日
リンク:Arxiv,GitHub

YOLOv9 実績のある畳み込みニューラルネットワークの基盤にYOLOv9 、パラメータ効率を最大化している。順伝播処理中に重要な情報を保持することで、信頼性の高い重み更新を保証し、驚くほど軽量でありながら高精度なモデルを実現している。ただし、RTDETRv2とは異なり、YOLOv9 標準NMS に依存している。

YOLOv9について詳しくはこちら

性能と資源効率

これらのモデルを実運用で評価する際には、平均精度（mAP）と計算コストのバランスが極めて重要である。下表はMSCOCO における各モデルの性能を示している。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

メモリ要件とトレーニング効率

RTDETRv2のようなトランスフォーマーは、学習中に非常にメモリを消費することで知られており、完全な収束には多くのCUDA 長い学習スケジュールが必要となる場合が多い。一方、YOLOv9 Ultralytics YOLO のようなCNNアーキテクチャは、非常に低いメモリ使用量を実現しており、開発者はコンシューマー向けハードウェア上でより大きなバッチサイズで学習を行える。

効率的なトレーニング

ハードウェア利用率を最大化するには、Ultralytics 効率的なクラウドトレーニングの利用をご検討ください。環境設定と最適なバッチサイズ設定を自動的に処理します。

Ultralytics ：エコシステムと使いやすさ

公式のRTDETRv2やYOLOv9 のようなスタンドアロンリポジトリを調査することは非常に教育的ですが、本番環境では安定性、使いやすさ、そして適切に管理されたエコシステムが求められます。Ultralytics Python を通じてこれらのモデルを統合することで、シームレスな開発者体験が実現します。

統一APIと汎用性

Ultralytics は、データロード、拡張、分散トレーニングの複雑さを抽象化します。さらに、オリジナルのRTDETRv2が検出に特化しているのに対し、Ultralytics では、物体検出、インスタンスセグメンテーション、姿勢推定の間を容易に移行できます。

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

堅牢なドキュメント機能、自動実験追跡、ONNXなどのフォーマットへのシームレスなエクスポート機能を備えています。 ONNXなどのフォーマットへのシームレスなエクスポート機能を備えています。 TensorRT、OpenVINOなどへのシームレスなエクスポート機能により、Ultralytics プロトタイプから本番環境への移行時間をUltralytics 短縮します。

理想的なユースケース

RTDETRv2が優れている点

グローバルな注意メカニズムにより、RTDETRv2はサーバーサイド処理やグローバルコンテキストが最優先される環境において強力な処理能力を発揮します。特に以下の点で優れています：

医用画像処理: 周囲のコンテキストが重要となる、微妙な異常の特定。
航空監視: 従来のCNN畳み込みの空間的バイアスなしに、高解像度のドローン映像から小さなオブジェクトを検出します。
混雑した群衆の分析: 重度のオクルージョンが通常アンカーベースモデルを混乱させるような状況で、個々の人物を追跡します。

YOLOv9 点

YOLOv9 、リソース制約のあるエッジデプロイメントのチャンピオンYOLOv9 。その計算効率により、以下に最適です：

ロボット工学: 最小限のレイテンシが要求されるリアルタイムのナビゲーションと障害物回避。
スマートシティIoT: NVIDIA Jetsonのようなエッジデバイスに展開して交通監視を行います。
産業検査: 高いフレームレート（FPS）を要求する高速組立ラインの品質管理です。

未来：Ultralytics の登場

YOLOv9 RTDETRv2YOLOv9 大きな飛躍を遂げたものの、状況は急速に変化している。現代的な導入においては、新たにリリースされた Ultralytics は、両方のアーキテクチャ哲学の究極の融合を体現しています。

トランスフォーマーとCNNの最高の側面を取り入れることで、YOLO26は新しい標準を確立します。

エンドツーエンドのNMSフリー設計: RTDETRv2と同様に、YOLO26はネイティブにエンドツーエンドであり、NMS後処理を完全に排除することで、より高速でシンプル、かつ予測可能性の高いデプロイメントパイプラインを実現します。
MuSGDオプティマイザ: 大規模言語モデル (LLM) の学習技術 (Moonshot AIのKimi K2など) に触発され、YOLO26はSGDとMuonのハイブリッドを利用しています。これにより、コンピュータビジョンに比類のない学習安定性と迅速な収束がもたらされます。
最大43%高速なCPU推論: 重いトランスフォーマーとは異なり、YOLO26はエッジコンピューティングおよびGPUを持たないデバイス向けに高度に最適化されています。
DFLの削除: Distribution Focal Lossの削除によりモデルグラフが劇的に簡素化され、低消費電力エッジデバイスや組み込みNPU (Neural Processing Units) への完璧なエクスポートが保証されます。
ProgLoss + STAL: これらの改良された損失関数は、小さなオブジェクトの認識を劇的に強化し、IoTおよび航空データセットにとって重要な機能となります。

新しいコンピュータビジョンプロジェクトを開始しようとしているチームには、YOLO26の評価を強くお勧めします。これは、トランスフォーマーのNMSフリーの優雅さと、高度に最適化されたYOLOアーキテクチャの驚異的な速度とトレーニング効率を兼ね備えています。

YOLO26についてさらに詳しく

概要

RTDETRv2とYOLOv9のどちらを選択するかは、主にデプロイハードウェアと特定の精度要件に左右されます。RTDETRv2はサーバーバックエンドアプリケーション向けに最先端の精度とコンテキスト認識を提供しますが、YOLOv9はエッジデバイス向けに優れた効率性を提供します。

しかし、成熟したUltralytics を活用することで、開発者は両方を容易に試すことができます。さらに、 YOLO11 やネイティブのエンドツーエンドモデルであるYOLO26などの新モデルが登場したことで、高速推論、多様なタスク対応、低メモリ消費の最適なバランスを見つけることがこれまで以上に容易になりました。