RTDETRv2 vs. YOLOv9: リアルタイム物体検出トランスフォーマーとCNNの比較
コンピュータビジョンの分野では、主に畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのモデルの間で、アーキテクチャの哲学が興味深い分かれ道を辿っています。RTDETRv2とYOLOv9を比較する場合、開発者は本質的にグローバルアテンションメカニズムとプログラマブル勾配情報の間のトレードオフを評価することになります。両モデルともそれぞれのパラダイムにおける最高峰であり、リアルタイム物体検出の限界を押し広げています。
モデルの紹介
RTDETRv2: リアルタイム物体検出トランスフォーマー
Baiduの研究者によって開発されたRTDETRv2は、オリジナルのRT-DETRをベースにしており、「Bag-of-Freebies」を導入することで、基本的なリアルタイム物体検出トランスフォーマーを強化しています。これは、トランスフォーマーの伝統的なボトルネックであった推論速度の課題に対処し、リアルタイムアプリケーションでの活用を可能にしました。
- 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 組織: Baidu
- 日付: 2024-07-24
- リンク: Arxiv, GitHub
RTDETRv2の決定的な特徴は、ネイティブなエンドツーエンドのNMSフリー設計です。後処理中の非最大値抑制(NMS)を完全に排除することで、モデルは推論レイテンシを安定させ、デプロイパイプラインを簡素化します。グローバルアテンションメカニズムにより、画像全体のコンテキストを同時に評価できるため、複雑なシーンの理解や密集した群衆の検出において優れた性能を発揮します。
YOLOv9: プログラマブル勾配情報
非常に効率的なCNNベースのアーキテクチャであるYOLOv9は、ディープニューラルネットワークに固有の情報ボトルネック問題に対処します。プログラマブル勾配情報(PGI)とGeneralized Efficient Layer Aggregation Network(GELAN)を導入しています。
- 著者: Chien-Yao Wang および Hong-Yuan Mark Liao
- 組織: 中央研究院 資訊科學研究所
- 日付: 2024年2月21日
- リンク: Arxiv, GitHub
YOLOv9は、実証済みの畳み込みニューラルネットワークの基盤に依存しながら、パラメータ効率を最大化します。フィードフォワードプロセス中に重要な情報を保持することで信頼性の高い重み更新を保証し、信じられないほど軽量でありながら高精度なモデルを実現しています。ただし、RTDETRv2とは異なり、YOLOv9は依然として標準的なNMS後処理に依存しています。
パフォーマンスとリソース効率
実運用に向けてこれらのモデルを評価する際は、平均適合率(mAP)と計算コストのバランスが重要になります。以下の表は、MS COCOデータセットにおける両モデルの性能を示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
メモリ要件と学習効率
RTDETRv2のようなトランスフォーマーは、トレーニング中に大量のメモリを消費することで知られており、完全に収束させるためには十分なCUDAメモリとより長いトレーニングスケジュールが必要になることがよくあります。逆に、YOLOv9やその他のUltralytics YOLOモデルといったCNNアーキテクチャは、メモリ使用量が非常に少なく、コンシューマーグレードのハードウェアでもより大きなバッチサイズでのトレーニングが可能です。
ハードウェアの利用率を最大化するには、効率的なクラウドトレーニングのためにUltralytics Platformの利用を検討してください。環境構築や最適なバッチサイズの決定を自動的に処理します。
Ultralyticsの利点: エコシステムと使いやすさ
RTDETRv2やYOLOv9の公式GitHubページのようなスタンドアロンのリポジトリを調査することは非常に勉強になりますが、実運用環境では安定性、使いやすさ、そして十分にメンテナンスされたエコシステムが求められます。これらのモデルをUltralytics Python API経由で統合することで、シームレスな開発体験が得られます。
統合APIと汎用性
Ultralyticsフレームワークは、データ読み込み、拡張、分散トレーニングの複雑さを抽象化します。さらに、オリジナルのRTDETRv2は検出に特化していますが、Ultralyticsエコシステムを使用すると、ユーザーは物体検出、インスタンスセグメンテーション、姿勢推定の間を容易に移行できます。
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")With robust documentation, automatic experiment tracking, and seamless export capabilities to formats like ONNX, TensorRT, and OpenVINO, Ultralytics drastically reduces the time from prototype to production.
理想的な使用ケース
RTDETRv2が優れている点
グローバルアテンションメカニズムのおかげで、RTDETRv2はサーバーサイド処理や、グローバルコンテキストが極めて重要な環境において強力なパワーを発揮します。以下のような分野で優れています。
- 医療画像処理: 周囲のコンテキストが不可欠となる微妙な異常を特定する用途。
- 航空監視: 従来のCNN畳み込みの空間的バイアスに左右されることなく、高解像度のドローン映像から小さな物体を発見する用途。
- 密集した群衆の分析: 通常のアンカーベースモデルでは混同しやすい、深刻な遮蔽物がある場所での個人の追跡。
YOLOv9が優れている点
YOLOv9は、リソースが制約されたエッジデプロイにおいて強力な選択肢です。その計算効率は、以下のような用途に理想的です。
- ロボティクス: 最小限のレイテンシが求められるリアルタイムのナビゲーションや障害物回避。
- スマートシティIoT: 交通監視のためにNVIDIA Jetsonなどのエッジデバイスへデプロイする用途。
- 産業検査: 高いFPSが求められる高速組立ラインでの品質管理。
未来:Ultralytics YOLO26の登場
YOLOv9とRTDETRv2は大きな飛躍を遂げましたが、状況は急速に進化しています。最新のデプロイメントには、新たにリリースされた**Ultralytics YOLO26**が、両方のアーキテクチャの哲学を究極的に融合させたモデルとして最適です。
トランスフォーマーとCNNの優れた側面を組み合わせることで、YOLO26は新しい基準を確立しました。
- エンドツーエンドのNMSフリー設計: RTDETRv2と同様に、YOLO26はネイティブなエンドツーエンド設計であり、NMS後処理を完全に排除することで、より高速でシンプル、かつ非常に予測可能なデプロイパイプラインを実現します。
- MuSGDオプティマイザ: 大規模言語モデル(LLM)のトレーニング技術(Moonshot AIのKimi K2など)に触発されたYOLO26は、SGDとMuonのハイブリッドを利用しています。これにより、コンピュータビジョンにおいて比類のないトレーニングの安定性と高速な収束を実現します。
- CPU推論が最大43%高速化: 重量級のトランスフォーマーとは異なり、YOLO26はGPUを持たないエッジコンピューティングやデバイス向けに大幅に最適化されています。
- DFLの削除: Distribution Focal Lossを削除することでモデルグラフが劇的に簡素化され、低電力エッジデバイスや組み込みのニューラルプロセッシングユニット(NPU)への完璧なエクスポートを保証します。
- ProgLoss + STAL: これらの改善された損失関数により、IoTデータセットや航空データセットで重要な機能である、小さな物体の認識性能が劇的に向上しています。
新しいコンピュータビジョンプロジェクトを開始しようとしているチームには、YOLO26の評価を強くお勧めします。これは、トランスフォーマーのNMSフリーなエレガンスと、高度に最適化されたYOLOアーキテクチャの圧倒的なスピードおよびトレーニング効率を兼ね備えています。
まとめ
RTDETRv2とYOLOv9のどちらを選択するかは、主にデプロイ先のハードウェアと特定の精度要件に依存します。RTDETRv2はサーバーベースのアプリケーションに対して最先端の精度とコンテキスト認識を提供し、YOLOv9はエッジデバイス向けに卓越した効率を提供します。
しかし、成熟したUltralyticsエコシステムを活用することで、開発者は両方のモデルを容易に試すことができます。さらに、YOLO11のような新しいモデルや、ネイティブなエンドツーエンドのYOLO26の導入により、高速な推論、汎用的なタスクサポート、低メモリ消費の完璧なバランスを見つけることがこれまでになく簡単になりました。