YOLOv9 vs. RTDETRv2: 現代の物体検出に関する技術的な深掘り
リアルタイム物体検出の情勢は、近年パラダイムシフトを経験しています。この分野を支配する2つの異なるアーキテクチャ哲学、すなわち高度に最適化された畳み込みニューラルネットワーク(CNN)と、リアルタイム検出Transformer(DETR)が登場しました。これら2つのアプローチの頂点に立つのが、YOLOv9とRTDETRv2です。
本包括的ガイドでは、これら2つの強力なモデルを比較し、そのアーキテクチャの革新、パフォーマンスメトリクス、および最適なデプロイメントシナリオを分析して、お客様のコンピュータビジョンパイプラインに適したモデルを選択できるよう支援します。
エグゼクティブサマリー
どちらのモデルも最先端の結果を達成していますが、デプロイメントの制約や開発エコシステムの面で若干異なります。
- YOLOv9を選択すべき場合: エッジデバイスにおいて高度に効率的なパラメータ利用と高速な推論が必要な場合。YOLOv9はCNN効率の理論的限界を押し広げており、計算リソースが厳しく制限される環境に最適です。
- RTDETRv2を選択すべき場合: Transformerが提供する詳細なコンテキストの理解が必要な場合、特に深刻な遮蔽があるシーンや複雑な物体関係が存在するシーンに適しています。また、少し重量のあるアーキテクチャをサポートするためのハードウェア環境が必要です。
- YOLO26(推奨)を選択すべき場合: 両方の利点を最大限に享受したい場合。Ultralytics Platformで利用可能な最新世代であるYOLO26は、ネイティブなEnd-to-End NMS-Free Design(DETRモデルに似ていますが、はるかに高速)を特徴としており、ポストプロセッシングのボトルネックを排除し、前世代と比較して最大43%高速なCPU推論を提供します。
技術仕様と作成者
これらのモデルの起源と設計意図を理解することは、アーキテクチャの選択における重要な背景となります。
YOLOv9
著者: Chien-Yao Wang、Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica
日付: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9
RTDETRv2
著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
所属: Baidu
日付: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR
アーキテクチャの革新
YOLOv9:情報ボトルネックの解決
Ultralytics YOLOv9は、ディープニューラルネットワークをデータが通過する際の情報の損失に対処するために設計された2つの主要な革新を導入しています。
- Programmable Gradient Information (PGI): この補助的な教師あり学習フレームワークは、ネットワークの重みを更新するために信頼性の高い勾配が生成されることを保証し、非常に深いネットワーク層においても重要な特徴情報を保持します。
- Generalized Efficient Layer Aggregation Network (GELAN): CSPNetとELANの長所を組み合わせた新しいアーキテクチャです。GELANはパラメータ効率を最適化し、従来のCNNと比較して、より少ないFLOPsでYOLOv9がより高い精度を達成できるようにします。
RTDETRv2: リアルタイムTransformerの強化
オリジナルのRT-DETRの成功の上に構築されたRTDETRv2は、Non-Maximum Suppression (NMS)の必要性を本質的に回避するTransformerベースのアーキテクチャを利用しています。その改善点には以下が含まれます。
- Bag-of-Freebies Strategy: v2イテレーションには、推論レイテンシにオーバーヘッドを追加することなく精度を大幅に向上させる高度なトレーニング技術とデータ拡張が含まれています。
- Efficient Hybrid Encoder: マルチスケールの特徴をデカップル化されたイントラスケールおよびクロススケールのAttentionメカニズムを通じて処理することで、RTDETRv2はVision Transformerの伝統的に高い計算コストを効率的に管理します。
RTDETRv2はNMSフリー検出のためにTransformerを活用していますが、新しいYOLO26アーキテクチャは、高度に最適化されたCNN構造内でこれをネイティブに達成しており、同様の合理化されたデプロイメントを提供しつつ、エッジ推論速度において格段に優れています。
パフォーマンスの比較
プロダクション用にモデルを評価する際、精度と計算要件の間のトレードオフは非常に重要です。以下の表は、標準的なベンチマーク全体でのさまざまなモデルサイズのパフォーマンスの概要を示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
分析
データが示すように、YOLOv9はパラメータ効率において明確な利点を維持しています。YOLOv9cモデルは、わずか25.3Mのパラメータで53.0 mAPという素晴らしい成果を達成しており、非常に軽量です。
逆に、RTDETRv2は中規模から大規模のモデルカテゴリで強力な競争力を提供します。ただし、これにはTransformerモデルに特有の、より多くのパラメータ数と大幅に大きいFLOPsが必要となる代償があります。このアーキテクチャの違いはメモリ使用量にも反映され、通常YOLOモデルは、Transformerベースのモデルと比較して、トレーニングおよび推論の両方において圧倒的に少ないCUDAメモリしか必要としません。
Ultralyticsの利点: エコシステムと汎用性
純粋なアーキテクチャメトリクスも重要ですが、AIプロジェクトの成功は多くの場合ソフトウェアエコシステムによって左右されます。Ultralytics Python APIを通じてこれらの高度なモデルにアクセスすることは、比類のない利点を提供します。
合理化されたトレーニングとデプロイメント
検出用Transformerのトレーニングには、通常複雑な設定ファイルとハイエンドのGPUが必要です。Ultralyticsフレームワークを活用することで、開発者は同一のシンプルな構文を使用してYOLOv9およびRTDETRの両方のモデルをトレーニングでき、高効率なトレーニングパイプラインとすぐに利用可能な事前学習済み重みの恩恵を受けることができます。
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")比類なきタスク汎用性
RTDETRv2のような専門的なモデルの大きな制限は、バウンディングボックス検出への限定的な焦点です。対照的に、YOLO11やYOLOv8のようなモデルを含む、より広範なUltralyticsエコシステムは、広範囲のコンピュータビジョンタスクをサポートしています。これには、ピクセル単位のインスタンスセグメンテーション、骨格ベースの姿勢推定、画像全体の分類、および航空画像用のOriented Bounding Box (OBB)検出が含まれます。
実世界の応用例
高速エッジアナリティクス
エッジデバイスでのリアルタイムな製品認識を必要とする小売環境や製造ラインでは、YOLOv9が優れた選択肢です。そのGELANアーキテクチャは、NVIDIA Jetsonシリーズのような制約のあるハードウェア上で高いスループットを確保し、大幅な遅延なしに自動品質管理を可能にします。
複雑なシーン分析
頻繁に物体が重なり合う密集した群衆の監視や複雑な交差点などのシナリオでは、RTDETRv2のグローバルAttentionメカニズムが輝きます。画像全体をネイティブに推論するモデルの能力により、物体が部分的に隠れている場合でも堅牢な追跡と検出を維持できます。
ユースケースと推奨事項
YOLOv9とRT-DETRのどちらを選択するかは、プロジェクト固有の要件、デプロイメントの制約、およびエコシステムの優先順位によって異なります。
YOLOv9を選択すべき場合
YOLOv9は次のような場合に適した選択肢です:
- 情報のボトルネック研究: プログラマブル勾配情報 (PGI) および Generalized Efficient Layer Aggregation Network (GELAN) アーキテクチャを研究する学術プロジェクト。
- 勾配フロー最適化の研究: 学習中の深層ネットワーク層における情報の損失を理解し、軽減することに焦点を当てた研究。
- 高精度検出のベンチマーク: アーキテクチャ比較の基準点として、YOLOv9の強力なCOCOベンチマークパフォーマンスが必要なシナリオ。
RT-DETRを選ぶべき場面
RT-DETRは次の場合に推奨されます:
- Transformerベースの検出研究: NMSなしでのエンドツーエンドの物体検出に向けて、アテンションメカニズムとTransformerアーキテクチャを研究するプロジェクト。
- レイテンシを柔軟に調整できる高精度シナリオ: 検出精度が最優先であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体の検出: 主に中型から大型の物体が含まれるシーン。Transformerのグローバルアテンションメカニズムが自然な利点をもたらします。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
未来: YOLO26の登場
YOLOv9とRTDETRv2は大きな成果を表していますが、コンピュータビジョンの分野は急速に変化しています。新しいプロジェクトを開始しようとしている開発者にとって、**YOLO26**が推奨される最先端のソリューションです。
2026年にリリースされたYOLO26は、CNNとDETRの両方の優れた機能を組み込んでいます。これは、YOLOv10で最初に開拓された手法である、ポストプロセッシングのレイテンシを完全に排除するEnd-to-End NMS-Free Designを特徴としています。さらに、YOLO26はエッジ互換性を向上させるためにDistribution Focal Loss (DFL)を削除し、革新的なMuSGD Optimizerを導入しています。大規模言語モデルのトレーニング(特にMoonshot AIのKimi K2)に触発されたこのハイブリッドオプティマイザは、前例のないトレーニング安定性と高速な収束を保証します。
ProgLossやSTALのような改善された損失関数と組み合わせて、非常に小さな物体認識を実現するYOLO26は、最大43%高速なCPU推論を提供し、現代のAIデプロイメントのための究極のモデルとしての地位を固めています。