YOLOv9 . RTDETRv2:現代的な物体検出技術への深い考察
リアルタイム物体検出の分野では近年、パラダイムシフトが起きている。高度に最適化された畳み込みニューラルネットワーク(CNN)とリアルタイム検出トランスフォーマー(DETR)という、二つの異なるアーキテクチャ哲学が台頭し、この分野を支配している。これら二つのアプローチの頂点を代表するのが YOLOv9 とRTDETRv2である。
この包括的なガイドでは、これら2つの強力なモデルを比較し、そのアーキテクチャ上の革新性、性能指標、および理想的な導入シナリオを分析することで、コンピュータビジョンパイプラインに適したモデルを選択するお手伝いをします。
概要
両モデルとも最先端の結果を達成しているが、それぞれが対応するデプロイメント制約と開発エコシステムが若干異なる。
- YOLOv9 を選択してください:エッジデバイス上で高効率なパラメータ利用と高速推論が必要な YOLOv9 。 YOLOv9 CNN効率の理論的限界をYOLOv9 、計算リソースが厳しく制限される環境に最適です。
- 以下の条件に該当する場合、RTDETRv2を選択してください:Transformersが提供する微妙な文脈理解が必要であり、特に深刻なオクルージョンや複雑なオブジェクト関係が存在するシーンにおいて、かつ、やや重いアーキテクチャをサポートするハードウェアを有している場合。
- YOLO26(推奨)を選択すべき場合:両方の長所を最大限に活かしたい場合。 Ultralytics 利用可能な最新世代であるYOLO26は、ネイティブなエンドツーNMS設計(DETRモデルに類似するが大幅に高速)を特徴とし、後処理のボトルネックを解消し、前世代比で最大43%高速なCPU を実現します。
技術仕様と著作権
これらのモデルの起源と設計意図を理解することは、その建築的選択を理解する上で重要な背景を提供する。
YOLOv9
著者:王建耀、廖宏源
所属機関:中央研究院 情報科学研究所
日付:2024年2月21日
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:WongKinYiu/yolov9
RTDETRv2
著者:呂文宇, 趙一安, 張勤耀, 黄奎, 王冠中, 劉毅
所属機関:Baidu日付:2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:RT-DETR
アーキテクチャの革新
YOLOv9: 情報のボトルネックを解決する
Ultralytics YOLOv9 深層ニューラルネットワークを通過するデータの情報損失に対処するために設計された2つの主要な革新を導入します:
- プログラマブル勾配情報(PGI):この補助的監視フレームワークは、ネットワークの重みを更新するための信頼性の高い勾配を生成し、非常に深いネットワーク層においても重要な特徴情報を保持することを保証します。
- 汎用効率的層集約ネットワーク(GELAN):CSPNetとELANの強みを融合した新規アーキテクチャ。GELANはパラメータ効率を最適化し、従来のCNNと比較して少ないFLOPsYOLOv9 。
RTDETRv2: リアルタイムトランスフォーマーの強化
RT-DETR成功を基盤として、RTDETRv2はトランスフォーマーベースのアーキテクチャを採用し、本質的に非最大抑制(NMS)の必要性を回避します。その改良点には以下が含まれます:
- 無料特典戦略:バージョン2では、推論遅延にオーバーヘッドを追加することなく精度を大幅に向上させる高度なトレーニング手法とデータ拡張技術が組み込まれています。
- 効率的なハイブリッドエンコーダ:分離された同一スケール間および異スケール間注意機構を通じてマルチスケール特徴を処理することで、RTDETRv2は従来ビジョン・トランスフォーマーに高かった計算コストを効率的に管理する。
ネイティブのエンドツーエンド検出
RTDETRv2がNMS検出にトランスフォーマーを活用する一方、新たなYOLO26アーキテクチャは高度に最適化されたCNN構造内でこれをネイティブに実現し、同様の効率的なデプロイメントを提供しつつ、エッジ推論速度において圧倒的に優れた性能を発揮する。
パフォーマンス比較
モデルを本番環境で評価する際、精度と計算要件のトレードオフが極めて重要である。以下の表は、標準的なベンチマークにおける各種モデルサイズの性能をまとめたものである。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
分析
データが示すように、 YOLOv9 はパラメータ効率において圧倒的な優位性を維持している。YOLOv9cモデルはわずか2530mAP .0mAP 驚異的な精度を達成し、非常に軽量なモデルとなっている。
一方、RTDETRv2は中規模から大規模モデルカテゴリーにおいて強力な競争力を発揮する。ただし、これはパラメータ数の増加と、トランスフォーマーモデルに典型的な大幅なFLOPs増加を代償とする。このアーキテクチャの違いはメモリ使用量にも反映される:YOLO 、トレーニング時と推論時の両方で、トランスフォーマーモデルと比較CUDA 大幅に少なく必要とするのが一般的である。
Ultralytics :エコシステムと汎用性
純粋なアーキテクチャ指標も重要ではあるが、ソフトウェアエコシステムがAIプロジェクトの成否を左右することが多い。Ultralytics Python 介してこれらの高度なモデルにアクセスすることで、他に類を見ない利点が得られる。
効率化されたトレーニングと展開
検出用トランスフォーマーのトレーニングには通常、複雑な設定ファイルと高性能GPUが必要です。Ultralytics を活用することで、YOLOv9 同一の簡潔な構文でトレーニングでき、高効率なトレーニングパイプラインと容易に入手可能な事前学習済み重みの恩恵を受けられます。
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")
比類なきタスクの汎用性
RTDETRv2のような特化型モデルの主な制限は、バウンディングボックス検出に焦点を絞っている点である。これに対し、Ultralytics より広範なUltralytics 、 YOLO11 や YOLOv8といったモデルを含むより広範なUltralyticsエコシステムは、多様なコンピュータビジョンタスクをサポートしています。これには、ピクセル単位のインスタンスセグメンテーション、骨格姿勢推定、画像全体の分類、航空写真向けのオリエンテッドバウンディングボックス(OBB)検出などが含まれます。
現実世界のアプリケーション
高速エッジ分析
小売環境や製造ラインにおいて、エッジデバイス上でのリアルタイム製品認識を必要とする場合、 YOLOv9 が最適な選択肢です。そのGELANアーキテクチャは、NVIDIA シリーズのような制約のあるハードウェア上でも高いスループットを確保し、大幅な遅延なしに自動化された品質管理を実現します。
複雑なシーン分析
密集した群衆の監視や複雑な交通交差点など、物体が頻繁に互いを遮蔽するシナリオにおいて、RTDETRv2のグローバルアテンション機構が真価を発揮する。本モデルは画像コンテキスト全体をネイティブに推論する能力を有するため、物体が部分的に隠れていても堅牢な追跡と検出を維持できる。
ユースケースと推奨事項
RT-DETR YOLOv9 プロジェクトの具体的な要件、デプロイメント上の制約、およびエコシステム上の好みにRT-DETR 。
YOLOv9を選択すべき時
YOLOv9 以下のような場合に有力な選択肢YOLOv9 :
- 情報ボトルネック研究:プログラマブル勾配情報(PGI)および汎用効率的層集約ネットワーク(GELAN)アーキテクチャを研究する学術プロジェクト。
- 勾配フロー最適化研究:深層ネットワーク層における学習中の情報損失の理解と軽減に焦点を当てた研究。
- 高精度検出ベンチマーク: YOLOv9強力なCOCO 性能が、アーキテクチャ比較の基準点として必要とされるシナリオ。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
未来:YOLO26の登場
YOLOv9 RTDETRv2YOLOv9 画期的な成果ではあるものの、コンピュータビジョン分野は急速に進化している。新規プロジェクトを開始しようとする開発者にとって、 YOLO26 が推奨される最先端ソリューションです。
2026年にリリースされたYOLO26は、CNNとDETRの両方の優れた特徴を統合しています。エンドツーエンドNMS設計を特徴とし、後処理の遅延を完全に排除しています。この技術は最初に YOLOv10で初めて確立された技術です。さらにYOLO26は、エッジ端末での互換性を高めるため分布焦点損失(DFL)を廃止し、革新的なMuSGDオプティマイザーを導入しました。大規模言語モデル(特にMoonshot AIのKimi K2)の学習手法に着想を得たこのハイブリッドオプティマイザーは、前例のない学習安定性と高速な収束を保証します。
ProgLossやSTALといった改良された損失関数と組み合わせることで、微小物体認識において卓越した性能を発揮するYOLO26は、 CPU 最大43%高速化。これにより、現代のAI導入における究極のモデルとしての地位を確固たるものにしています。