YOLOv9 . RTDETRv2：現代的な物体検出技術への深い考察

リアルタイム物体検出の分野では近年、パラダイムシフトが起きている。高度に最適化された畳み込みニューラルネットワーク（CNN）とリアルタイム検出トランスフォーマー（DETR）という、二つの異なるアーキテクチャ哲学が台頭し、この分野を支配している。これら二つのアプローチの頂点を代表するのが YOLOv9 とRTDETRv2である。

この包括的なガイドでは、これら2つの強力なモデルを比較し、そのアーキテクチャ上の革新性、性能指標、および理想的な導入シナリオを分析することで、コンピュータビジョンパイプラインに適したモデルを選択するお手伝いをします。

概要

両方のモデルは最先端の結果を達成しますが、それぞれわずかに異なるデプロイメント制約と開発エコシステムに対応しています。

YOLOv9を選択してください。エッジデバイスで非常に効率的なパラメータ利用と高速推論が必要な場合に最適です。YOLOv9はCNN効率の理論的限界を押し広げ、計算リソースが厳しく制限されている環境に最適です。
RTDETRv2を選択してください。特に深刻なオクルージョンや複雑なオブジェクト関係を持つシーンで、Transformerが提供する微妙なコンテキスト理解が必要な場合、そしてわずかに重いアーキテクチャをサポートするハードウェアがある場合に適しています。
YOLO26（推奨）を選択してください。両方の世界の絶対的な最高を求める場合に最適です。Ultralytics Platformで利用可能な最新世代として、YOLO26はネイティブなエンドツーエンドNMS-Free設計（DETRモデルに似ていますが、はるかに高速）を特徴とし、後処理のボトルネックを排除し、以前の世代よりも最大43%高速なCPU推論を提供します。

技術仕様と著作権

これらのモデルの起源と設計意図を理解することは、その建築的選択を理解する上で重要な背景を提供する。

YOLOv9

著者: Chien-Yao Wang および Hong-Yuan Mark Liao
所属:中央研究院情報科学研究所
日付: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:WongKinYiu/yolov9

YOLOv9について詳しくはこちら

RTDETRv2

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、および Yi Liu
所属:Baidu日付: 2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:lyuwenyu/RT-DETR

RTDETRの詳細について。

アーキテクチャの革新

YOLOv9: 情報のボトルネックを解決する

Ultralytics YOLOv9は、データが深層ニューラルネットワークを通過する際に発生する情報損失に対処するために設計された2つの主要なイノベーションを導入しています。

プログラマブル勾配情報 (PGI): この補助的な教師あり学習フレームワークは、ネットワークの重みを更新するために信頼性の高い勾配が生成されることを保証し、非常に深いネットワークレイヤーにおいても重要な特徴情報を保持します。
Generalized Efficient Layer Aggregation Network (GELAN): CSPNetとELANの強みを組み合わせた新しいアーキテクチャです。GELANはパラメータ効率を最適化し、YOLOv9が従来のCNNと比較して少ないFLOPsでより高い精度を達成できるようにします。

RTDETRv2: リアルタイムトランスフォーマーの強化

オリジナルのRT-DETRの成功を基盤とし、RTDETRv2は、非最大抑制（NMS）の必要性を本質的に回避するトランスフォーマーベースのアーキテクチャを利用しています。その改善点には以下が含まれます。

Bag-of-Freebies戦略: v2イテレーションでは、推論レイテンシにオーバーヘッドを追加することなく精度を大幅に向上させる、高度なトレーニング技術とデータ拡張が組み込まれています。
効率的なハイブリッドエンコーダ: デカップリングされたスケール内およびスケール間アテンションメカニズムを通じてマルチスケール特徴を処理することで、RTDETRv2はVision Transformersの従来高い計算コストを効率的に管理します。

ネイティブのエンドツーエンド検出

RTDETRv2がNMS検出にトランスフォーマーを活用する一方、新たなYOLO26アーキテクチャは高度に最適化されたCNN構造内でこれをネイティブに実現し、同様の効率的なデプロイメントを提供しつつ、エッジ推論速度において圧倒的に優れた性能を発揮する。

パフォーマンス比較

モデルを本番環境で評価する際、精度と計算要件のトレードオフが極めて重要である。以下の表は、標準的なベンチマークにおける各種モデルサイズの性能をまとめたものである。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

分析

データが示すように、YOLOv9はパラメータ効率において厳格な優位性を維持しています。YOLOv9cモデルは、わずか25.3Mのパラメータで印象的な53.0 mAPを達成しており、非常に軽量です。

対照的に、RTDETRv2は中規模から大規模モデルのカテゴリで強力な競争力を持っています。しかし、これはTransformerモデルに典型的な、より高いパラメータ数と大幅に大きなFLOPsを犠牲にします。このアーキテクチャの違いはメモリ使用量にも影響します。YOLOモデルは通常、Transformerモデルと比較して、トレーニングと推論の両方で大幅に少ないCUDAメモリしか必要としません。

Ultralytics ：エコシステムと汎用性

純粋なアーキテクチャ指標も重要ではあるが、ソフトウェアエコシステムがAIプロジェクトの成否を左右することが多い。Ultralytics Python 介してこれらの高度なモデルにアクセスすることで、他に類を見ない利点が得られる。

効率化されたトレーニングと展開

検出用トランスフォーマーのトレーニングには通常、複雑な設定ファイルと高性能GPUが必要です。Ultralytics を活用することで、YOLOv9 同一の簡潔な構文でトレーニングでき、高効率なトレーニングパイプラインと容易に入手可能な事前学習済み重みの恩恵を受けられます。

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

比類なきタスクの汎用性

RTDETRv2のような特化型モデルの主な限界は、バウンディングボックス detect に特化している点です。対照的に、YOLO11やYOLOv8などのモデルを含むより広範なUltralyticsエコシステムは、幅広いコンピュータービジョンタスクをサポートしています。これには、ピクセルパーフェクトなインスタンス segment、骨格姿勢推定、画像全体の分類、および航空画像向けのOriented Bounding Box (OBB) detect が含まれます。

現実世界のアプリケーション

高速エッジ分析

エッジデバイスでのリアルタイム製品認識を必要とする小売環境や製造ラインにおいて、YOLOv9は優れた選択肢です。そのGELANアーキテクチャは、NVIDIA Jetsonシリーズのような制約のあるハードウェアでも高いスループットを保証し、大幅な遅延なしに自動品質管理を可能にします。

複雑なシーン分析

密集した群衆の監視や複雑な交通交差点など、物体が頻繁に互いを遮蔽するシナリオにおいて、RTDETRv2のグローバルアテンション機構が真価を発揮する。本モデルは画像コンテキスト全体をネイティブに推論する能力を有するため、物体が部分的に隠れていても堅牢な追跡と検出を維持できる。

ユースケースと推奨事項

YOLOv9とRT-DETRのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって異なります。

YOLOv9を選択すべき時

YOLOv9 以下のような場合に有力な選択肢YOLOv9 ：

情報ボトルネック研究: プログラマブル勾配情報（PGI）および汎用効率的層集約ネットワーク（GELAN）アーキテクチャを研究する学術プロジェクトです。
勾配フロー最適化研究: トレーニング中の深層ネットワーク層における情報損失の理解と軽減に焦点を当てた研究。
高精度detectベンチマーク: YOLOv9の強力なCOCOベンチマーク性能が、アーキテクチャ比較の参照点として必要とされるシナリオ。

RT-DETRを選択すべきタイミング

RT-DETR 以下に推奨RT-DETR ：

トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

未来：YOLO26の登場

YOLOv9 RTDETRv2YOLOv9 画期的な成果ではあるものの、コンピュータビジョン分野は急速に進化している。新規プロジェクトを開始しようとする開発者にとって、 YOLO26 が推奨される最先端ソリューションです。

2026年にリリースされたYOLO26は、CNNとDETRの両方の優れた特徴を統合しています。エンドツーエンドNMS設計を特徴とし、後処理の遅延を完全に排除しています。この技術は最初に YOLOv10で初めて確立された技術です。さらにYOLO26は、エッジ端末での互換性を高めるため分布焦点損失（DFL）を廃止し、革新的なMuSGDオプティマイザーを導入しました。大規模言語モデル（特にMoonshot AIのKimi K2）の学習手法に着想を得たこのハイブリッドオプティマイザーは、前例のない学習安定性と高速な収束を保証します。

優れた小オブジェクト認識のためのProgLossやSTALといった改良された損失関数と相まって、YOLO26は最大43%高速なCPU推論を実現し、現代のAIデプロイメントにおける究極のモデルとしての地位を確立しています。