YOLOX対RTDETRv2：リアルタイム物体検出モデルの進化を評価する

コンピュータービジョンアプリケーションに最適なアーキテクチャを選択するには、精度、推論速度、およびデプロイメントの実現可能性の慎重なバランスが必要です。この包括的な技術分析では、非常に成功したアンカーフリーCNNアーキテクチャであるYOLOXと、最先端のリアルタイム検出トランスフォーマーであるRTDETRv2の根本的な違いを探ります。

両モデルとも物体検出分野に大きく貢献してきたが、実運用向けアプリケーションを開発する開発者は、Ultralytics のような現代的な代替手法の方が、優れた学習効率、低いメモリ要件、そしてより堅牢なデプロイメント環境を提供していることに気づくことが多い。

YOLOX：研究と産業の架け橋

YOLOXYOLO アンカーフリー版として高い人気を博し、リリース当時において性能の大幅な向上を実現した簡素化された設計を導入した。

著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
組織:Megvii
日付: 2021年7月18日
リンク:Arxiv, GitHub, Docs

アーキテクチャの革新

YOLOXYOLO アンカーフリーパラダイムへ移行させ、分離型ヘッドと先進的なSimOTAラベル割り当て戦略を統合した。アンカーボックスを排除することで、設計パラメータ数を大幅に削減し、多様なベンチマークデータセットにおける汎化性能を向上させた。軽量版であるYOLOX-NanoとYOLOX-Tinyは、エッジデバイス上でのビジョンAIアプリケーション展開において広く採用される選択肢となった。

レガシーに関する考慮事項

YOLOXは顕著な進歩をもたらしたものの、重厚な拡張パイプラインや従来型のNMSなどの古い後処理ルーチンへの依存により、ネイティブなエンドツーエンドモデルと比較して高い遅延が生じる可能性がある。

YOLOXの詳細について。

RTDETRv2: リアルタイム視覚トランスフォーマーの進化

その前身モデルの基盤の上に構築され、RTDETRv2はVision Transformers (ViTs) の力を活用し、リアルタイム推論速度を犠牲にすることなく、非常に競争力のある精度を達成します。

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織:Baidu
日付: 2024-07-24
リンク:Arxiv,GitHub

アーキテクチャの革新

RTDETRv2は、非最大抑制（NMS）をネイティブに回避するトランスフォーマーベースのアーキテクチャを活用することで、検出パイプラインを根本的に再構築します。これはハイブリッドエンコーダとIoUクエリ選択によって実現され、オブジェクトクエリの初期化を改善します。本モデルはマルチスケール特徴を効果的に処理し、夜間交通映像検出など複雑な環境における微細な詳細の捕捉を可能にします。

ただし、トランスフォーマーは本質的にリソースを大量に消費する。RTDETRv2のトレーニングには、CNNベースの代替手法に比べて通常、大幅に多くのGPU 算サイクルが必要となる。これは、厳しい予算制約下で活動するチームや、頻繁なモデル調整を必要とするチームにとって障壁となり得る。

RTDETRの詳細について。

性能比較表

これらのアーキテクチャを客観的に評価するため、COCO における性能を検証する。下表は精度（mAP）、パラメータ数、計算複雑性のトレードオフを示している。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

RTDETRv2は高い精度を達成している一方、YOLOXは軽量なパラメータプロファイルにおいて優位性を維持しており、特にNanoおよびTinyのバリエーションで顕著である。

ユースケースと推奨事項

YOLOXとRT-DETRのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって異なります。

YOLOXを選択すべき時

YOLOXは以下に最適な選択肢です：

アンカーフリー検出研究: YOLOXのクリーンなアンカーフリーアーキテクチャをベースラインとして使用し、新しい検出ヘッドや損失関数を実験する学術研究。
超軽量エッジデバイス: YOLOX-Nanoバリアントの極めて小さいフットプリント（0.91Mパラメータ）が重要となるマイクロコントローラーやレガシーモバイルハードウェアへのデプロイ。
SimOTAラベル割り当て研究: 最適輸送ベースのラベル割り当て戦略と、それがトレーニング収束に与える影響を調査する研究プロジェクト。

RT-DETRを選択すべきタイミング

RT-DETR 以下に推奨RT-DETR ：

トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

Ultralytics のUltralytics ：YOLO26

YOLOXとRTDETRv2はいずれも独自の強みを持つが、新たにリリースUltralytics 、速度・精度・導入容易性という従来のトレードオフを解決し、ビジョンAIの最先端技術を再定義する。

1. エンドツーエンドのNMSフリーアーキテクチャ

YOLO26は、CNNの効率性を維持しつつトランスフォーマーモデルから着想を得て、ネイティブにエンドツーエンドNMS設計を実現しています。後処理ステップとしての非最大抑制（NMS）を排除することで、YOLO26はデプロイメントパイプラインを劇的に簡素化し、複雑な閾値調整のオーバーヘッドなしに、様々なエッジデバイス間で一貫した推論レイテンシを保証します。

2. CPU推論が最大43%高速化

RTDETRv2のようなトランスフォーマーアーキテクチャがハイエンドGPUに大きく依存するのとは異なり、YOLO26はエッジコンピューティング環境向けに特別に最適化されています。分布焦点損失（DFL）を排除することで、YOLO26はモデルエクスポートを効率化し、CPU 最大43%高速化。これにより、ラズベリーパイや標準的なモバイルデバイスなどのハードウェアへの統合に最適な選択肢となっています。

3. MuSGDによるトレーニング効率

トランスフォーマーモデルのトレーニングでは、CUDA 過剰消費やトレーニング時間の長期化が頻発する。YOLO26は新規のMuSGDオプティマイザーを導入した。これは確率的勾配降下法とLLMに着想を得たMuonオプティマイザーを融合したハイブリッド手法である。この革新により、極めて安定したトレーニングと高速な収束を実現し、RTDETRv2と比較してハードウェア要件を大幅に低減した。

4. 比類なきエコシステムと汎用性

Ultralytics 直感的で効率的な開発者体験を提供します。充実したドキュメント、活発なコミュニティサポート、Ultralytics により、AIライフサイクル全体の管理がこれまで以上に容易になりました。さらにYOLO26は高い汎用性を備えています。RTDETRv2が物体検出に特化する一方、YOLO26はインスタンスセグメンテーション、姿勢推定、画像分類、オリエンテッドバウンディングボックス（OBB）タスクをネイティブでシームレスにサポートします。新たなProgLoss + STAL損失関数により強化されたYOLO26は、航空画像や産業用欠陥検出において重要な機能である微小物体認識にも優れています。

その他のサポート対象モデル

Ultralytics 、前世代のYOLO11もサポートしています。 YOLO11 および YOLOv8をサポートしており、ユーザーは既存のパイプラインを容易にベンチマークし移行できます。

Ultralyticsとのシームレスな統合

モデルのデプロイは、複雑で断片化されたコードベースと格闘する必要があるべきではありません。Ultralytics Python APIを使用すると、わずか数行のコードで最先端のモデルをロード、トレーニング、およびエクスポートできます。

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

Ultralyticsを活用することで、研究リポジトリに通常伴う複雑な環境設定を回避し、市場投入までの時間を短縮できます。

結論

YOLOXとRTDETRv2は、リアルタイム物体検出の進展における重要なマイルストーンである。YOLOXは高効率なアンカーフリーCNNの実用性を証明し、RTDETRv2はトランスフォーマーをリアルタイム制約に適合させることに成功した。

しかし、スマート小売分析から組み込みロボティクスに至る現代のアプリケーションにおいて、Ultralytics 決定的なソリューションを提供します。NMS推論と比類なきCPU 、低メモリフットプリント、Ultralytics の堅牢なサポートを融合させることで、YOLO26は開発者が次世代の信頼性の高い高性能コンピュータビジョンシステムを構築することを可能にします。

YOLOX対RTDETRv2：リアルタイム物体検出モデルの進化を評価する

YOLOX：研究と産業の架け橋

アーキテクチャの革新

RTDETRv2: リアルタイム視覚トランスフォーマーの進化

アーキテクチャの革新

性能比較表

ユースケースと推奨事項

YOLOXを選択すべき時

RT-DETRを選択すべきタイミング

Ultralytics YOLO26）を選択すべきタイミング

Ultralytics のUltralytics ：YOLO26

1. エンドツーエンドのNMSフリーアーキテクチャ

2. CPU推論が最大43%高速化

3. MuSGDによるトレーニング効率

4. 比類なきエコシステムと汎用性

Ultralyticsとのシームレスな統合

結論

コメント