コンテンツにスキップ

YOLOX対RTDETRv2:リアルタイム物体検出モデルの進化を評価する

コンピュータビジョンアプリケーションに最適なアーキテクチャを選択するには、精度、推論速度、導入可能性の慎重なバランスが求められる。本包括的な技術分析では、極めて成功したアンカーフリーCNNアーキテクチャであるYOLOXと、最先端のリアルタイム検出トランスフォーマーであるRTDETRv2との根本的な差異を探る。

両モデルとも物体検出分野に大きく貢献してきたが、実運用向けアプリケーションを開発する開発者は、Ultralytics のような現代的な代替手法の方が、優れた学習効率、低いメモリ要件、そしてより堅牢なデプロイメント環境を提供していることに気づくことが多い。

YOLOX:研究と産業の架け橋

YOLOXYOLO アンカーフリー版として高い人気を博し、リリース当時において性能の大幅な向上を実現した簡素化された設計を導入した。

  • 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
  • 組織:Megvii
  • 日付: 2021年7月18日
  • リンク:Arxiv, GitHub, Docs

アーキテクチャの革新

YOLOXYOLO アンカーフリーパラダイムへ移行させ、分離型ヘッドと先進的なSimOTAラベル割り当て戦略を統合した。アンカーボックスを排除することで、設計パラメータ数を大幅に削減し、多様なベンチマークデータセットにおける汎化性能を向上させた。軽量版であるYOLOX-NanoとYOLOX-Tinyは、エッジデバイス上でのビジョンAIアプリケーション展開において広く採用される選択肢となった。

レガシーに関する考慮事項

YOLOXは顕著な進歩をもたらしたものの、重厚な拡張パイプラインや従来型のNMSなどの古い後処理ルーチンへの依存により、ネイティブなエンドツーエンドモデルと比較して高い遅延が生じる可能性がある。

YOLOXの詳細について。

RTDETRv2: リアルタイム視覚トランスフォーマーの進化

前世代モデルの基盤を継承しつつ、RTDETRv2はビジョントランスフォーマー(ViTs)の力を活用し、リアルタイム推論速度を犠牲にすることなく、極めて競争力のある精度を実現します。

  • 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
  • 組織:Baidu
  • 日付: 2024-07-24
  • リンク:Arxiv,GitHub

アーキテクチャの革新

RTDETRv2は、非最大抑制(NMS)をネイティブに回避するトランスフォーマーベースのアーキテクチャを活用することで、検出パイプラインを根本的に再構築します。これはハイブリッドエンコーダとIoUクエリ選択によって実現され、オブジェクトクエリの初期化を改善します。本モデルはマルチスケール特徴を効果的に処理し、夜間交通映像検出など複雑な環境における微細な詳細の捕捉を可能にします。

ただし、トランスフォーマーは本質的にリソースを大量に消費する。RTDETRv2のトレーニングには、CNNベースの代替手法に比べて通常、大幅に多くのGPU 算サイクルが必要となる。これは、厳しい予算制約下で活動するチームや、頻繁なモデル調整を必要とするチームにとって障壁となり得る。

RTDETRの詳細について。

性能比較表

これらのアーキテクチャを客観的に評価するため、COCO における性能を検証する。下表は精度(mAP)、パラメータ数、計算複雑性のトレードオフを示している。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

RTDETRv2は高い精度を達成している一方、YOLOXは軽量なパラメータプロファイルにおいて優位性を維持しており、特にNanoおよびTinyのバリエーションで顕著である。

ユースケースと推奨事項

RT-DETR 、具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステム上の好みにRT-DETR 。

YOLOXを選択すべき時

YOLOXは以下に最適な選択肢です:

  • アンカーフリー検出研究:YOLOXのクリーンなアンカーフリーアーキテクチャをベースラインとして、新たな検出ヘッドや損失関数の実験を行う学術研究。
  • 超軽量エッジデバイス:マイクロコントローラーやレガシーモバイルハードウェアへの展開において、YOLOX-Nanoモデルの極めて小さなフットプリント(0.91Mパラメータ)が極めて重要となる。
  • SimOTAラベル割り当て研究:最適輸送に基づくラベル割り当て戦略と、それが学習収束に与える影響を調査する研究プロジェクト。

RT-DETRを選択すべきタイミング

RT-DETR 以下に推奨RT-DETR :

  • トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
  • 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
  • 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。

Ultralytics YOLO26)を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:

  • NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
  • CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
  • 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。

Ultralytics のUltralytics :YOLO26

YOLOXとRTDETRv2はいずれも独自の強みを持つが、新たにリリースUltralytics 、速度・精度・導入容易性という従来のトレードオフを解決し、ビジョンAIの最先端技術を再定義する。

1. エンドツーエンドNMS

YOLO26は、CNNの効率性を維持しつつトランスフォーマーモデルから着想を得て、ネイティブにエンドツーエンドNMS設計を実現しています。後処理ステップとしての非最大抑制(NMS)を排除することで、YOLO26はデプロイメントパイプラインを劇的に簡素化し、複雑な閾値調整のオーバーヘッドなしに、様々なエッジデバイス間で一貫した推論レイテンシを保証します。

2.CPU 最大43%高速化

RTDETRv2のようなトランスフォーマーアーキテクチャがハイエンドGPUに大きく依存するのとは異なり、YOLO26はエッジコンピューティング環境向けに特別に最適化されています。分布焦点損失(DFL)を排除することで、YOLO26はモデルエクスポートを効率化し、CPU 最大43%高速化。これにより、ラズベリーパイや標準的なモバイルデバイスなどのハードウェアへの統合に最適な選択肢となっています。

3. MuSGDを用いたトレーニング効率

トランスフォーマーモデルのトレーニングでは、CUDA 過剰消費やトレーニング時間の長期化が頻発する。YOLO26は新規のMuSGDオプティマイザーを導入した。これは確率的勾配降下法とLLMに着想を得たMuonオプティマイザーを融合したハイブリッド手法である。この革新により、極めて安定したトレーニングと高速な収束を実現し、RTDETRv2と比較してハードウェア要件を大幅に低減した。

4. 比類なきエコシステムと汎用性

Ultralytics 直感的で効率的な開発者体験を提供します。充実したドキュメント、活発なコミュニティサポート、Ultralytics により、AIライフサイクル全体の管理がこれまで以上に容易になりました。さらにYOLO26は高い汎用性を備えています。RTDETRv2が物体検出に特化する一方、YOLO26はインスタンスセグメンテーション姿勢推定画像分類オリエンテッドバウンディングボックス(OBB)タスクをネイティブでシームレスにサポートします。新たなProgLoss + STAL損失関数により強化されたYOLO26は、航空画像産業用欠陥検出において重要な機能である微小物体認識にも優れています。

その他のサポート対象モデル

Ultralytics 、前世代のYOLO11もサポートしています。 YOLO11 および YOLOv8をサポートしており、ユーザーは既存のパイプラインを容易にベンチマークし移行できます。

Ultralyticsとのシームレスな統合

モデルのデプロイに複雑で断片化されたコードベースと格闘する必要はありません。Ultralytics Python を使えば、最先端モデルをわずか数行のコードで読み込み、トレーニングし、エクスポートできます。

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

Ultralyticsを活用することで、研究リポジトリに通常伴う複雑な環境設定を回避し、市場投入までの時間を短縮できます。

結論

YOLOXとRTDETRv2は、リアルタイム物体検出の進展における重要なマイルストーンである。YOLOXは高効率なアンカーフリーCNNの実用性を証明し、RTDETRv2はトランスフォーマーをリアルタイム制約に適合させることに成功した。

しかし、スマート小売分析から組み込みロボティクスに至る現代のアプリケーションにおいて、Ultralytics 決定的なソリューションを提供します。NMS推論と比類なきCPU 、低メモリフットプリント、Ultralytics の堅牢なサポートを融合させることで、YOLO26は開発者が次世代の信頼性の高い高性能コンピュータビジョンシステムを構築することを可能にします。


コメント