コンテンツにスキップ

RTDETRv2 vs.YOLOv7: トランスフォーマーベースの進化 vs. CNNの効率性

物体検出の分野では、アーキテクチャの哲学において興味深い分岐が見られる。一方には高性能なYOLOv7に代表される畳み込みニューラルネットワーク(CNN)の系譜が存在する。 YOLOv7が代表する。他方では、トランスフォーマー革命がRTDETRv2(リアルタイム検出トランスフォーマー)を生み出した。このモデルは、ビジョントランスフォーマー(ViT)のグローバルコンテキスト処理能力をリアルタイム速度で実現することを目指している。

このガイドでは、これら2つのアーキテクチャの技術的分析を行い、速度、精度、導入の複雑さにおけるトレードオフを検証します。両者とも発表当時は最先端の性能を発揮しましたが、現代の開発では統合されたエコシステムとエッジ最適化性能を備えた Ultralytics を好む傾向があります。これは両方の世界の優れた特徴(エンドツーエンドのNMS推論など)をネイティブに統合しているためです。

経営陣比較

以下の表は、COCO YOLOv7 RTDETRv2とYOLOv7 の公式性能指標を比較したものです。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

RTDETRv2: トランスフォーマーの挑戦者

RTDETRv2(リアルタイム検出トランスフォーマーバージョン2)は、百度の研究者によって開発されたRT-DETRものです。効率的なハイブリッドエンコーダーの導入とクエリ選択プロセスの簡素化により、ビジョントランスフォーマーに通常伴う高い計算コストに対処します。

主要な技術詳細:

  • 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
  • 組織: Baidu
  • 日付:2023年4月17日 (v1 リリースコンテキスト)
  • リンク:ArXiv論文 | GitHubリポジトリ

RTDETRv2は、非最大抑制(NMS)を不要とする点で際立っている。後処理フィルタリングを必要とする数千もの冗長なバウンディングボックスを生成するCNNとは異なり、RTDETRv2は固定されたオブジェクトクエリセットを直接予測する。このエンドツーエンドの機能により遅延のばらつきが低減され、一貫した推論時間が重要なアプリケーションにおいて魅力的である。

ただし、注意機構への依存により、RTDETRv2は純粋なCNNと比較して学習中にメモリを大量に消費する可能性がある。このモデルはグローバルコンテキスト(画像内の離れた部分間の関係性)の捕捉に優れており、重度の遮蔽が存在する複雑なシーンでの処理に有効である。

RT-DETRの詳細について。

YOLOv7:CNN効率性の頂点

2022年半ばにリリースされた、 YOLOv7は、純粋な畳み込みアーキテクチャが達成できる限界を押し広げた。これは「訓練可能なフリービーの袋」——推論コストを増加させることなく訓練中の精度を向上させる最適化手法——に焦点を当てて設計された。

主要な技術詳細:

YOLOv7 革新はYOLOv7 拡張効率的層集約ネットワーク(E-ELAN) YOLOv7 。このアーキテクチャは勾配経路の長さを効果的に制御することで、ネットワークがより多様な特徴を学習することを可能にする。GPU 驚異的な速度を発揮する一方で、YOLOv7 アンカーベースのYOLOv7 。これは、カスタムデータセット内の特定の物体スケールに合わせるためにアンカーボックスの慎重なハイパーパラメータ調整を必要とすることを意味し、このステップはYOLO4のような新しいモデルでは自動化または省略されることが多い。 YOLO11ではこのステップが自動化または省略されることが多い。

YOLOv7について詳しくはこちら

アーキテクチャの詳細

注意 vs. 畳み込み

これらのモデルの根本的な違いは、視覚データを処理する方法にあります。YOLOv7 畳み込みYOLOv7 、画像の局所的な領域をスキャンします。これにより、エッジやテクスチャといった局所的な特徴の検出が非常に高速かつ効率的になりますが、シーン全体の意味的関係を理解する能力は比較的弱い可能性があります。

RTDETRv2は自己注意機構を採用している。各ピクセルが他の全てのピクセル(または特定の変形可能な注意ポイント内)に対して持つ関連性を計算する。これにより、空間的な距離に関係なく関連する特徴に「注意を向ける」ことが可能となり、物体が大きく重なり合う混雑したシーンにおいて優れた性能を発揮する。

後処理とNMS

YOLOv7、その前身である YOLOv5および YOLOv6と同様に、NMSが必要な高密度予測を出力します。このステップはヒューリスティックな処理であり、人混みが密集したシナリオではボトルネックとなり、精度と再現率に影響を与えるハイパーパラメータ(IoU )を導入します。

RTDETRv2はNMSです。学習中に二部マッチングを用いて、1つの真値オブジェクトを正確に1つの予測に割り当てます。これにより、NMS を実装する必要がなくなり、デプロイメントパイプラインが簡素化されます。 ONNXやTensorRT にNMSロジックを実装する必要がなくなるため、デプロイメントパイプラインを簡素化します。

両方の世界のベスト

RTDETRv2がリアルタイム変圧器向けNMS検出の先駆けとなった一方で、 Ultralytics はこの概念をCNNに成功裏に適応させました。YOLO26は、NMS 排除NMS CNNの低メモリ消費量と高い学習効率を維持する、ネイティブなエンドツーエンド設計を採用しています。

Ultralytics :YOLO26へのアップグレードの理由

古いモデルを分析することは貴重な背景情報を提供しますが、Ultralytics 新規プロジェクトを開始することは、性能、使いやすさ、将来性において大きな利点をもたらします。YOLO26は現在の最先端技術であり、YOLOv7 得られた知見を洗練させています。

1. ネイティブなエンドツーエンド(NMSフリー)

RTDETRv2と同様に、YOLO26NMSとなっており、トレーニングにはOne-to-Manyヘッドを、推論にはOne-to-Oneヘッドを採用しています。YOLOv7後処理のオーバーヘッドが排除され、NVIDIA berry Piなどのエッジデバイス上での展開がより高速かつ簡素化されます。

2. 優れたCPU 性能

RTDETRv2のようなトランスフォーマーは、GPU 必要とする数学的演算を多用する傾向があります。YOLO26はCPU に特化した最適化を施しており、GPU において従来モデル比で最大43%の高速化を実現しています。これにより、モバイルアプリや低消費電力IoTセンサー向けとして、はるかに汎用性の高い選択肢となっています。

3. 高度なトレーニング安定性

YOLO26では、MuSGDオプティマイザーを導入します。これは、SGD ミューオンオプティマイザー(Moonshot AIのKimi K2に着想を得た)のハイブリッドです。これにより、大規模言語モデル(LLM)のトレーニングにおける安定性の革新がコンピュータビジョンにもたらされ、YOLOv7 SGD よりも、モデルがより速く、より高い精度で収束することを保証します。

4. 特殊損失関数

ProgLossとSTALにより、YOLO26は小型物体認識能力を向上させています。これは標準的なCNNや一部のトランスフォーマーアーキテクチャにとって従来からの弱点でした。航空写真解析や製造工程の品質管理といったタスクにおいて、この点は極めて重要です。

5. 統合型Ultralytics

YOLOv7 を用いた開発では、異なるリポジトリの管理や複雑なインストールスクリプトの処理が頻繁に発生します。 Ultralytics はワークフローを統一します。単一のシンプルなAPIを使用して、検出、セグメンテーション分類姿勢推定OBB(オプティマルボディベース)のためのモデルのトレーニング、検証、デプロイが可能です。

from ultralytics import YOLO

# Load the latest YOLO26 model (NMS-free, highly optimized)
model = YOLO("yolo26n.pt")

# Train on COCO dataset with the new MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

YOLO26についてさらに詳しく

ユースケースの推奨事項

  • RTDETRv2を選択すべき場合:強力なGPU(NVIDIA A100など)を利用可能であり、アプリケーションがCNNにとって遮蔽が主要な失敗要因となる高密度シーンを扱う場合。グローバルコンテキストアテンションは、こうした特定のシナリオにおいてわずかな優位性を提供できる。
  • YOLOv7 を選択してください:-旧式のYOLO に依存するレガシーシステムを維持している場合- 純粋なCNNアプローチが必要だが、Ultralyticsがサポートする新しいPython へアップグレードできない場合
  • 以下のUltralytics を選択してください:すべてのハードウェアタイプ(CPU、GPU、NPU)において速度と精度の最適なバランスが必要な場合。 DFL除去によりCoreMLへのエクスポートが容易になります。 CoreMLTFLiteエクスポートが容易になり、メモリ効率の高さによりコンシューマー向けGPUでのトレーニングが可能です。セキュリティ警報システムからスマート駐車管理システムまで、豊富なドキュメントと活発なコミュニティサポートにより、企業導入におけるリスクが最も低い選択肢となります。

結論

YOLOv7 、コンピュータビジョンの進歩に大きくYOLOv7 。RTDETRv2はトランスフォーマーが高速化可能であることを証明し、YOLOv7 最適化されたCNNの持続的なYOLOv7 。しかし、この分野は急速に進化している。

今日の開発者や研究者にとって、Ultralytics NMSという利便性とCNNの純粋な速度・効率性を統合し、「両者の長所」を兼ね備えています。データアノテーションから モデルエクスポートまでを簡素化する堅牢なエコシステムに支えられ、現代のAIプロジェクトにおける推奨される出発点であり続けています。


コメント