コンテンツにスキップ

RTDETRv2 vsYOLOv7:詳細な技術比較

リアルタイム物体検出の分野では、CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)とViT(Vision Transformer:視覚変換器)が激しい競争を繰り広げている。この進化における2つの重要なマイルストーンは、RTDETRv2(Real-Time Detection Transformer v2)と YOLOv7(You Only Look Once version 7)である。YOLOv7 効率的なCNNアーキテクチャ最適化の頂点を示す一方で、RTDETRv2はNMSNon-Maximum Suppression)のような後処理ステップを不要にするトランスフォーマーの力を導入している。

この比較では、開発者がコンピュータ・ビジョン・アプリケーションに適したツールを選択できるよう、両モデルの技術仕様、アーキテクチャの違い、性能指標を探ります。

パフォーマンス指標:正確さとスピードの比較

以下の表は、主要なパフォーマンスメトリクスの直接比較を示している。RTDETRv2-xは、高いmAP優れた精度を示しているが、これは主に変換器ベースのグローバルコンテキスト理解によるものである。しかし YOLOv7は、特に、軽量化と、様々なハードウェア上でのバランスの取れた推論速度が要求されるシナリオにおいて、競争力を維持している。

モデルサイズ
(ピクセル)
mAP
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

RTDETRv2:トランスフォーマー・アプローチ

RTDETRv2は、オリジナルのRT-DETR成功の上に構築されており、リアルタイム速度においてYOLO モデルに純粋に匹敵する初のトランスフォーマーベースの検出器です。Baiduの研究者によって開発され、標準的なDETRアーキテクチャにおけるマルチスケール相互作用に関連する計算ボトルネックに対処しています。

主な建築上の特徴

RTDETRv2は、スケール内相互作用とクロススケールフュージョンを切り離すことで、マルチスケール特徴を効率的に処理するハイブリッドエンコーダを利用している。この設計により、標準的な変換器と比較して計算コストが大幅に削減される。顕著な特徴は、IoUクエリ選択であり、オブジェクトクエリの初期化を改善することで、収束の高速化と高精度化を実現している。CNNベースのモデルとは異なり、RTDETRv2はNMSあるため、Non-Maximum Suppressionの後処理が不要で、展開パイプラインを簡素化し、レイテンシ・ジッターを低減します。

変圧器の利点

RTDETRv2アーキテクチャの第一の利点は、グローバルなコンテキストを捉える能力である。CNNが局所的な受容野を見るのに対して、変換器の自己注意メカニズムは、物体を検出するときに、モデルが画像全体のコンテキストを考慮することを可能にする。これは、オクルージョンのある複雑なシーンにおけるあいまいさを解決するのに有益である。

RT-DETRの詳細について。

YOLOv7:CNNのピーク

YOLOv7 、畳み込みニューラルネットワークで可能なことの限界を押し広げる。YOLOv7は、学習プロセスとモデル・アーキテクチャを最適化し、「bag-of-freebies」(推論コストを増加させることなく精度を向上させる手法)を実現することに重点を置いている。

主な建築上の特徴

YOLOv7 、勾配パスの長さを制御することでネットワークの学習能力を高めるE-ELAN(Extended Efficient Layer Aggregation Network)を導入している。また、モデルの再パラメータ化(モデル再パラメータ化)を採用している。これは、学習時にはモデル構造を複雑にしてより良い学習を行うが、推論時には単純化して高速化を図る手法である。これによりYOLOv7 、トランスフォーマーモデルと比較してパラメータを比較的低く抑えながら、GPU デバイス上で高いパフォーマンスを維持することができる。

YOLOv7もっと知る

比較分析

建築と多用途性

根本的な違いは、バックボーンとヘッドの設計にある。YOLOv7 、CUDAに高度に最適化された深いCNN構造に依存している。 CUDAアクセラレーションに高度に最適化されているが、画像内の長距離依存性に苦戦する可能性がある。RTDETRv2は、遠距離の画素間の関係を理解するために注意メカニズムを活用し、乱雑な環境でも頑健に動作する。しかし、その代償として、学習時のメモリ消費量が増加する。

Ultralytics モデル YOLO11YOLO11のようなUltralyticsモデルは、最新の注意のようなモジュールを統合したCNNベースのアーキテクチャを提供することで、このギャップを埋める。さらに、RTDETRv2は主に物体検出器であるが、新しいUltralytics モデルはインスタンスのセグメンテーションポーズ推定分類をネイティブにサポートしている。

トレーニングと使いやすさ

RTDETRv2のような変換モデルの学習には、YOLOv7ようなCNNと比較して、一般的にかなりのGPU メモリと長い学習エポックを必要とする。

を求める開発者のために トレーニング効率 および 使いやすさUltralytics エコシステムは明確な利点を提供します。ウルトラリティクスの ultralytics Python パッケージでは、ユーザーはわずか数行のコードでモデルの訓練、検証、デプロイを行うことができ、さまざまなタスクのために事前に訓練された一連の重みにアクセスすることができます。

from ultralytics import RTDETR, YOLO

# Load an Ultralytics YOLOv7-style model (if available) or YOLO11
model_yolo = YOLO("yolo11n.pt")  # Recommended for best performance
model_yolo.train(data="coco8.yaml", epochs=10)

# Load RT-DETR for comparison
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.predict("asset.jpg")

展開とエコシステム

YOLOv7 古いため広くサポートされているが、最新のMLOpsパイプラインへの統合は手作業になる。RTDETRv2は新しく、サポートが拡大している。対照的なのは Ultralyticsへのシームレスなエクスポートなど、整備されたエコシステムの恩恵を受けています。 ONNXやTensorRT、CoreMLシームレスなエクスポート、クラウドトレーニングやデータセット管理のためのUltralytics HUBのようなツールとの統合など、整備されたエコシステムがあります。

理想的なユースケース

  • 以下の場合は、RTDETRv2を選択してください: GPU メモリに余裕があり、NMS 従来失敗していたようなオクルージョンや混雑の激しいシーンで高精度を必要とする場合。研究やハイエンドの監視システムに最適です。
  • 次のような場合にYOLOv7 お選びください:汎用的な検出タスクのために、標準的なGPU ハードウェア上で効率的に動作する、実績のあるレガシーCNNアーキテクチャが必要な場合。
  • 以下の場合は、Ultralytics YOLO11 お選びください:最高のパフォーマンススピードと精度のバランス、低いメモリ要件、検出、セグメンテーション、ポーズ推定が可能な汎用性の高いモデルが必要な場合。合理化されたワークフローと豊富なドキュメントを重視する開発者にとって理想的な選択です。

YOLO11アップグレードする理由

YOLOv7 RTDETRv2は強力である、 YOLO11はビジョンAIの最新の進化を象徴している。トランスフォーマーよりも少ないCUDA メモリで、より高速に学習し、エッジデバイスからクラウドサーバーまで、より幅広いハードウェアで最先端の精度を提供する。

結論

RTDETRv2とYOLOv7 ともに、コンピュータビジョンの方向性を形作った。RTDETRv2は、トランスフォーマーはリアルタイムのアプリケーションには遅すぎるという概念を覆すことに成功し、YOLOv7 CNNの永続的な効率性を実証した。しかし、今日のほとんどの実世界アプリケーションでは Ultralytics YOLO11モデルは、これらの前任者の最高の特性と、現代的で支援的なエコシステムを組み合わせることで、優れた開発者体験を提供します。

その他の比較

モデルの状況をさらに理解するために、これらの比較を調べてみよう:


コメント