RTDETRv2 vs.YOLOv7：リアルタイム物体検出の進化をたどる

コンピュータビジョンの分野は、畳み込みニューラルネットワーク（CNN）とビジョントランスフォーマー（ViT）の両方における継続的な革新に牽引され、過去数年間で劇的に拡大してきた。適切なアーキテクチャを選択するには、速度・精度・計算負荷の微妙なトレードオフを理解する必要があります。本ガイドでは、高く評価されている2つのアーキテクチャであるRTDETRv2とYOLOv7の技術的差異を検証するとともに、Ultralytics YOLO26で実現された先進的な進歩にも焦点を当てます。

RTDETRv2: リアルタイム検出へのトランスフォーマーアプローチ

RTDETRv2（リアルタイム検出トランスフォーマー第2版）は、前世代モデルの基盤をさらに発展させ、トランスフォーマーベースのアーキテクチャが従来の事後処理ステップに依存することなく、リアルタイムシナリオにおいて効果的に競合できることを実証する。

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、および Yi Liu
所属:Baidu日付: 2024-07-24 Arxiv:https://arxiv.org/abs/2407.17140
GitHub:RTDETRv2 リポジトリ

アーキテクチャのハイライト

RTDETRv2はハイブリッドエンコーダとトランスフォーマーデコーダのアーキテクチャを採用しています。自己注意機構を活用することで、モデルは画像全体を包括的に処理し、厳密に局所化された畳み込みカーネルよりも複雑な空間的関係性をより良く理解します。その最も特徴的な機能の一つは、ネイティブにNMS設計である。非最大抑制（NMS）を排除することで、RTDETRv2はデプロイ時に変動する推論遅延を引き起こす一般的なボトルネックを解消する。

長所と限界

RTDETRv2の主な強みは、複雑なシーンにおける高密度で重なり合う物体を処理できる点にある。トランスフォーマーの注意層が提供するグローバルコンテキストにより、特に遮蔽が頻繁に発生するシナリオにおいて高い精度を実現する。

ただし、これには計算上のコストが伴う。トランスフォーマーモデルは従来、CNNと比較して学習時および推論時により高いメモリ使用量を必要とする。さらに、RTDETRv2は分散学習時の収束により多くのエポックを要する傾向があり、カスタムデータセットを調整する開発者にとって反復サイクルが長くなる。

RTDETRv2の詳細について。

YOLOv7: 高速化のためのCNNベースライン

RTDETRv2の1年前にYOLOv7 、YOLO 複数の構造的最適化YOLOv7 、発表当時においてCNNベースのリアルタイム検出器の強力なベンチマークを確立した。

著者: Chien-Yao Wang、Alexey Bochkovskiy、および Hong-Yuan Mark Liao
所属:中央研究院情報科学研究所、台湾
日付: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:YOLOv7 リポジトリ

アーキテクチャのハイライト

YOLOv7アーキテクチャYOLOv7、拡張効率的層集約ネットワーク（E-ELAN）の概念を中心に構築されている。このアプローチは勾配経路を最適化し、計算複雑性を大幅に増加させることなくモデルの学習効率を高める。著者らはまた「学習可能なフリービーの袋」を導入した。これはエッジデバイス上での推論速度に影響を与えずに、学習中のモデル精度を向上させる一連の手法である。

長所と限界

YOLOv7 標準的な物体検出タスクにおいてYOLOv7 高性能なモデルYOLOv7 、コンシューマー向けGPU上で優れた処理速度を提供する。そのCNNの性質上、RTDETRv2のようなトランスフォーマーベースのモデルと比較して、トレーニング中にCUDA 通常少ない。

これらの利点にもかかわらず、YOLOv7は後処理にNMSに依存しています。予測密度が高い環境では、NMSステップが処理時間の変動を引き起こし、厳密なリアルタイム保証を困難にする可能性があります。さらに、最新のフレームワークと比較して、インスタンスセグメンテーションや姿勢推定のような多様なタスクを処理するプロセスは断片化されている場合があります。

YOLOv7について詳しくはこちら

パフォーマンス比較

これらのモデルを評価するには、平均精度（mAP）、パラメータ数、および推論速度の間の微妙なバランスを考慮する必要があります。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

パフォーマンスコンテキスト

RTDETRv2-xは最高のmAPを達成する一方で、最大のパラメータ数とFLOPsを伴う。RTDETRv2-sのような小型バリエーションはTensorRT競争力のある速度を提供するものの、専用GPUのない低消費電力環境をターゲットとするユーザーは、CPU 能力を慎重に評価する必要がある。

現代的な解決策：YOLO26の登場

RTDETRv2YOLOv7 コンピュータビジョン応用分野の限界を押し広げる上で極めてYOLOv7 一方で、AIの領域は急速に進化している。2026年1月にリリースされた YOLO26 は、CNNの効率性とトランスフォーマー型NMSアーキテクチャの両方の優れた側面を統合したものである。

新しいシステムを構築する開発者や研究者にとって、統合されたUltralytics Platformとpythonエコシステムは、技術的負債を大幅に削減する統合されたエクスペリエンスを提供します。

YOLO26の主な革新点

エンドツーエンドのNMSフリー設計: YOLO26はネイティブにエンドツーエンドであり、NMSの後処理を排除することで、より高速でシンプルなデプロイメントを実現します。この画期的なアプローチはYOLOv10で初めて開拓され、オブジェクト密度に関わらず安定したレイテンシを保証します。
最大43%高速なCPU推論: エッジコンピューティングおよびGPUを持たないデバイス向けに特化して最適化されており、重いトランスフォーマーモデルよりも現場展開において遥かに汎用性が高くなっています。
MuSGDオプティマイザ: SGDとMuonのハイブリッド（Moonshot AIのKimi K2に触発された）であり、LLMトレーニングの革新をコンピュータビジョンにもたらし、より安定したトレーニングとより速い収束を実現します。
DFLの削除: Distribution Focal Lossが削除されたことで、計算グラフが簡素化され、組み込みNPUおよびTensorRT環境へのよりスムーズなエクスポートが可能になります。
ProgLoss + STAL: 改善された損失関数は、小オブジェクト認識において顕著な強化をもたらし、ロボット工学、IoT、および航空画像分析にとって不可欠です。
タスク固有の改善点: YOLO26はdetection専用ではありません。segmentationのためのマルチスケールプロトタイプ、姿勢追跡のためのResidual Log-Likelihood Estimation (RLE)、そしてoriented bounding box (obb)の境界問題に対処する特殊な角度損失を特徴としています。

開発者エクスペリエンスの合理化

YOLO26（あるいは非常に人気のある YOLO11）のようなUltralyticsモデルを選択する真の利点は、よく整備されたエコシステムにあります。カスタムデータセットのトレーニングには、最小限の定型コードしか必要としません：

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

YOLO26についてさらに詳しく

理想的なユースケースとアプリケーション

これらのアーキテクチャの選択は、対象ハードウェアと具体的な運用要件に大きく依存します。

RTDETRv2を検討すべきタイミング

RTDETRv2は、高性能GPUを搭載したサーバーサイド処理環境において極めて高い効果を発揮する。そのグローバルアテンション機構により、高度に混雑したイベント監視や、重なり合う特徴に対する深い文脈分析を必要とする専門的な医療画像処理など、複雑なシーン理解に適している。

YOLOv7を検討すべき時

YOLOv7 、ベースライン比較モデルとして従来の学術研究で頻繁に維持YOLOv7 。また、既存のパイプラインがPyTorch 向けにハードコードされており、新しいフレームワークのマルチタスク柔軟性を必要としない古い産業用デプロイメントでも見られる。

YOLO26が推奨標準である理由

現代のスマートシティインフラ、ドローンナビゲーション、および高速製造において、YOLO26は比類のないバランスを提供します。メモリ要件が低いため、ハイパーパラメータチューニングとトレーニングがコンシューマーハードウェアで利用可能になり、NMSフリーの推論は、Raspberry PiやNVIDIA Jetsonのような制約のあるエッジデバイスでの高速実行を保証します。

その他の比較を探す

これらのモデルが他のアーキテクチャと比べてどうなのか気になりますか？YOLO11 . RTDETRおよびYOLOv8 .YOLOv7の詳細ガイドをチェックして、ビジョンAIプロジェクトに最適なモデルを見つけてください。

RTDETRv2 vs.YOLOv7：リアルタイム物体検出の進化をたどる

RTDETRv2: リアルタイム検出へのトランスフォーマーアプローチ

アーキテクチャのハイライト

長所と限界

YOLOv7: 高速化のためのCNNベースライン

アーキテクチャのハイライト

長所と限界

パフォーマンス比較

現代的な解決策：YOLO26の登場

YOLO26の主な革新点

開発者エクスペリエンスの合理化

理想的なユースケースとアプリケーション

RTDETRv2を検討すべきタイミング

YOLOv7を検討すべき時

YOLO26が推奨標準である理由

コメント