コンテンツにスキップ

RTDETRv2 vs.YOLOv7:リアルタイム物体検出の進化をたどる

コンピュータビジョンの分野は、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の両方における継続的な革新に牽引され、過去数年間で劇的に拡大してきた。 適切なアーキテクチャを選択するには、速度・精度・計算負荷の微妙なトレードオフを理解する必要があります。本ガイドでは、高く評価されている2つのアーキテクチャであるRTDETRv2とYOLOv7の技術的差異を検証するとともに、Ultralytics YOLO26で実現された先進的な進歩にも焦点を当てます。

RTDETRv2: リアルタイム検出へのトランスフォーマーアプローチ

RTDETRv2(リアルタイム検出トランスフォーマー第2版)は、前世代モデルの基盤をさらに発展させ、トランスフォーマーベースのアーキテクチャが従来の事後処理ステップに依存することなく、リアルタイムシナリオにおいて効果的に競合できることを実証する。

著者:呂文宇, 趙一安, 張勤耀, 黄奎, 王冠中, 劉毅
組織:Baidu 日付:2024-07-24 Arxiv:https://arxiv.org/abs/2407.17140
GitHub:RTDETRv2 リポジトリ

アーキテクチャのハイライト

RTDETRv2はハイブリッドエンコーダとトランスフォーマーデコーダのアーキテクチャを採用しています。自己注意機構を活用することで、モデルは画像全体を包括的に処理し、厳密に局所化された畳み込みカーネルよりも複雑な空間的関係性をより良く理解します。 その最も特徴的な機能の一つは、ネイティブにNMS設計である。非最大抑制(NMS)を排除することで、RTDETRv2はデプロイ時に変動する推論遅延を引き起こす一般的なボトルネックを解消する。

長所と限界

RTDETRv2の主な強みは、複雑なシーンにおける高密度で重なり合う物体を処理できる点にある。トランスフォーマーの注意層が提供するグローバルコンテキストにより、特に遮蔽が頻繁に発生するシナリオにおいて高い精度を実現する。

ただし、これには計算上のコストが伴う。トランスフォーマーモデルは従来、CNNと比較して学習時および推論時により高いメモリ使用量を必要とする。さらに、RTDETRv2は分散学習時の収束により多くのエポックを要する傾向があり、カスタムデータセットを調整する開発者にとって反復サイクルが長くなる。

RTDETRv2の詳細について。

YOLOv7: 高速化のためのCNNベースライン

RTDETRv2の1年前にYOLOv7 、YOLO 複数の構造的最適化YOLOv7 、発表当時においてCNNベースのリアルタイム検出器の強力なベンチマークを確立した。

著者:王建耀、アレクセイ・ボチコフスキー、廖宏源・マーク・リャオ
所属機関:台湾中央研究院 情報科学研究所
日付:2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:YOLOv7

アーキテクチャのハイライト

YOLOv7アーキテクチャYOLOv7、拡張効率的層集約ネットワーク(E-ELAN)の概念を中心に構築されている。このアプローチは勾配経路を最適化し、計算複雑性を大幅に増加させることなくモデルの学習効率を高める。著者らはまた「学習可能なフリービーの袋」を導入した。これはエッジデバイス上での推論速度に影響を与えずに、学習中のモデル精度を向上させる一連の手法である。

長所と限界

YOLOv7 標準的な物体検出タスクにおいてYOLOv7 高性能なモデルYOLOv7 、コンシューマー向けGPU上で優れた処理速度を提供する。そのCNNの性質上、RTDETRv2のようなトランスフォーマーベースのモデルと比較して、トレーニング中にCUDA 通常少ない。

これらの利点にもかかわらず、YOLOv7 NMS 依存している。予測密度が高い環境では、NMS 処理時間の変動を引き起こす可能性があり、厳密なリアルタイム保証を困難にする。さらに、最新のフレームワークと比較すると、インスタンスセグメンテーション姿勢推定といった多様なタスクを処理するプロセスは断片化されがちである。

YOLOv7について詳しくはこちら

パフォーマンス比較

これらのモデルを評価するには、平均精度(mAP)とmAP)、パラメータ数、推論速度の間の微妙なバランスを検討する必要がある。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

パフォーマンスコンテキスト

RTDETRv2-xは最高のmAPを達成する一方で、最大のパラメータ数とFLOPsを伴う。RTDETRv2-sのような小型バリエーションはTensorRT競争力のある速度を提供するものの、専用GPUのない低消費電力環境をターゲットとするユーザーは、CPU 能力を慎重に評価する必要がある。

現代的な解決策:YOLO26の登場

RTDETRv2YOLOv7 コンピュータビジョン応用分野の限界を押し広げる上で極めてYOLOv7 一方で、AIの領域は急速に進化している。2026年1月にリリースされた YOLO26 は、CNNの効率性とトランスフォーマー型NMSアーキテクチャの両方の優れた側面を統合したものである。

新しいシステムを構築する開発者や研究者にとって、統合されたUltralytics とPython は、技術的負債を大幅に削減する統一された体験を提供します。

YOLO26の主な革新点

  • エンドツーエンドNMS設計:YOLO26はネイティブにエンドツーエンドであり、NMS 排除することでより高速かつシンプルな展開を実現します。この画期的なアプローチは YOLOv10で初めて確立され、物体密度に関わらず安定した遅延を保証します。
  • 最大43%高速CPU : エッジコンピューティングおよびGPU非搭載デバイス向けに特別に最適化されており、重いトランスフォーマーモデルよりも現場展開においてはるかに汎用性が高い。
  • MuSGDオプティマイザー: SGD オンのハイブリッド(Moonshot AIのKimi K2に着想を得た)であり、LLMトレーニングの革新をコンピュータビジョンにもたらし、より安定したトレーニングとより速い収束を実現します。
  • DFLの削除:分布焦点損失が削除され、計算グラフが簡素化されました。これにより、組み込みNPUおよび TensorRT 環境へのエクスポートを円滑化します。
  • ProgLoss + STAL:改良された損失関数は、ロボット工学、IoT、航空画像解析において極めて重要な小規模物体認識において顕著な性能向上をもたらす。
  • タスク特化型改良点:YOLO26は単なる検出用ではない。セグメンテーション用のマルチスケールプロトタイプ、姿勢追跡用の残差対数尤度推定(RLE)、向き付き境界ボックス(OBB)の境界問題を解決する専用角度損失を備える。

開発者エクスペリエンスの合理化

YOLO26(あるいは非常に人気のある YOLO11)のようなUltralyticsモデルを選択する真の利点は、よく整備されたエコシステムにあります。カスタムデータセットのトレーニングには、最小限の定型コードしか必要としません:

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

YOLO26についてさらに詳しく

理想的なユースケースとアプリケーション

これらのアーキテクチャの選択は、対象ハードウェアと具体的な運用要件に大きく依存します。

RTDETRv2を検討すべきタイミング

RTDETRv2は、高性能GPUを搭載したサーバーサイド処理環境において極めて高い効果を発揮する。そのグローバルアテンション機構により、高度に混雑したイベント監視や、重なり合う特徴に対する深い文脈分析を必要とする専門的な医療画像処理など、複雑なシーン理解に適している。

YOLOv7を検討すべき時

YOLOv7 、ベースライン比較モデルとして従来の学術研究で頻繁に維持YOLOv7 。また、既存のパイプラインがPyTorch 向けにハードコードされており、新しいフレームワークのマルチタスク柔軟性を必要としない古い産業用デプロイメントでも見られる。

現代のスマートシティインフラドローンナビゲーション、高速製造において、YOLO26は比類のないバランスを実現します。低メモリ要件により、ハイパーパラメータ調整と学習がコンシューマー向けハードウェアで可能となり、NMS推論によりラズベリーパイやNVIDIA などの制約のあるエッジデバイス上でも高速実行を保証します。

その他の比較を探す

これらのモデルが他のアーキテクチャと比べてどうなのか気になりますか?YOLO11 . RTDETRおよびYOLOv8 .YOLOv7の詳細ガイドをチェックして、ビジョンAIプロジェクトに最適なモデルを見つけてください。


コメント