YOLOv7 RTDETRv2:リアルタイム物体検出のための技術的比較
コンピュータビジョンの分野は急速に進化を続けており、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の競争に大きく影響されている。本技術比較では二つの主力アーキテクチャを掘り下げる: YOLOv7:高度に最適化されたCNNベースの物体検出器RTDETRv2:最先端のリアルタイム検出トランスフォーマー
これらのビジョンAIモデルのアーキテクチャの違い、パフォーマンス指標、理想的なデプロイメントシナリオを分析することで、開発者は本番パイプラインへの統合時に情報に基づいた意思決定を行うことができます。
YOLOv7: フリービーの袋 CNNアーキテクチャ
YOLOv7 YOLO にパラダイムシフトをもたらす構造的最適化YOLOv7 、一連の「学習可能なフリービーの袋」を通じてリアルタイム物体検出の限界を押し広げた。
主な特徴:
著者: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica
日付: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7
アーキテクチャと強み
YOLOv7 拡張効率的層集約ネットワーク(E-ELAN)アーキテクチャをYOLOv7 。この構造設計により、モデルは元の勾配経路を損なうことなく、より多様な特徴を学習できます。 さらに計画的に再パラメータ化された畳み込みを組み込み、精度を損なうことなく推論速度を最適化します。その分離されたヘッド構造により、速度と精度の間で優れたトレードオフを実現し、サーバーグレードGPU上でのリアルタイム物体検出タスクに極めて適しています。
YOLOv7 。標準的な境界ボックス検出に加え、リポジトリには姿勢推定やインスタンスセグメンテーション用のブランチも用意されており、その適応性を示している。
制限事項
多くの従来のCNNモデルと同様に、YOLOv7 後処理に非最大抑制(NMS)をYOLOv7 。NMS 特に混雑したシーンにおいて変動する遅延NMS 、エッジデバイスにおける厳密なリアルタイム保証を複雑化する可能性がある。
RTDETRv2: リアルタイムトランスフォーマーの進化
RTDETRv2はオリジナルのRT-DETR を基盤とし、空間精度を高く保ちつつリアルタイム遅延においてYOLO と競合し得ることをさらに実証する。
主な特徴:
著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
所属: Baidu
日付: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR
アーキテクチャと強み
RTDETRv2は、ビジョントランスフォーマーにとって重要な進歩です。柔軟なクエリ選択プロセスと効率的なハイブリッドエンコーダーを活用し、マルチスケール特徴を高速に処理します。 検出トランスフォーマー(DETR)向けに特化した新たな「bag-of-freebies」を導入することで、空間推論の限界を押し広げます。ネイティブNMSであるため、決定論的な推論時間を提供し、厳密なスマートシティアプリケーションや自動運転にとって重要な機能となります。
制限事項
その進歩にもかかわらず、RTDETRv2はTransformerベースのアーキテクチャが持つ従来の負担を抱えています。CNNと比較して、トレーニングと推論の両方で大幅に高いCUDAメモリを必要とします。さらに、トレーニングの収束時間は著しく長く、大量の高品質なアノテーション付きデータ(COCOデータセットなど)と重い計算リソースが必要です。
パフォーマンス比較
これらのモデルをベンチマークする際には、精度、生の推論速度、計算リソースの消費量を包括的に捉えた全体像を検討する必要があります。以下に直接比較表を示します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
ベンチマークの解釈
RTDETRv2-xは54.3%という絶対的な最高mAPvalを主張するが、膨大な2590億FLOPSを必要とする。一方、YOLOv7 優れたベースラインを提供するものの、純粋なネットワーク遅延指標では完全に捕捉されないレガシーNMS に悩まされている。
Ultralytics :エコシステムと進化
YOLOv7 堅牢な機能を提供しますが、本番環境での導入時には運用上の摩擦が生じることが多いです。Ultralytics 真価を発揮します。シームレスなエンドツーエンド統合を目的に設計されたUltralytics 、開発者に統一APIを提供し、コンピュータビジョンパイプラインに典型的な複雑さを抽象化します。
比類なき汎用性とメモリ効率
VRAMを大量に消費するリジッドなトランスフォーマーモデルとは異なり、Ultralytics YOLO 厳格なメモリ効率を維持します。これにより、一般的なハードウェア上での高速なモデルトレーニングが可能となります。このエコシステムは、単一のコードベースから画像分類や オリエンテッドバウンディングボックス(OBB)検出など、複数のコンピュータビジョンタスクを本質的にサポートしており、RTDETRv2が現在欠いている柔軟性を提供します。
シームレスなデプロイ
研究から本番環境への移行には、堅牢なデプロイオプションが必要です。Ultralytics は、業界標準フォーマットへのワンクリックモデルエクスポートをネイティブに処理します。 ONNX をクロスプラットフォーム互換性のために使用する場合でも、 TensorRT による最大限のGPU 目的とする場合でも、パイプラインは完全に自動化され信頼性が高いです。
究極のアップグレード:Ultralytics
YOLOv7とRTDETRv2の間で議論している開発者にとって、最適な進むべき道は、実際にはビジョンAIの新しい標準であるUltralytics YOLO26です。2026年1月にリリースされたYOLO26は、CNNの速度とトランスフォーマーの高度な推論の間のギャップを埋め、それぞれの弱点を完全に排除します。
YOLO26は、サーバーとエッジの両方の展開に特化した画期的な革新を導入します:
- エンドツーエンドのNMSフリー設計: YOLOv10で初めて開拓されたYOLO26は、NMS後処理をネイティブに排除します。これにより、トランスフォーマーの負担の大きい計算オーバーヘッドなしに、RTDETRv2の決定論的なレイテンシが保証されます。
- MuSGDオプティマイザ: 大規模言語モデルの学習技術 (Moonshot AIのKimi K2など) に触発され、YOLO26はSGDとMuonのハイブリッドを利用しています。これにより、ViTsで使用されている標準的なAdamW実装と比較して、前例のない学習安定性と著しく速い収束時間が実現されます。
- ProgLoss + STAL: これらの高度な損失関数は、小さなオブジェクトの認識において著しい改善をもたらし、RTDETRv2のマルチスケール特徴の利点と直接競合します。これはロボットオートメーションにとって不可欠です。
- エッジ最適化とDFLの削除: Distribution Focal Loss (DFL)を削除することで、YOLO26は出力ヘッドを合理化し、最大43%高速なCPU推論を実現します。これにより、重いTransformerモデルよりもエッジデバイスへのデプロイがはるかに容易になります。
Ultralyticsを使用したトレーニング例
Ultralytics Python の簡潔さにより、わずか数行のコードで最先端のYOLO26モデルをトレーニングできます:
from ultralytics import YOLO
# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")
# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)
理想的なユースケース
適切なアーキテクチャの選択は、デプロイメントの制約とハードウェアの可用性に大きく依存します。
YOLOv7を検討すべきタイミング:
- YOLOv7 確立されたベースラインYOLOv7 既存の研究プロジェクト。
- 生のGPUアクセラレーションが豊富で、NMSレイテンシジッターが許容される環境。
RTDETRv2を検討すべきタイミング:
- 絶対的な最大mAP必要とするハイエンドサーバーの展開。
- VRAMがトランスフォーマーバックボーンをサポートできる場合に限り、決定論的推論レイテンシ(NMS)が厳密に要求されるシナリオ。
Ultralytics YOLO26を選択すべきタイミング:
- ほぼ常に。 RTDETRv2のNMSフリーの決定論を提供し、YOLOv7の速度と精度を超え、VRAMを大幅に少なく使用し、簡単なデータセット管理、トレーニング、およびデプロイのためにUltralytics Platformに完全に統合されています。
その他のモデルを探す
他のアーキテクチャの比較に興味がありますか?過去の世代に関する詳細な分析をぜひご覧ください。 YOLO11 や YOLOv8などの詳細解説記事をご覧いただくか、ハイパーパラメータ調整を活用してプロジェクトの精度を最大化する方法を学んでください。