YOLOv7 RTDETRv2:リアルタイム物体検出のための技術的比較
コンピュータビジョンの分野は急速に進化を続けており、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の競争に大きく影響されている。本技術比較では二つの主力アーキテクチャを掘り下げる: YOLOv7:高度に最適化されたCNNベースの物体検出器RTDETRv2:最先端のリアルタイム検出トランスフォーマー
開発者は、これらのビジョンAIモデルのアーキテクチャ上の差異、パフォーマンス指標、および理想的な導入シナリオを分析することで、本番環境パイプラインへの統合時に情報に基づいた判断を下すことができる。
YOLOv7: フリービーの袋 CNNアーキテクチャ
YOLOv7 YOLO にパラダイムシフトをもたらす構造的最適化YOLOv7 、一連の「学習可能なフリービーの袋」を通じてリアルタイム物体検出の限界を押し広げた。
主な特徴:
著者: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
所属機関:中央研究院 情報科学研究所
日付: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:WongKinYiu/yolov7
アーキテクチャと強み
YOLOv7 拡張効率的層集約ネットワーク(E-ELAN)アーキテクチャをYOLOv7 。この構造設計により、モデルは元の勾配経路を損なうことなく、より多様な特徴を学習できます。 さらに計画的に再パラメータ化された畳み込みを組み込み、精度を損なうことなく推論速度を最適化します。その分離されたヘッド構造により、速度と精度の間で優れたトレードオフを実現し、サーバーグレードGPU上でのリアルタイム物体検出タスクに極めて適しています。
YOLOv7 。標準的な境界ボックス検出に加え、リポジトリには姿勢推定やインスタンスセグメンテーション用のブランチも用意されており、その適応性を示している。
制限事項
多くの従来のCNNモデルと同様に、YOLOv7 後処理に非最大抑制(NMS)をYOLOv7 。NMS 特に混雑したシーンにおいて変動する遅延NMS 、エッジデバイスにおける厳密なリアルタイム保証を複雑化する可能性がある。
RTDETRv2: リアルタイムトランスフォーマーの進化
RTDETRv2はオリジナルのRT-DETR を基盤とし、空間精度を高く保ちつつリアルタイム遅延においてYOLO と競合し得ることをさらに実証する。
主な特徴:
著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
所属機関:Baidu
日付: 2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:RT-DETR
アーキテクチャと強み
RTDETRv2は、ビジョントランスフォーマーにとって重要な進歩です。柔軟なクエリ選択プロセスと効率的なハイブリッドエンコーダーを活用し、マルチスケール特徴を高速に処理します。 検出トランスフォーマー(DETR)向けに特化した新たな「bag-of-freebies」を導入することで、空間推論の限界を押し広げます。ネイティブNMSであるため、決定論的な推論時間を提供し、厳密なスマートシティアプリケーションや自動運転にとって重要な機能となります。
制限事項
RTDETRv2は進歩を遂げているものの、トランスフォーマーベースのアーキテクチャが抱える従来の課題を引き継いでいる。CNNと比較して、学習時とCUDA 大幅に多く必要とする。さらに、学習収束時間が著しく長く、COCO 高品質なアノテーション付きデータを大量に必要とし、膨大な計算リソースを要する。
パフォーマンス比較
これらのモデルをベンチマークする際には、精度、生の推論速度、計算リソースの消費量を包括的に捉えた全体像を検討する必要があります。以下に直接比較表を示します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
ベンチマークの解釈
RTDETRv2-xは54.3%という絶対的な最高mAPvalを主張するが、膨大な2590億FLOPSを必要とする。一方、YOLOv7 優れたベースラインを提供するものの、純粋なネットワーク遅延指標では完全に捕捉されないレガシーNMS に悩まされている。
Ultralytics :エコシステムと進化
YOLOv7 堅牢な機能を提供しますが、本番環境での導入時には運用上の摩擦が生じることが多いです。Ultralytics 真価を発揮します。シームレスなエンドツーエンド統合を目的に設計されたUltralytics 、開発者に統一APIを提供し、コンピュータビジョンパイプラインに典型的な複雑さを抽象化します。
比類なき汎用性とメモリ効率
VRAMを大量に消費するリジッドなトランスフォーマーモデルとは異なり、Ultralytics YOLO 厳格なメモリ効率を維持します。これにより、一般的なハードウェア上での高速なモデルトレーニングが可能となります。このエコシステムは、単一のコードベースから画像分類や オリエンテッドバウンディングボックス(OBB)検出など、複数のコンピュータビジョンタスクを本質的にサポートしており、RTDETRv2が現在欠いている柔軟性を提供します。
シームレスなデプロイ
研究から本番環境への移行には、堅牢なデプロイオプションが必要です。Ultralytics は、業界標準フォーマットへのワンクリックモデルエクスポートをネイティブに処理します。 ONNX をクロスプラットフォーム互換性のために使用する場合でも、 TensorRT による最大限のGPU 目的とする場合でも、パイプラインは完全に自動化され信頼性が高いです。
究極のアップグレード:Ultralytics
YOLOv7 悩む開発者にとって、最適な選択肢は実はビジョンAIの新たな標準Ultralytics 。2026年1月にリリースされたYOLO26は、CNNの高速処理とトランスフォーマーの高度な推論能力のギャップを埋めると同時に、それぞれの弱点を完全に解消しています。
YOLO26は、サーバーとエッジの両方の展開に特化した画期的な革新を導入します:
- エンドツーエンドのNMS:最初に YOLOv10で初めて導入されたYOLO26は、NMS ネイティブに排除します。これにより、トランスフォーマーの煩わしい計算オーバーヘッドなしに、RTDETRv2の決定論的レイテンシが保証されます。
- MuSGDオプティマイザ:大規模言語モデル訓練技術(Moonshot AIのKimi K2など)に着想を得たYOLO26は、SGD ューオンのハイブリッド手法を採用しています。これにより、ViTで用いられる標準的なAdamW と比較して、前例のない訓練安定性と大幅に高速化された収束時間を実現します。
- ProgLoss + STAL:これらの先進的な損失関数は、小規模物体認識において顕著な改善をもたらし、RTDETRv2のマルチスケール特徴の優位性と直接競合する。これはロボット自動化において極めて重要である。
- エッジ最適化とDFL除去:ディストリビューション・フォーカルロス(DFL)を除去することで、YOLO26は出力ヘッドを合理化し、最大43%CPU を実現。これにより、重いトランスフォーマーモデルよりもエッジデバイス上での展開性が飛躍的に向上する。
Ultralyticsを使用したトレーニング例
Ultralytics Python の簡潔さにより、わずか数行のコードで最先端のYOLO26モデルをトレーニングできます:
from ultralytics import YOLO
# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")
# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)
理想的なユースケース
適切なアーキテクチャの選択は、デプロイメントの制約とハードウェアの可用性に大きく依存します:
YOLOv7を検討すべきタイミング:
- YOLOv7 確立されたベースラインYOLOv7 既存の研究プロジェクト。
- GPU が豊富に利用可能で、NMS 変動が許容される環境。
RTDETRv2を検討すべきタイミング:
- 絶対的な最大mAP必要とするハイエンドサーバーの展開。
- VRAMがトランスフォーマーバックボーンをサポートできる場合に限り、決定論的推論レイテンシ(NMS)が厳密に要求されるシナリオ。
Ultralytics YOLO26を選択すべきタイミング:
- ほぼ常に。RTDETRv2NMS決定論を提供し、YOLOv7の速度と精度を上回り、VRAM使用量を大幅に削減。Ultralytics に完全に統合され、データセット管理・トレーニング・デプロイメントを容易に行えます。
その他のモデルを探す
他のアーキテクチャの比較に興味がありますか?過去の世代に関する詳細な分析をぜひご覧ください。 YOLO11 や YOLOv8などの詳細解説記事をご覧いただくか、ハイパーパラメータ調整を活用してプロジェクトの精度を最大化する方法を学んでください。