Link to this sectionYOLOv7 vs RTDETRv2: リアルタイム物体検出のための技術比較#
コンピュータビジョンの分野は、畳み込みニューラルネットワーク(CNN)とVision Transformer(ViT)の競争により、急速な進化を続けています。この技術比較では、最適化されたCNNベースの物体検出器であるYOLOv7と、最先端のリアルタイムDetection TransformerであるRTDETRv2という、2つの強力なアーキテクチャについて掘り下げます。
そのアーキテクチャの違い、性能指標、および理想的な展開シナリオを分析することで、開発者はこれらのビジョンAIモデルを本番環境のパイプラインに統合する際に、十分な情報に基づいた意思決定が可能になります。
Link to this sectionYOLOv7: Bag-of-Freebies CNNアーキテクチャ#
YOLOv7は、従来のYOLOファミリーに対してパラダイムシフトとなるいくつかの構造的最適化を導入し、「学習可能なBag-of-Freebies」の手法を通じてリアルタイム物体検出の限界を押し広げました。
主な特徴:
著者: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
組織: Institute of Information Science, Academia Sinica
日付: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7
Link to this sectionアーキテクチャと強み#
YOLOv7は、Extended Efficient Layer Aggregation Network (E-ELAN) アーキテクチャを強みとしています。この構造設計により、元の勾配パスを破壊することなく、より多様な特徴を学習できます。さらに、推論速度を低下させずに最適化する計画的な再パラメータ化畳み込み(planned re-parameterized convolutions)を組み込んでいます。学習可能なBag-of-Freebiesアプローチにより、速度と精度の優れたバランスを実現しており、サーバーグレードのGPUにおけるリアルタイム物体検出タスクに非常に適しています。
YOLOv7は汎用性も非常に高いです。標準的なバウンディングボックス検出に加え、リポジトリでは姿勢推定やインスタンスセグメンテーション向けのブランチも提供されており、その適応性を示しています。
Link to this section制限事項#
多くのレガシーCNNモデルと同様に、YOLOv7は後処理にNon-Maximum Suppression (NMS) を使用します。NMSは、特に混雑したシーンで変動的なレイテンシを発生させるため、エッジデバイスでの厳密なリアルタイム性を保証する上で課題となる場合があります。
Link to this sectionRTDETRv2: リアルタイムTransformerの進化#
RTDETRv2は元のRT-DETRフレームワークを基盤としており、Transformerが高い空間精度を維持しながらリアルタイムレイテンシにおいてYOLOアーキテクチャと競合できることをさらに証明しています。
主な特徴:
著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
組織: Baidu
日付: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR
Link to this sectionアーキテクチャと強み#
RTDETRv2は、Vision Transformerの大きな一歩を体現しています。柔軟なクエリ選択プロセスと効率的なハイブリッドエンコーダを活用し、マルチスケールな特徴を迅速に処理します。Detection Transformer (DETR) 専用に調整された新しい「Bag-of-Freebies」を導入することで、空間推論を限界まで引き上げています。NMSフリーであるため決定論的な推論時間を提供し、これはスマートシティアプリケーションや自動運転において極めて重要な機能です。
Link to this section制限事項#
その進歩にもかかわらず、RTDETRv2はTransformerベースのアーキテクチャ特有の負担を抱えています。CNNと比較して、トレーニングと推論の両方で大幅に多くのCUDAメモリを必要とします。さらに、トレーニングの収束時間が著しく長く、高品質な注釈付きデータ(COCO datasetなど)の膨大な量と、強力なコンピューティングリソースが必要です。
Link to this sectionパフォーマンスの比較#
これらのモデルをベンチマークする際は、精度、生の推論速度、コンピューティングフットプリントを包括的に捉える必要があります。以下に直接比較表を示します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
RTDETRv2-xはmAPvalにおいて最高値の54.3%を誇りますが、2590億FLOPsという莫大な計算量を必要とします。一方、YOLOv7アーキテクチャは優れたベースラインを提供しますが、純粋なネットワークレイテンシの指標では完全には捉えきれない、レガシーなNMSによるオーバーヘッドの影響を受けます。
Link to this sectionUltralyticsの利点: エコシステムと進化#
YOLOv7とRTDETRv2は強力な機能を提供しますが、本番環境への導入時にはしばしば運用上の摩擦が生じます。ここでUltralyticsエコシステムが優位性を発揮します。シームレスなエンドツーエンドの統合のために設計されたUltralyticsフレームワークは、コンピュータビジョンパイプライン特有の複雑さを抽象化する統一されたAPIを開発者に提供します。
Link to this section比類なき汎用性とメモリ効率#
膨大なVRAMを消費する硬直的なTransformerモデルとは異なり、Ultralytics YOLOモデルは厳格なメモリ効率を維持しています。これにより、一般的なハードウェア上での迅速なモデルトレーニングが可能になります。このエコシステムは単一のコードベースから複数のコンピュータビジョンタスクをサポートしており、画像分類や向き付きバウンディングボックス (OBB) 検出など、RTDETRv2には現在欠けている柔軟性を提供します。
Link to this sectionシームレスなデプロイ#
研究から本番環境への移行には、強力なデプロイメントオプションが必要です。Ultralytics APIは、業界標準フォーマットへのワンクリックでのモデルエクスポートをネイティブでサポートしています。クロスプラットフォーム互換性を目的としたONNXへの変換から、GPUアクセラレーションを最大化するためのTensorRTへの変換まで、パイプラインは完全に自動化されており信頼性があります。
Link to this section究極のアップグレード: Ultralytics YOLO26#
YOLOv7とRTDETRv2の間で迷っている開発者にとって、進むべき最適な道はビジョンAIにおける新しい標準、Ultralytics YOLO26です。2026年1月にリリースされたYOLO26は、CNNの速度とTransformerの洗練された推論機能の間のギャップを埋め、それぞれの弱点を完全に解消しています。
YOLO26は、サーバーおよびエッジ環境の両方に対応した画期的なイノベーションを導入しています。
- エンドツーエンドのNMSフリー設計: YOLOv10で初めて導入されたこの設計により、YOLO26はNMSの後処理をネイティブに廃止しました。これにより、Transformerのような重い計算負荷をかけずに、RTDETRv2の決定論的なレイテンシを実現しています。
- MuSGDオプティマイザー: 大規模言語モデルのトレーニング技術(Moonshot AIのKimi K2など)に触発され、YOLO26はSGDとMuonのハイブリッドを採用しています。これにより、ViTで使用される標準的なAdamWの実装と比較して、かつてないトレーニングの安定性と、大幅に高速な収束時間を実現します。
- ProgLoss + STAL: これらの高度な損失関数は、小物体認識において顕著な向上をもたらします。これはロボット自動化において重要であり、RTDETRv2のマルチスケール特徴の優位性に直接対抗するものです。
- エッジ最適化とDFLの削除: Distribution Focal Loss (DFL) を削除することで、YOLO26は出力ヘッドを効率化しました。これによりCPU推論が最大43%高速化され、重いTransformerモデルよりもエッジデバイスへのデプロイがはるかに容易になっています。
Link to this sectionUltralyticsを使用したトレーニングの例#
Ultralytics Python APIのシンプルさにより、わずか数行のコードで最先端のYOLO26モデルをトレーニングできます。
from ultralytics import YOLO
# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")
# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)Link to this section理想的なユースケース#
適切なアーキテクチャの選択は、デプロイメントの制約とハードウェアの可用性に大きく依存します。
YOLOv7を検討すべき場合:
- YOLOv7が確立されたベースラインとなっているレガシー研究プロジェクト。
- 生のGPUアクセラレーションが十分にあり、NMSレイテンシのジッターが許容できる環境。
RTDETRv2を検討すべき場合:
- 絶対的な最大mAPを必要とするハイエンドサーバー環境。
- Transformerバックボーンを支えるVRAMがあり、かつ決定論的な推論レイテンシ(NMSフリー)が厳密に求められるシナリオ。
Ultralytics YOLO26を選択すべき場合:
- ほぼすべての場合。 RTDETRv2のNMSフリーな決定論的動作を提供し、YOLOv7の速度と精度を凌駕し、使用VRAMも大幅に少なく、データセット管理、トレーニング、デプロイが容易なUltralytics Platformに完全に統合されています。
他のアーキテクチャがどのような性能か興味がありますか?YOLO11やYOLOv8などの過去の世代についての詳細な解説を読んだり、ハイパーパラメータチューニングを活用してプロジェクトの精度を最大化する方法を学びましょう。