コンテンツにスキップ

YOLOv7 RTDETRv2:従来の速度とトランスフォーマーの精度とのバランス

物体検出の分野はここ数年で劇的に進化し、純粋な畳み込みニューラルネットワーク(CNN)から高度なハイブリッドアーキテクチャへと移行した。この変遷において重要な役割を果たした二つのモデルが YOLOv7、2022年に登場した「フリービーの袋」CNNの強力なモデルと、RTDETRv2、2023/2024年にYOLO 挑むために発表したリアルタイム検出トランスフォーマーである。

YOLOv7 従来のアンカーベース手法を限界までYOLOv7 一方で、RTDETRv2はビジョントランスフォーマー(ViT)の力を活用し、非最大抑制(NMS)などの後処理ステップを排除しました。本ガイドでは、両モデルのアーキテクチャ、性能、現代的なコンピュータビジョンプロジェクトへの適性を比較するとともに、Ultralytics のような次世代モデルが実稼働環境での標準として普及しつつある理由を探ります。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

YOLOv7:アンカーベース検出の頂点

2022年7月にリリースされた、 YOLOv7YOLO 大きな飛躍を象徴し、ImageNet 依存せずアーキテクチャ効率に焦点を当てた。これは「訓練可能なフリービーの袋」という概念を導入した——推論遅延を増大させずに訓練中の精度を向上させる最適化手法である。

主要な技術詳細:

YOLOv7 となる革新 YOLOv7 拡張効率的層集約ネットワーク(E-ELAN) YOLOv7 。このアーキテクチャは勾配経路の長さを制御することでネットワークがより多様な特徴を学習できるようにし、深層ネットワークにおける効果的な学習を保証する。非常に効果的ではあるものの、YOLOv7 アンカーベース検出器YOLOv7 、事前定義されたアンカーボックスに依存して物体の位置を予測する。 この依存性により、カスタムデータセットでは慎重なハイパーパラメータ調整が必要となる場合が多く、この複雑さは YOLO11ではこの複雑さが解消されています。

YOLOv7について詳しくはこちら

RTDETRv2: リアルタイム速度用トランスフォーマー

RTDETRv2(リアルタイム検出トランスフォーマーv2)、RT-DETR成功を基盤とし、DETRのような従来のトランスフォーマーベース検出器に伴う高い計算コストの解決を目指しています。百度によって開発されたこのモデルは、GPU リアルタイム速度を達成できることを実証しています。

主要な技術詳細:

RTDETRv2は、マルチスケール特徴を効率的に処理するハイブリッドエンコーダを採用しています。その特徴はIoUクエリ選択にあり、これによりモデルは画像の最も関連性の高い部分に焦点を当てることができます。 重要な点として、RTDETRv2はエンドツーエンド検出器である。ノンマキシマム抑制(NMS)後処理を必要とせず、これによりデプロイメントパイプラインが簡素化され、混雑したシーンにおける遅延変動が低減される。ただし、この利点と引き換えに、CNNベースのモデルと比較して学習時のメモリ消費量が増加する。

RT-DETRの詳細について。

技術比較:アーキテクチャとユースケース

これらのアーキテクチャの基本的な違いを理解することは、特定のコンピュータビジョンアプリケーションに適したツールを選択するのに役立ちます。

1. アーキテクチャ:CNN対ハイブリッドトランスフォーマー

YOLOv7 純粋に畳み込みにYOLOv7 。これにより、メモリは限られているが十分な演算能力を持つエッジデバイス上で極めて効率的に動作します。これはCNNが本質的に平行移動不変であるためです。RTDETRv2はCNNバックボーンとトランスフォーマーエンコーダを組み合わせます。これによりグローバルコンテキストをより良く捕捉できる(複雑なシーンでの精度向上)一方で、CUDA 要件が大幅に増加します。 例えば、トランスフォーマーモデルの学習には、妥当なバッチサイズを処理するためにハイエンドGPU(A100やH100など)が必要となることが多いのに対し、YOLOv7 一般向けハードウェアで学習YOLOv7 が多い。

2. 推論:NMS

YOLOv7 数千もの候補バウンディングボックスYOLOv7 、NMSを用いてフィルタリングする必要があります。物体が密集したシナリオ(小売在庫カウントなど)では、NMS 速度のボトルネックとなるNMS 。RTDETRv2はこのステップを完全に排除し、必要な数のボックスを正確に出力します。

両方の世界のベスト

現代Ultralytics YOLO26は、RTDETRv2と同様のエンドツーNMS設計を採用しつつ、高度に最適化されたCNNアーキテクチャを基盤としています。これにより、トランスフォーマーのデプロイメントの簡便性とYOLO学習効率・速度を両立させています。

3. 展開とエコシステム

両モデルとも強力な研究的裏付けを持つ一方、Ultralytics 保守性において明確な優位性を提供します。YOLOv7ほぼ静的なのに対し、Ultralytics 頻繁に更新され、最新バージョンの互換性が保証されています。 PyTorch、ONNX、TensorRT。

現代の選択肢:Ultralytics

トランスフォーマーの精度とCNNの速度を両立させる開発者にとって、Ultralytics 優れた選択肢として際立っている。2026年にリリースされた本モデルは、RTDETRv2の「エンドツーエンド」の利点を継承しつつ、リソース使用量における弱点を克服している。

YOLO26を選ぶ理由

  1. ネイティブのエンドツーエンド:RTDETRv2と同様に、YOLO26NMS排除し、 TensorRT およびCoreMLMLへのエクスポートを簡素化します。
  2. MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニングに着想を得たこのオプティマイザーは、安定した収束を保証し、YOLOv7などの従来モデルをトレーニングする際に必要となる「試行錯誤」を削減します。
  3. エッジ最適化:YOLO26は分布焦点損失(DFL)を削除し、大幅に軽量化を実現。 CPU 最大43%高速化し、重いトランスフォーマー演算によりRTDETRv2がしばしば苦戦するエッジデバイスにおいて重要な指標となる。
  4. 汎用性:主に検出に焦点を当てたYOLOv7 異なり、YOLO26はセグメンテーション姿勢推定、および方向付き境界ボックス(OBB)をネイティブにサポートしている。

パフォーマンスバランス

YOLO26はProgLossとSTAL(Soft-Target Anchor Loss)を活用し、YOLO トランスフォーマーに劣っていた小規模物体検出の精度を向上させます。これにより航空写真解析医療用細胞計数などの用途に最適です。

コード例:シームレスな統合

旧モデルからUltralytics への移行は容易です。Ultralytics Python はアーキテクチャの違いによる複雑さを抽象化します。

from ultralytics import YOLO

# Load the latest YOLO26 model (recommended)
model = YOLO("yolo26n.pt")

# Alternatively, load RT-DETR or YOLOv7 within the same ecosystem
# model = YOLO("rtdetr-l.pt")
# model = YOLO("yolov7.pt")

# Train on a dataset like COCO8
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with NMS-free speed (native in YOLO26)
results = model("https://ultralytics.com/images/bus.jpg")

YOLO26についてさらに詳しく

概要

  • レガシーシステムの保守を担当しており、実績のある純粋なCNNベースの検出器が必要で、アンカーの調整に時間を割ける YOLOv7を使用してください
  • ハイエンドGPUでのエンドツーエンド推論が必要で、トレーニング中の高いVRAMコストを許容できる場合は、RTDETRv2を使用してください
  • 最適なバランスを実現 Ultralytics をご利用ください。RTDETRのエンドツーエンドなNMS利点、YOLO 高速性と低メモリ消費Ultralytics の堅牢なサポートを兼ね備えています。

2026年の新規プロジェクトの大半において、YOLO26の使いやすさ、ドキュメントの充実度、および性能と効率のバランスが優れていることから、推奨される出発点となります。


コメント