YOLOv5 RT-DETRv2:リアルタイム物体検出器の技術的比較
リアルタイム物体検出の進化は、主に二つのアーキテクチャパラダイムによって定義されてきた:畳み込みニューラルネットワーク(CNN)ベースYOLO と、トランスフォーマーベースの検出モデルである。本比較では、両者の技術的差異を探る。 Ultralytics YOLOv5(業界標準のCNNベース検出器)と RT-DETRv2(従来のCNN優位性に挑戦するために設計されたリアルタイム検出トランスフォーマーの最新バージョン)の間の技術的差異を比較検討する。
両モデルとも、推論速度と高精度とのバランスという重大な課題の解決を目指しているが、この目標へのアプローチ方法は根本的に異なる。
Ultralytics YOLOv5: 業界標準
YOLOv5 、速度、精度、エンジニアリングの実用性の卓越したバランスにより、世界で最も広く導入されているコンピュータビジョンモデルの一つYOLOv5 。2020年半Ultralyticsリリースされたこのモデルは、AI分野における使いやすさを再定義し、Python 最先端の物体検出技術をエンジニアや研究者双方に利用可能にしました。
- 著者: Glenn Jocher
- 組織:Ultralytics
- 日付: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- ドキュメント:https://docs.ultralytics.com/models/yolov5/
アーキテクチャと設計
YOLOv5 CSPDarknetバックボーンYOLOv5 、クロスステージ部分ネットワークを統合することで勾配の流れを改善し、計算コストを削減する。そのネック部ではPANet(パス集約ネットワーク)を用いて効果的な特徴ピラミッド集約を実現し、異なるスケールの特徴が効率的に融合されることを保証する。
主要なアーキテクチャ機能は以下の通りです。
- アンカーベース検出:事前定義されたアンカーボックスを用いて物体の位置を予測する手法であり、堅牢な位置特定を実現する実証済みの方法である。
- モザイクデータ拡張:4枚の画像を組み合わせるトレーニング手法で、モデルに多様な文脈やスケールにおけるdetect を学習させる。
- SiLU活性化関数:従来のReLUと比較して深層ニューラルネットワークの収束を改善する、より滑らかな活性化関数。
展開における強み
YOLOv5 使いやすさにYOLOv5 。その「ゼロからヒーローへ」のワークフローにより、開発者はデータセットからデプロイ済みモデルまで数分で移行できます。Ultralytics 、データアノテーション、クラウドトレーニング、ワンクリックでのONNXなどの形式へのエクスポートを可能にする統合ツールでこれをサポートします。 ONNX、 TensorRT、 CoreML。
トランスフォーマーモデルのようにメモリを大量に消費する傾向があるのとは異なり、YOLOv5 トレーニング時のメモリ要件が大幅にYOLOv5 。この効率性により、NVIDIA のようなエッジデバイス上でも動作可能となり、野生生物保護から 小売分析に至るまで、実世界の多様なアプリケーションに高い汎用性を発揮します。
RT-DETRv2: トランスフォーマーへの挑戦者
RT-DETRv2 リアルタイム検出トランスフォーマー第2版)RT-DETRv2 、RT-DETR成功を基盤とし、トランスフォーマーの精度をリアルタイム速度で実現することを目指しています。エンコーダ-デコーダ構造を最適化することで、ビジョントランスフォーマー(ViT)に通常伴う高い計算コストに対処します。
- 著者: Wenyu Lv、Yian Zhao、他
- 組織: Baidu
- 日付:2023年4月17日 (v1), 2024年7月24日 (v2)
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:RT-DETR
アーキテクチャと設計
RT-DETRv2 、CNNバックボーン(通常はResNetまたはHGNet)と効率的なトランスフォーマーエンコーダ-デコーダを組み合わせたハイブリッドアーキテクチャRT-DETRv2 。
- ハイブリッドエンコーダ:スケール内相互作用とスケール間融合を分離し、計算オーバーヘッドを低減する。
- IoUクエリ選択:高信頼度特徴を優先することでオブジェクトクエリの初期化を改善する。
- アンカーフリー:事前定義されたアンカーなしで直接バウンディングボックスを予測し、理論的には出力ヘッドを簡素化する。
- NMS:主要なセールスポイントは、ノン・マキシマム・サプレッション(NMS)を排除したことであり、これにより後処理におけるレイテンシ変動を低減できる。
デプロイメントに関する考慮事項
RT-DETRv2 競争力のある精度RT-DETRv2 一方で、より高いリソースを必要とします。トランスフォーマーベースモデルの学習には、YOLOv5CNNと比較して、一般的によりGPU 長い学習時間が求められます。さらに、NMS 削除はレイテンシ安定性においてNMS 、アテンション層における重い行列乗算は、tensor を持たない古いハードウェアやエッジデバイスでは処理が遅くなる可能性があります。
性能指標の比較
以下の表は、COCO RT-DETRv2 性能を比較したものです。RT-DETRv2 高い精度(mAP)RT-DETRv2 、YOLOv5 特に標準的なハードウェアにおいて、優れた速度対パラメータ比を提供YOLOv5 。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
パフォーマンスバランス
RT-DETRv2 より高いピークmAP RT-DETRv2 、モデルサイズと速度の顕著な差に留意すべきである。YOLOv5nはT4 GPU上で最小RT-DETRv2 よりも約5倍高速に動作するため、リソースが極めて制約されたエッジアプリケーションには最適な選択肢となる。
主な相違点と使用例
1. トレーニング効率とエコシステム
Ultralyticsの最も重要な利点の一つは Ultralytics YOLOv5 の最大の利点の一つは、そのトレーニング効率にあります。小規模なデータセットと低スペックなハードウェアでも効果的にトレーニングできる能力は、AIへのアクセスを民主化します。統合されたUltralytics により、ユーザーはトレーニングメトリクスの可視化、データセットの管理、モデルのデプロイをシームレスに行えます。
対照的に、RT-DETRv2 トレーニングではRT-DETRv2 トランスフォーマーの注意機構の性質上、収束に達するまでにRT-DETRv2 CUDA 長いトレーニングエポックを必要とする。迅速な反復開発を行う開発者にとって、YOLOv5 の高速なトレーニングサイクルは生産性を大幅に向上させるYOLOv5 。
2. 多機能性
YOLOv5 単なる物体検出器YOLOv5 。Ultralytics はその機能を以下のように拡張します:
- インスタンスセグメンテーション:ピクセルレベルでの物体分割。
- 画像分類:画像全体を効率的に分類する。
- Pose Estimation: 人体のキーポイントをdetectします。
この汎用性により、単一のライブラリでスポーツ分析から 医療画像処理まで、一連のアプリケーション全体を駆動でき、コードの複雑さと保守オーバーヘッドを削減します。RT-DETRv2 主に検出に焦点をRT-DETRv2 、統合ワークフローにおけるこれらの補助タスクへのサポートは成熟度が低い状態です。
3. エッジとCPU
CPU(IPカメラやクラウド関数で一般的)やモバイルデバイスへの展開向けに、YOLOv5CNNアーキテクチャYOLOv5高度に最適化されています。以下の形式へのエクスポートをサポートします: TFLite および CoreML へのエクスポートをサポートし、広範な量子化対応を備えています。RT-DETRv2 トランスフォーマーモデルは、CPU 容易に高速化できない複雑な行列演算を伴うため、GPU ではレイテンシの問題RT-DETRv2
推奨事項:Ultralytics
RT-DETRv2 学術的に優れた結果RT-DETRv2 、YOLO 実稼働システム向けに包括的なソリューションを提供します。Python 、ハードウェアドライバー、エクスポート形式との互換性を保証する「整備されたエコシステム」は、長期プロジェクトにおける安心感をもたらします。
2026年に新規プロジェクトを開始される方には、Ultralytics のご検討を強くお勧めします。
YOLO26を選ぶ理由
YOLO26は、CNNとトランスフォーマーの最良の特徴を組み合わせた効率性の頂点を体現している。
- ネイティブにエンドツーエンド: RT-DETRv2と同様に、YOLO26はNMSであり、デプロイメントパイプラインを簡素化します。
- MuSGDオプティマイザ:収束速度と安定性を向上させる画期的なハイブリッド最適化アルゴリズム。
- エッジ最適化:前世代と比較して最大43%高速なCPU を実現するよう特別に設計されています。
- DFL除去:エッジデバイスへの優れた移植性を実現する簡略化された損失関数。
コード例: YOLOv5の実行
Ultralytics シンプルさは、広く採用されている主な理由です。以下に、モデルを読み込み推論を実行する簡単な手順を示します。
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"
# Perform inference
results = model(img)
# Print results to the console
results.print()
# Show the image with bounding boxes
results.show()
比較のため、Ultralytics 同じシンプルなインターフェースを通じてRT-DETR Ultralytics サポートしています:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
for result in results:
result.show()
結論
YOLOv5 RT-DETRv2 YOLOv5 優れたモデルRT-DETRv2 。RT-DETRv2 NMSアーキテクチャと高い精度により、トランスフォーマーベースの検出技術の未来を垣間RT-DETRv2 。しかし、 YOLOv5 は実用的かつ現実的な展開において依然として強力な選択肢であり、エッジデバイス上での比類のない速度、低いリソースコスト、そして豊富なツールエコシステムを提供している。
開発者が「両方の長所」——CNNの高速性とトランスフォーマーのNMS利便性——を求めるなら、Ultralytics 2026年以降における決定的な選択肢となる。