RTDETRv2 vs.YOLOv5: リアルタイム検出用トランスフォーマーとCNNの評価
コンピュータビジョンの進化は、精度とリアルタイム推論速度のバランスを絶え間なく追求する姿勢によって大きく形作られてきた。Ultralytics YOLOv5比較する際、開発者は本質的に、トランスフォーマーアーキテクチャの高度なグローバルコンテキスト処理能力と、高度に最適化され実戦で実証された畳み込みニューラルネットワーク(CNN)の効率性を天秤にかけている。
このガイドでは、これら2つの主要なアーキテクチャについて、詳細な技術分析を提供します。パフォーマンス指標、トレーニング手法、メモリ要件、および最適な展開シナリオを詳細に解説し、特定のユースケースに最適な物体検出モデルを選択するお手伝いをします。
RTDETRv2: リアルタイム検出へのトランスフォーマーアプローチ
オリジナルのリアルタイム検出トランスフォーマー(RT-DETR)を基盤とし、RTDETRv2は推論遅延を犠牲にすることなくベースラインアーキテクチャを改善するための一連の「フリービーの袋」を導入する。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- リンク:Arxiv論文,GitHubリポジトリ
アーキテクチャと機能
RTDETRv2はハイブリッドCNN-Transformerアーキテクチャを採用している。CNNはバックボーンとして微細な視覚特徴を抽出する一方、Transformerのエンコーダ-デコーダ層は特徴マップ全体を処理し、グローバルな文脈を理解する。RTDETRv2の主要な特徴はエンドツーエンド処理であり、ノンマキシマム抑制(NMS)後処理を完全に不要とする。
RTDETRv2は、特に物体が重なり合う複雑で密なシーンにおいて驚異的な精度を達成する一方で、顕著なトレードオフを伴う。トランスフォーマーに内在するアテンション機構は、標準的なCNNと比較して、トレーニング中に著しくCUDA 要求する。さらに、NVIDIA やT4のようなハイエンドGPUでは良好な性能を発揮するが、標準的なCPUや制約の厳しいエッジデバイスでは、そのアーキテクチャは明らかに低速となる。
Ultralytics YOLOv5:効率性の業界標準
Ultralytics YOLOv5 リリース時に応用機械学習の風景をYOLOv5 変え、非常に直感的なフレームワークを通じて高性能なコンピュータビジョンを世界中の開発者に利用可能にした。
- Author: Glenn Jocher
- 組織: Ultralytics
- 日付: 2020年6月26日
- リンク:公式ドキュメント、GitHubリポジトリ
生態系と性能のバランス
YOLOv5 完全にPyTorch上に構築YOLOv5 PyTorch フレームワーク上に構築され、非常に効率的なCNNアーキテクチャに依存しています。使いやすさを追求して一から設計されており、合理化されたAPIとAI業界で最も充実したドキュメントの一部を備えています。
YOLOv5 最大の利点はYOLOv5 比類のない汎用性と低いメモリYOLOv5 。YOLOv5 トレーニングには、トランスフォーマーベースのモデルに比べて大幅に少ないVRAMしか必要とせず、ハードウェア予算が限られている研究者やエンジニアにも利用可能である。さらに、RTDETRv2が境界ボックス検出のみに特化しているのに対し、YOLOv5 はインスタンスセグメンテーションや 画像分類をサポートする多機能な強力なモデルへとYOLOv5 。
エンタープライズモデル管理
究極の合理化されたワークフローを体験するには、Ultralytics を使用してYOLOv5 トレーニング、検証、デプロイできます。このプラットフォームはクラウドトレーニング機能とコード不要のデプロイパイプラインを提供します。
パフォーマンスとメトリクスの比較
標準的なCOCO における生の性能を分析すると、これらのモデルがリソースをどのように優先させるかについて明確な違いが見て取れる。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
トレードオフの分析
データによると、RTDETRv2-xは平均精度(mAP)のピーク値として54.3%を達成し、YOLOv5xの50.7%をわずかに上回っています。しかし、このわずかな精度向上には膨大な計算コストが伴います。 YOLOv5xはより低いレイテンシ(TensorRT上で11.89ミリ秒対15.03ミリ秒)で動作し、メモリフットプリントもごくわずかです。 超低消費電力のエッジデプロイメントにおいては、YOLOv5n(Nano)が依然として圧倒的な優位性を保っており、わずか1.12ミリ秒で推論を完了し、パラメータフットプリントはわずか260万というレベルです。RTDETRv2は、このレベルではまったく競争しようとしていません。
トレーニング効率とコードの簡潔さ
Ultralytics 主要な強みの1つは、統一されたAPIです。たとえ特定の計算負荷の高いRT-DETR トランスフォーマーアーキテクチャを利用する場合でも、Python 完全に処理でき、たった1行のコードでモデルをシームレスに切り替えられます。
from ultralytics import RTDETR, YOLO
# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")
# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")
# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo[0].show()
Ultralytics を活用することで、開発者は自動的に、実験追跡統合(Weights & Biases Comet )やONNXなどのデプロイメント形式へのワンクリックエクスポート機能を備えた、よく整備されたエコシステムにアクセスできます。 ONNX や OpenVINOなどのデプロイメント形式へのワンクリックエクスポートなど、よく整備されたエコシステムへのアクセスを自動的に
実世界での応用例と理想的な使用事例
RTDETRv2が真価を発揮する場面
RTDETRv2は、ハードウェアの制約が存在せず、可能な限りの精度が唯一の目的である環境に最適です。
- サーバーサイド医療画像処理:高解像度X線画像における微小異常の検出
- 衛星画像:強力なクラウドクラスター上で、航空監視タスクにおける密集した重複物体の追跡。
YOLOv5 分野
YOLOv5 、多様なハードウェア環境における実用的かつ現実的な展開において、紛れもない王者YOLOv5 。
- エッジAIデバイス:メモリが厳しく制限されたRaspberryNVIDIA Jetsonデバイスへのセキュリティ警報システムの導入。
- モバイルアプリケーション: CoreML TFLiteを介して、スマートフォン上で高速なリアルタイムのバウンディングボックスおよびセグメンテーション推論を直接実行。
- 高速産業製造:ミリ秒単位の遅延が操業成功の鍵となる高速生産ラインにおける部品検査。
Ultralytics 調査
YOLOv5 伝説的なYOLOv5 、Ultralytics AIの限界を絶えず押し広げています。2026年の新規プロジェクトでモデルを比較検討されるなら、最先端Ultralytics 採用をご検討ください。 YOLO26はネイティブのエンドNMS(トランスフォーマーに類似するがCNNの速度を実現)を採用し、驚異的な安定性を誇る革新的なMuSGDオプティマイザーを搭載。CPU 最大43%高速化を実現しています。あるいは、 YOLO11 は、姿勢推定とOBB検出を必要とする多様な展開において、依然として優れた選択肢であり、高いサポート体制が整っています。
最終的に、RTDETRv2がトランスフォーマー層を用いて精度の上限を押し上げる一方で、Ultralytics YOLO は、速度、軽量なメモリ要件、そして見事に設計された開発者体験という比類のないバランスを提供し、プロトタイプから本番環境までの時間を劇的に短縮します。