Link to this sectionRTDETRv2とYOLOv5の比較#
コンピュータビジョンの進化は、精度とリアルタイム推論速度のバランスを追求する絶え間ない試みによって定義されてきました。RTDETRv2とUltralytics YOLOv5を比較する際、開発者は本質的に、Transformerアーキテクチャの洗練されたグローバルコンテキスト機能と、CNN(畳み込みニューラルネットワーク)の高度に最適化され、実戦で鍛え上げられた効率性を比較検討することになります。
本ガイドでは、これら2つの主要なアーキテクチャについて詳細な技術分析を行い、パフォーマンス指標、学習手法、メモリ要件、そして最適なデプロイメントシナリオを解説することで、お客様の特定のユースケースに最適な物体検出モデルの選択をサポートします。
Link to this sectionRTDETRv2:リアルタイム検出へのTransformerアプローチ#
オリジナルのReal-Time Detection Transformer(RT-DETR)をベースにしたRTDETRv2は、推論遅延を犠牲にすることなくベースラインアーキテクチャを改善するために、一連の「bag-of-freebies」を導入しています。
- 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
- 組織: Baidu
- 日付: 2024年7月24日
- リンク: Arxiv論文、GitHubリポジトリ
Link to this sectionアーキテクチャと機能#
RTDETRv2は、CNNとTransformerのハイブリッドアーキテクチャを活用しています。CNNは細かい視覚的特徴を抽出するバックボーンとして機能し、Transformerのエンコーダー・デコーダー層は特徴マップ全体を処理してグローバルなコンテキストを理解します。RTDETRv2の大きな特徴は、Non-Maximum Suppression (NMS)後処理を完全に不要にするエンドツーエンドの性質です。
RTDETRv2は、特に物体が重なり合う複雑で高密度なシーンにおいて素晴らしい精度を達成しますが、注目すべきトレードオフも存在します。Transformerに固有のアテンション機構は、標準的なCNNと比較して学習中に大幅に多くのCUDAメモリを必要とします。さらに、NVIDIA A100やT4のようなハイエンドGPUでは良好に動作する一方で、そのアーキテクチャは標準的なCPUやリソースが厳しく制限されたエッジデバイスでは著しく動作が遅くなります。
Link to this sectionUltralytics YOLOv5:効率性における業界標準#
Ultralytics YOLOv5はリリース時に応用機械学習の風景を根本から変え、非常に直感的なフレームワークを通じて世界中の開発者が高性能なコンピュータビジョンを利用できるようにしました。
- 作成者: Glenn Jocher
- 組織: Ultralytics
- 日付: 2020年6月26日
- リンク: 公式ドキュメント, GitHubリポジトリ
Link to this sectionエコシステムとパフォーマンスのバランス#
YOLOv5はPyTorchフレームワーク上に完全に構築されており、非常に効率的なCNNアーキテクチャに依存しています。これは使いやすさを第一に設計されており、洗練されたAPIとAI業界でも最も充実したドキュメントを備えています。
YOLOv5の最大の利点は、その比類のない汎用性と低いメモリ要件にあります。YOLOv5モデルの学習に必要なVRAMはTransformerベースのモデルよりも大幅に少なく、限られたハードウェア予算のエンジニアや研究者にも利用可能です。さらに、RTDETRv2がバウンディングボックス検出のみに焦点を当てているのに対し、YOLOv5はインスタンスセグメンテーションや画像分類をサポートする汎用的なパワーハウスへと進化しています。
究極の効率的なワークフローを体験するために、Ultralytics Platformを使用してYOLOv5の学習、検証、デプロイを直接行うことができます。同プラットフォームはクラウド学習機能とコード不要のデプロイパイプラインを提供しています。
Link to this sectionパフォーマンスと指標の比較#
標準のCOCO datasetで生のパフォーマンスを分析すると、これらのモデルがどのようにリソースを優先しているかの明確な違いが見えてきます。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Link to this sectionトレードオフの分析#
データによると、RTDETRv2-xは平均適合率 (mAP)で54.3%のピーク値を達成し、YOLOv5xの50.7%をわずかに上回っています。しかし、このわずかな精度の向上には莫大な計算コストがかかります。YOLOv5xはより低いレイテンシで動作し(TensorRT上で15.03msに対し11.89ms)、メモリフットプリントもわずかです。超低電力のエッジデプロイメントにおいては、YOLOv5n (Nano) が依然として無敵であり、わずか2.6Mのパラメータで1.12msの推論を完了します。これはRTDETRv2が競合すらできない領域です。
Link to this section学習効率とコードの簡潔さ#
Ultralyticsエコシステムの重要な強みの一つは、統一されたAPIです。特定の高負荷なタスクのためにRT-DETRのTransformerアーキテクチャを利用することを決めた場合でも、Ultralytics Pythonパッケージ内で完結でき、わずか1行のコードでモデルをシームレスに切り替えることができます。
from ultralytics import RTDETR, YOLO
# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")
# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")
# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo[0].show()Ultralyticsライブラリを活用することで、開発者は実験追跡統合(Weights & BiasesやComet MLなど)を備えた適切にメンテナンスされたエコシステムに自動的にアクセスでき、ONNXやOpenVINOといったデプロイメント形式へのワンクリックエクスポートが可能になります。
Link to this section実環境での応用と理想的なユースケース#
Link to this sectionRTDETRv2が輝く場面#
RTDETRv2は、ハードウェアの制限がなく、最大限の精度を達成することだけが目的である環境に最適です。
- サーバーサイドの医療画像診断: 高解像度X線画像内の微細な異常を検出する場合。
- 衛星画像: 強力なクラウドクラスター上で航空監視タスクを実行し、高密度で重なり合う物体を追跡する場合。
Link to this sectionYOLOv5が優位な場面#
YOLOv5は、多様なハードウェアにおける実用的なリアルタイムデプロイメントにおいて、紛れもないチャンピオンです。
- エッジAIデバイス: メモリが厳しく制限されたRaspberry PiやNVIDIA Jetsonデバイスでセキュリティアラームシステムを展開する場合。
- モバイルアプリケーション: CoreMLまたはTFLiteを介して、スマートフォン上で高速なリアルタイムのバウンディングボックスとセグメンテーション推論を実行する場合。
- 高速産業用製造ライン: ミリ秒単位の遅延が業務の成功に直結するような、高速生産ラインでの部品検査。
YOLOv5は伝説的なモデルですが、Ultralyticsエコシステムは継続的にAIの限界を押し広げています。2026年に向けて新しいプロジェクトのモデルを比較検討されている場合は、最先端のUltralytics YOLO26を検討することをお勧めします。YOLO26は、ネイティブなエンドツーエンドのNMSフリー設計(Transformerに近いがCNNの速度を実現)を組み込んでおり、非常に安定した学習を可能にする画期的なMuSGD Optimizerを備え、最大43%高速なCPU推論を実現します。また、YOLO11も、姿勢推定やOBB検出が必要な汎用的なデプロイメントにおいて、非常にサポートが充実した素晴らしい選択肢です。
結論として、RTDETRv2はTransformerレイヤーを使用して精度の天井を引き上げますが、Ultralytics YOLOフレームワークは、スピード、軽量なメモリ要件、そしてプロトタイプから本番環境への移行時間を劇的に短縮する巧みに設計された開発者体験という、比類のないバランスを提供します。