YOLOv5 RTDETRv2: 物体検出におけるCNNとトランスフォーマーアーキテクチャの評価
コンピュータビジョンの分野はここ数年で大きく拡大し、開発者に複雑な視覚タスクに取り組むための多様なアーキテクチャを提供している。最も普及している手法としては、畳み込みニューラルネットワーク(CNN)と検出トランスフォーマー(DETR)が挙げられる。
このガイドでは、これらのカテゴリーにおける2つの主要モデルの詳細な技術比較を提供します: Ultralytics YOLOv5、高効率で広く採用されているCNNベースのモデルと、最先端のトランスフォーマーベースのリアルタイム物体検出器であるRTDETRv2です。
Ultralytics YOLOv5:効率性の業界標準
Ultralytics YOLOv5 リリース以来、AIコミュニティの礎YOLOv5 、世界中の数千もの商用アプリケーションや研究プロジェクトを支えています。完全に PyTorch フレームワーク上に構築されており、リアルタイム性能を損なうことなく直感的な開発者体験を優先しています。
主な特徴:
- Author: Glenn Jocher
- 組織:Ultralytics
- 日付: 2020-06-26
- リンク:GitHub リポジトリ
アーキテクチャと強み
YOLOv5 、極めて低いメモリ使用量を維持しながら特徴抽出効率を最大化するよう設計された、合理化されたCNNアーキテクチャYOLOv5 。CSPDarknetバックボーンとPANetネックを組み合わせることで、マルチスケール特徴融合のための強力な組み合わせを実現している。
YOLOv5 主な利点の一つは、その性能バランス YOLOv5 。速度と精度の間で優れたトレードオフを実現しており、NVIDIA デバイスやスマートフォンといったリソース制約のあるハードウェア上でのモデル展開に理想的な選択肢となる。
さらに、YOLOv5 比類のない汎用性を YOLOv5 。バウンディングボックス予測に限定されたモデルとは異なり、YOLOv5 画像分類とインスタンスセグメンテーションを YOLOv5 サポートし、多様な視覚タスクに対応する統一フレームワークを提供する。その学習効率も顕著で、トランスフォーマーベースのアーキテクチャと比較して、CUDA 大幅に少ない。
弱点
YOLOv5 古いCNNフレームワークに依存しているため、重複するバウンディングボックスを除去する後処理においてYOLOv5 非最大抑制(NMS)に依存している。Ultralytics 内では高度に最適化されているものの、NMS 特殊なエッジNPU上で時折レイテンシのボトルネックを引き起こすNMS 。
RTDETRv2: Baiduによるリアルタイムトランスフォーマー
RTDETRv2(リアルタイム検出トランスフォーマーv2)は、トランスフォーマーアーキテクチャをリアルタイム物体検出に応用する上で大きな飛躍を遂げ、従来標準的なDETRを悩ませてきた計算効率の低さに対処するものである。
主な特徴:
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- リンク:Arxiv論文,GitHubリポジトリ
アーキテクチャと強み
RTDETRv2は、ハイブリッドエンコーダと柔軟なデコーダ設計を活用して画像を処理することで、前世代モデルを基盤としています。トランスフォーマーの自己注意機構により、モデルは画像コンテキストの全体的な理解を獲得し、深刻な物体遮蔽が生じる複雑なシーンにおいても卓越した性能を発揮します。
RTDETRv2の決定的な特徴は、エンドツーエンドかつNMS設計である。アンカーボックスやNMS 必要とせず、オブジェクトクエリを直接予測することで推論パイプラインを簡素化する。このアーキテクチャはmAP COCOなどのベンチマークデータセットで顕著なmAP(平均精度)を達成しています。
弱点
リアルタイム処理能力を有しながらも、RTDETRv2YOLO 著しく高いメモリ要件を必要とする。トランスフォーマーの注意機構はシーケンス長に二次的に比例してスケールするため、大規模GPU を使用しない限り、高解像度トレーニング中にメモリ不足エラーが発生する可能性がある。さらに、Ultralytics 即戦力としての汎用性に欠け、主に2D物体検出にのみ焦点を当てており、セグメンテーションや姿勢推定に対するネイティブサポートは備えていない。
性能比較表
これらのアーキテクチャを客観的に評価するため、我々はそれらの性能指標をまとめた。太字で強調された値は、テストされた全スケールにおいて最も効率的または最高の性能を示した指標を表す。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
パフォーマンスコンテキスト
RTDETRv2-xは最高の絶対mAPを達成する一方、YOLOv5nの約30倍のパラメータを必要とする。限られたハードウェア上で動作する高速アプリケーションにおいては、Ultralytics が一貫して最高の計算効率を提供する。
Ultralyticsエコシステムの利点
研究ノートブックから本番環境へモデルを移行する際、モデルを取り巻くソフトウェアはニューラルネットワークのアーキテクチャと同様に重要です。Ultralytics 提供する「適切に管理されたエコシステム」は開発ライフサイクルをUltralytics 加速させます。
比類のない使いやすさ
Ultralytics 、驚くほど合理化されたユーザー体験を最優先します。カスタムモデルのトレーニング、検証の実行、あるいはTensorRTなどのハードウェア固有フォーマットへのエクスポートなど、あらゆる操作において TensorRT や ONNXUltralytics Python 、あらゆる操作をわずか数行のコードで実現します。
Ultralytics トレーニングと推論を実行するのがいかに簡単かを示す実用的なコード例を以下に示します:
from ultralytics import YOLO
# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")
# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
inference_results[0].show()
このシンプルで統一されたAPIは、ネイティブに実験追跡ツールとの連携をサポートします。 Weights & Biases や Cometなどのツールとの統合をネイティブにサポートし、開発者が複雑な定型コードを記述することなくシームレスにメトリクスを記録できるようにします。
ユースケースと推奨事項
RT-DETR 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムの好みにRT-DETR 。
YOLOv5を選択すべき時
YOLOv5 以下に最適YOLOv5 :
- 実績ある生産システム: YOLOv5 track 、豊富なドキュメント、大規模なコミュニティサポートが評価される既存の展開環境。
- リソース制約下でのトレーニング: GPU 限られた環境において、YOLOv5効率的なトレーニングパイプラインと低いメモリ要件が有利に働く。
- 幅広いエクスポート形式のサポート:複数の形式での展開を必要とするプロジェクトに対応 ONNX、 TensorRT、 CoreML、および TFLite。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
展望:YOLO11 YOLO26
本日新たなビジョンプロジェクトを開始される場合、最新世代のUltralytics を検討されることを強くお勧めします。
YOLOv5 非常に信頼性が高いものの、 YOLO11 は精度が向上し、方向付き境界ボックス(OBB)検出を含むタスクセットが拡張されています。
さらに重要なことに、最先端のYOLOv2は両方の長所を融合させている。これはエンドツーエンドNMS設計(最初に YOLOv10で初めて導入された)を実装し、CNNの効率性を維持しながら後処理のオーバーヘッドを排除しています。さらに、LLMトレーニングの革新に着想を得たMuSGDオプティマイザーを導入し、収束速度を向上させています。DFL除去(簡素化されたエクスポートとエッジ/低電力デバイスとの互換性向上のため、Distribution Focal Lossを削除)により、YOLO26は最大43%CPU を実現し、エッジAIにおける絶対的な最適解となっています。 さらに、ProgLoss + STALにより損失関数が改善され、IoT・ロボティクス・航空画像処理で重要な小物体認識性能が顕著に向上しています。
結論
YOLOv5 選択は、主にデプロイメントの制約条件に依存します。RTDETRv2は強力なトランスフォーマーの注意機構mAP の限界を押し広げますが、メモリと計算オーバーヘッドの面で大きなコストを伴います。
一方、Ultralytics YOLOv5 実績があり、高度に最適化され、汎用性の高いソリューションYOLOv5 、クラウドサーバーからマイクロコントローラーまであらゆる環境でスムーズに動作します。最高の精度とシームレスなデプロイメントツールを求めるチームにとって、Ultralytics アップグレードすることは、現代のビジョンAIアプリケーションに向けた決定的な最先端ソリューションとなります。