YOLOv6.0 vs RTDETRv2: 産業用CNNとリアルタイムトランスフォーマーの対決
コンピュータビジョンアプリケーションに最適なアーキテクチャを選択するには、速度、精度、およびデプロイメント制約のバランスが求められる。本包括的な技術分析では、GPU 向けに設計された産業用グレードの畳み込みニューラルネットワーク(CNN)YOLOv6.YOLOv6、リアルタイム物体検出にアテンション機構を導入した最先端のトランスフォーマーベースモデルであるRTDETRv2を比較検討する。
両モデルとも人工知能研究における重要なマイルストーンではあるが、最も汎用性が高く効率的なパイプラインを求める開発者は、堅牢なUltralytics を選択することが多い。
YOLOv6.0: 産業用スループット
美団(Meituan)のビジョンAI部門が開発したYOLOv6.YOLOv6、NVIDIA などのハードウェアアクセラレータにおける処理速度の最大化に重点を置いており、従来の産業用アプリケーションにおける地位を確固たるものにしている。
- 著者: Chuyi Li、Lulu Li、Yifei Geng、他。
- 組織:Meituan
- 日付: 2023-01-13
- ArXiv:2301.05586
- GitHub:meituan/YOLOv6
アーキテクチャのハイライト
YOLOv6、GPU に特化したハードウェアフレンドリーなEfficientRepバックボーンを採用している。このアーキテクチャは、異なる空間解像度間での特徴融合を強化するため、ネック部分に双方向連結(BiC)モジュールを統合している。学習時には、アンカーベース学習の強みを活用しつつアンカーフリー推論パイプラインを維持するアンカー補助学習(AAT)戦略を採用している。
長所と短所
長所:
- T4やA100 GPUなどのサーバーグレードハードウェアにおける卓越したスループット。
- RepOptを使用したINT8デプロイメント向けの専門的な量子化チュートリアルを提供します。
- 大規模動画解析における有利なパラメータ対速度比。
弱点:
- 主にバウンディングボックス検出器であり、 Ultralytics YOLO11などのモデルに見られるような、すぐに使えるマルチタスク対応機能(例:Pose、OBB)は
- 後処理における複雑な非最大抑制(NMS)への依存度が高まり、遅延のばらつきが増加する。
- 主流のフレームワークと比べて活発でないエコシステムであり、更新やコミュニティサポートの予測が困難である。
RTDETRv2: リアルタイムトランスフォーマー
百度の研究者らが主導するRTDETRv2は、オリジナルのRT-DETR を基盤としつつ、検出トランスフォーマーフレームワークを「フリービーの袋」アプローチで洗練RT-DETR 、リアルタイム性を損なうことなく最先端の精度を達成している。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- ArXiv:2407.17140
- GitHub:lyuwenyu/RT-DETR
アーキテクチャのハイライト
従来のCNNとは異なり、RTDETRv2はネイティブにエンドツーエンドです。トランスフォーマーの注意層を活用することで、このアーキテクチャはNMS を完全に不要にします。これにより、効率化された推論パイプラインが実現されます。RTDETRv2は高度に最適化されたクロススケール特徴融合と効率的なハイブリッドエンコーダーを導入し、標準的なCOCO 驚異的な精度で処理することを可能にします。
長所と短所
長所:
- トランスフォーマーベースのアテンション機構は、特に複雑または密なシーンにおいて、卓越した平均精度(mAP)を実現する。
- NMS設計NMS推論レイテンシを標準化し、本番環境への統合を簡素化します。
- ハードウェアの制約が最小限である場合、絶対的な最高精度が要求されるシナリオに最適です。
弱点:
- トランスフォーマー層は学習中に膨大なCUDA 必要とするため、高性能GPUを利用できない研究者は孤立してしまう。
- CPU 速度は専用エッジCNNに比べて著しく遅く、モバイル端末やIoTデバイスでの利用を制限している。
- 従来の機械学習運用(MLOps)に慣れたチームにとって、設定と調整は複雑になる可能性があります。
詳細な性能比較
以下の表は、主要な性能指標におけるYOLOv6.YOLOv6とRTDETRv2のベンチマーク結果を示す。YOLOv6 のパラメータ効率YOLOv6 RTDETRv2の純粋な精度との著しい対比に留意されたい。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
デプロイのヒント
ラズベリーパイのような純粋CPU にデプロイする場合、CNNベースのモデルは一般的にフレームレート(FPS)においてトランスフォーマーアーキテクチャを大幅に上回ります。エッジでの最適なパフォーマンスを実現するには、OpenVINOの活用をご検討ください。 OpenVINO による推論の高速化を検討してください。
ユースケースと推奨事項
RT-DETR YOLOv6 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムの好みにRT-DETR 。
YOLOv6を選択すべき時
YOLOv6 以下に最適YOLOv6 :
- 産業用ハードウェア対応デプロイメント:モデルのハードウェア対応設計と効率的な再パラメータ化により、特定のターゲットハードウェア上で最適化されたパフォーマンスを提供するシナリオ。
- 高速シングルステージ検出:制御された環境におけるリアルタイム動画処理GPU 上での生の推論速度を優先するアプリケーション。
- 美団エコシステム統合: 美団のテクノロジースタックおよびデプロイメントインフラストラクチャ内で既に稼働しているチーム。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
Ultralyticsの利点: YOLO26の登場
YOLOv6.YOLOv6RTDETRv2YOLOv6それぞれの分野で優れた性能を発揮しますが、現代の機械学習環境では速度、精度、開発者体験を兼ね備えたモデルが求められています。Ultralytics 、特にYOLO26のリリースにより、これらのニーズに完璧に対応しています。
2026年1月にリリースUltralytics 、コンピュータビジョンの決定版となる標準モデルであり、YOLOv8 などの旧モデルYOLOv8 コミュニティフォークYOLOv8 大幅に凌駕している。
YOLO26が競合製品を凌駕する理由
- エンドツーエンドのNMS:最初に YOLOv10で初めて導入されたYOLO26は、NMS ネイティブに排除します。これにより、高度に最適化されたCNNの超高速処理を維持しつつ、RTDETRv2のデプロイメントの簡便性を実現します。
- MuSGDオプティマイザ:大規模言語モデルの革新(Moonshot AIのKimi K2など)に着想を得たYOLO26は、SGD ューオンのハイブリッド手法を採用しています。これにより、極めて安定した学習ダイナミクスと高速な収束が保証され、カスタムデータセットに必要な時間と計算リソースを削減します。
- 比類なきエッジ性能:完全なDFL除去(分布焦点損失)を実行することで、YOLO26はエクスポートアーキテクチャを簡素化します。この最適化により、従来モデルと比較して最大43%高速CPU を実現し、エッジAIおよびIoTデバイスにおける圧倒的なチャンピオンとなっています。
- 小型物体検出の強化:ProgLossおよびSTAL損失関数の導入により、小型物体の検出能力が飛躍的に向上しました。これはドローン解析や航空画像において極めて重要な要件であり、YOLOv6 苦戦していた領域です。
- タスクの汎用性:検出に特YOLOv6異なり、YOLO26はインスタンスセグメンテーション、姿勢推定、画像分類、オリエンテッドバウンディングボックス(OBB)を含むマルチモーダルワークフローを単一の統合APIからサポートします。
トレーニング効率と使いやすさ
Ultralytics Python 、開発者の生産性を最大化するように設計されています。わずか数行のコードでトレーニングからデプロイメントへ移行でき、スタンドアロンの研究リポジトリで必要とされる複雑な環境設定を完全に回避できます。
以下は、Ultralytics を使用して最先端のYOLO26モデルをトレーニングおよび検証する完全な実行可能例です:
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on a custom dataset (e.g., COCO8) for 50 epochs
# The API automatically handles dataset caching and environment config
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Validate the model's accuracy on the validation split
val_metrics = model.val()
print(f"Validation mAP50-95: {val_metrics.box.map:.4f}")
# Export the trained model to ONNX for production deployment
model.export(format="onnx")
結論
YOLOv6.YOLOv6とRTDETRv2はいずれもAIコミュニティへの顕著な貢献である。YOLOv6.YOLOv6 GPU 駆使GPU 自動化において依然として強力なツールであり、RTDETRv2はトランスフォーマーアーキテクチャが精度を最大化しつつリアルタイム遅延を達成できることを実証している。
ただし、信頼性が高く本番環境対応のフレームワークと活発なコミュニティサポートを必要とするチームにとっては、Ultralytics YOLO が一貫して優れた選択肢です。Hugging Faceなどのプラットフォームとのシームレスな統合により、 Hugging Face や TensorRTとのシームレスな連携に加え、トレーニング時のメモリオーバーヘッドが極めて低いことで、ハイエンドAIへのアクセスを民主化します。YOLO26へのアップグレードにより、開発者は画期的なMuSGDオプティマイザとNMSアーキテクチャを活用し、より高速でスマート、かつスケーラブルなコンピュータビジョンパイプラインを構築できます。