RTDETRv2 vs.YOLOv6.0: リアルタイムトランスフォーマーと産業用CNNの評価
コンピュータビジョンの分野は絶えず進化を続けており、開発者には物体検出のための多様なアーキテクチャ選択肢が提示されている。異なるアプローチを代表する二つの主要モデルとして、最先端のビジョントランスフォーマーであるRTDETRv2と、産業用途向けに高度に最適化された畳み込みニューラルネットワーク(CNN)YOLOv6.YOLOv6挙げられる。
この包括的な技術比較では、それぞれのアーキテクチャ、パフォーマンス指標、および理想的な導入シナリオを検証します。さらに、Ultralytics 広範なUltralytics 優れた開発者体験を提供する仕組みを検証し、Ultralytics 次世代機能に焦点を当てます。
RTDETRv2: ビジョン・トランスフォーマー・アプローチ
百度の研究者によって開発されたRTDETRv2は、オリジナルのRT-DETRの基盤をさらに発展させたもので、トランスフォーマーベースの物体検出において大きな飛躍を遂げた。
- 著者:呂文宇、趙一安、常琴耀、黄奎、王冠中、劉毅
- 組織:Baidu
- 日付: 2024年7月24日
- Arxiv:2407.17140
- GitHub:RT-DETR
- ドキュメント:RTDETRv2 GitHub README
アーキテクチャのハイライト
RTDETRv2は、CNN特徴抽出器と強力なトランスフォーマーデコーダーを組み合わせたハイブリッドアーキテクチャを採用しています。このモデルの最大の特徴は、ネイティブにNMS設計であることです。後処理段階での非最大抑制(NMS)を排除することで、モデルは直接バウンディングボックスを予測し、これによりデプロイメントが簡素化され、推論レイテンシが安定化されます。
RTDETRv2に組み込まれた「Bag-of-Freebies」は、局所的な畳み込みよりも空間的関係性を本質的に理解するグローバルな注意機構により、複雑なシーンや重なり合う物体の処理能力を強化する。
Transformerのメモリ使用量
トランスフォーマーは複雑なシーン理解に優れる一方、CNNと比較して学習時に大幅にCUDA 必要とする。これにより、標準的なコンシューマー向けGPUではバッチサイズが制限され、学習時間全体が長くなる可能性がある。
YOLOv6.0: 産業用スループット最大化
美団(Meituan)のビジョンAI部門で開発されたYOLOv6.YOLOv6、GPU 最優先事項となる産業用パイプライン向けに、次世代検出器として明示的に設計された。
- 著者:李秋怡、李露露、耿一飛、江洪亮、程萌、張博、柯載丹、徐暁明、および朱向翔
- 組織:美団(Meituan)
- 日付: 2023年1月13日
- Arxiv:2301.05586
- GitHub:YOLOv6
建築の焦点
YOLOv6、NVIDIA などのハードウェアアクセラレータにおけるメモリアクセスコストを最小化するために緻密に設計されたEfficientRepバックボーンに依存している。ネックアーキテクチャは、異なるスケール間での特徴融合を改善する双方向連結(BiC)モジュールを備えている。
トレーニング時には、アンカーベースのパラダイムの利点を活かすためアンカー補助トレーニング(AAT)戦略を採用しつつ、高速実行のためにアンカーフリー推論モードを維持する。サーバーグレードGPU(例:T4、A100)では卓越したスループットを達成するが、その特化型アーキテクチャはCPUデバイスに展開した場合、最適とは言えないレイテンシを引き起こす可能性がある。
パフォーマンス比較
モデルを本番環境で評価する際には、精度(mAP)と推論速度、計算コスト(FLOPs)のバランスが極めて重要である。下表は各モデルの比較結果を示している。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
TensorRT YOLOv6純粋な処理速度で優位を示す一方、RTDETRv2はよりmAP を獲得し、特に大規模モデルバリエーションでのスケーラビリティに優れる。ただし、両モデルとも現代の統合フレームワークに見られる広範な汎用性を欠いている。YOLOv6.YOLOv6主に物体検出に特化しており、インスタンスセグメンテーションや姿勢推定といったタスクに対するネイティブサポートを標準では備えていない。
ユースケースと推奨事項
YOLOv6 RT-DETR 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステム上の好みにYOLOv6 。
RT-DETRを選択すべきタイミング
RT-DETR 以下に最適RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
YOLOv6を選択すべき時
YOLOv6 以下に推奨YOLOv6 :
- 産業用ハードウェア対応デプロイメント:モデルのハードウェア対応設計と効率的な再パラメータ化により、特定のターゲットハードウェア上で最適化されたパフォーマンスを提供するシナリオ。
- 高速シングルステージ検出:制御された環境におけるリアルタイム動画処理GPU 上での生の推論速度を優先するアプリケーション。
- 美団エコシステム統合: 美団のテクノロジースタックおよびデプロイメントインフラストラクチャ内で既に稼働しているチーム。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
Ultralyticsの利点
適切なモデルの選択には、単なるベンチマークの数値以上の要素が関わります。開発者体験、デプロイの柔軟性、エコシステムサポートも同様に重要です。Ultralytics 統合されたモデルを活用することで、ユーザーは静的な研究リポジトリに比べて大きな優位性を得られます。
- 使いやすさ: The
ultralyticsPython シームレスなAPIを提供します。モデルの学習、検証、エクスポートはわずか数行のコードで実現できます。 - 健全に維持されたエコシステム:孤立した学術リポジトリとは異なり、Ultralytics は積極的に更新されています。以下のようなツールとの堅牢な連携を誇っています ONNX、 OpenVINO、CoreMLなどのツールとの堅牢な連携を誇ります。
- トレーニング効率: Ultralytics 、RTDETRv2などのトランスフォーマーアーキテクチャと比較して、トレーニング中のVRAM消費量が大幅に低いため、コンシューマー向けハードウェアでもより大きなバッチサイズが可能となります。
- 汎用性: YOLOv6.YOLOv6の限定的な範囲とは異なり、Ultralytics マルチモーダルであり、単一の統合フレームワーク内で画像分類、方向付き境界ボックス(OBB)、セグメンテーションをネイティブにサポートします。
合理化されたデプロイメント
Ultralytics CLIを使用すれば、エッジ展開用の学習済みモデルをエクスポートするのは、以下のコマンドを実行するだけの簡単な作業です: yolo export model=yolo11n.pt format=tensorrt.
YOLO26登場:究極の解決策
RTDETRv2とYOLOv6.YOLOv6にはそれぞれ固有の利点がありますが、この分野は急速に進化しています。新たなコンピュータビジョンプロジェクトを開始するチームには、強く推奨します YOLO26を強く推奨しますUltralytics
YOLO26は、産業用CNNと現代的なトランスフォーマーの強みを統合しつつ、それぞれの弱点を排除します:
- エンドツーエンドのNMS:YOLOv10で初めて導入された画期的な手法を採用し、YOLO26はネイティブNMS 排除。RTDETRv2と同様の安定性と予測可能性を保ちつつ、はるかに少ないオーバーヘッドでデプロイを保証します。
- MuSGDオプティマイザー:先進的なLLMトレーニング技術(Moonshot AIのKimi K2など)に着想を得たこのハイブリッドオプティマイザーは、従来のビジョン・トランスフォーマーが抱える悪名高い不安定性を克服し、安定したトレーニングとより速い収束を保証します。
- エッジ向けに最適化:前世代比最大43%高速なCPU と、ディストリビューション・フォーカル・ロス(DFL)の戦略的削除により、YOLO26GPU 利用できないモバイル端末やIoTデバイスに最適です。
- ProgLoss + STAL:これらの先進的な損失関数は、CNNにとって歴史的な課題である小物体認識において顕著な改善をもたらし、YOLO26を航空画像やロボティクスに最適なものとする。
トレーニング例
Ultralytics 、最先端モデルのトレーニングをシームレスに行えます。以下は、COCO8 Nanoモデルをトレーニングする方法を示す実行可能な例です:
from ultralytics import YOLO
# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")
# Export the trained model to ONNX format for production
model.export(format="onnx")
概要
RTDETRv2YOLOv6比較する場合、選択は主に使用環境のハードウェアとレイテンシ制約によって決まります。RTDETRv2は、複雑な重なり合う物体の処理が重要な研究環境やサーバーサイド処理において真価を発揮します。一方、YOLOv6.YOLOv6は高性能NVIDIA を搭載した高スループットの製造ラインにおいて、依然として有力な選択肢です。
しかし、NMSトランスフォーマーの洗練性と、CNNの驚異的な速度・低メモリ消費という両方の長所を兼ね備えたソリューションを求める開発者にとって、YOLO26は比類のない選択肢です。Ultralytics 包括的なドキュメントと活発なコミュニティに支えられたYOLO26は、ビジョンAIプロジェクトの堅牢性、拡張性、将来性を保証します。