YOLOv6.0 vs RTDETRv2: 産業用CNNとリアルタイムトランスフォーマーの対決
急速に進化するコンピュータビジョンの分野において、最も効率的な物体検出アーキテクチャをめぐる戦いは、確立された畳み込みニューラルネットワーク(CNN)と新興のトランスフォーマーベースモデルの間で繰り広げられることが多い。本比較では、産業用途向けに最適化されたCNNの主力モデルYOLOv6.YOLOv6、YOLO に挑戦するために設計されたリアルタイム検出トランスフォーマーであるRTDETRv2を検証する。
両モデルとも優れた機能を提供していますが、プロジェクトに適したツールを選択するには、それぞれのアーキテクチャ上のトレードオフを理解することが重要です。速度、精度、使いやすさという両方の長所を兼ね備えた統合ソリューションを求める開発者にとって、Ultralytics YOLO26のような最先端の代替手段を提供します。
パフォーマンス指標の比較
以下の表は、各モデルの性能差を比較したものです。YOLOv6.YOLOv6専用ハードウェア上での純粋な処理速度に重点を置く一方、RTDETRv2はトランスフォーマーアーキテクチャを通じて後処理のボトルネック解消を目指しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv6.0:産業用スペシャリスト
美団(Meituan)が開発し2023年初頭にリリースされたYOLOv6、シングルステージ物体検出における重要なマイルストーンである。工場自動化や物流などハードウェア制約のある産業用途向けに特別に設計され、NVIDIA T4のようなGPUの有用性を最大化する必要性に応える。
アーキテクチャと設計
YOLOv6、RepVGGスタイルのブロックで強化された双方向パス集約ネットワーク「RepBi-PAN」アーキテクチャを導入する。この設計により、高い推論速度を維持しつつ効率的な特徴融合が可能となる。また本モデルは、収束安定性を向上させるため、アンカーベースとアンカーフリーの両パラダイムの利点を組み合わせたハイブリッド戦略「アンカー補助学習(AAT)」を採用している。
主な強み
- GPU :専用アクセラレータでは、「Nano」および「Small」モデルが驚異的な高フレームレートを実現し、高速動画解析に最適です。
- 量子化対応:アーキテクチャは量子化を考慮して設計されており、TensorRTを使用したエッジハードウェアへの展開を容易にします。
- 産業向け焦点:分離型ヘッドなどの機能は、遅延変動を最小限に抑える必要がある特定の産業用検査タスク向けに最適化されています。
RTDETRv2: トランスフォーマーの挑戦者
RTDETRv2は 百度に起源を持ち、オリジナルの RT-DETR (Real-Time DEtection TRansformer)を改良したものです。マルチスケール特徴処理に伴う計算上のボトルネックに対処することで、トランスフォーマーベースのアーキテクチャがCNNベースのYOLOを速度と精度の両面で上回れることを実証することを目指しています。
アーキテクチャと設計
RTDETRv2は、マルチスケール特徴を効率的に処理するハイブリッドエンコーダと、IoUクエリ選択機構を採用している。RTDETRv2の特筆すべき特徴は適応型デコーダであり、これによりユーザーは推論時にデコーダ層数を調整できる。これにより再学習を必要とせず、速度と精度の柔軟な調整が可能となり、動的な環境において大きな利点となる。
主な強み
- NMS:変換器として、RTDETRv2はオブジェクトを直接予測するため、非最大抑制(NMS)が不要です。これにより、デプロイメントパイプラインが簡素化され、レイテンシの変動が低減されます。
- 高精度:本モデルは特にCOCO において優れた平均精度(mAP)を達成し、複雑なシーンでは同等のCNNをしばしば上回る。
- 汎用性:推論速度を動的に調整する能力により、変動する計算リソースに高い適応性を発揮する。
Ultralyticsの利点:なぜYOLO26を選ぶのか?
YOLOv6.YOLOv6それぞれの分野で優れた性能を発揮しますが、Ultralytics 両者の限界を克服する包括的なソリューションを提供します。YOLO 最新進化形であるYOLO26は、トランスフォーマーのNMS利点とCNNの純粋な効率性を融合させています。
統合ワークフロー
Ultralytics を利用すれば、アーキテクチャ間のシームレスな切り替えUltralytics 。同一の統一APIとデータセット形式を用いて、YOLOv6 トレーニング、RT-DETR テスト、YOLO26モデルのデプロイを実行できます。
優れた効率性と構造
YOLO26は、ネイティブのエンドツーエンドNMS設計を採用しており、これは YOLOv10で初めて実現された画期的な設計です。これにより、YOLOv6 必要だった重い後処理を排除YOLOv6 RTDETRv2の注意機構に伴う膨大なメモリ使用量を回避しています。
- MuSGDオプティマイザー:LLMトレーニングの革新に着想を得た新開発のMuSGDオプティマイザーは、安定したトレーニングと高速な収束を実現し、大規模ビジョンタスクに安定性をもたらします。
- CPU :ディストリビューション・フォーカル・ロス(DFL)を排除し、エッジコンピューティング向けにアーキテクチャを最適化したことで、YOLO26はCPU上でYOLOv6 RYOLOv6 大幅に高速化。モバイル端末やIoTデバイスに最適な選択肢です。
- ProgLoss + STAL:先進的な損失関数が小型物体検出を改善。これは従来の産業用モデルがしばしば苦戦する重要な領域である。
比類なき汎用性
YOLOv6.YOLOv6主に物体検出に特化しているのとは異なり、Ultralytics 本質的にマルチモーダルです。単一のフレームワークが以下をサポートします:
使いやすさとエコシステム
Ultralytics 「ゼロからヒーローへ」の体験を実現します。開発者はUltralytics を活用して、データセットの管理、クラウド上でのトレーニング、そしてONNXなどの多様なフォーマットへのデプロイが可能です。 ONNX、 OpenVINO、CoreMLなど多様な形式へのデプロイを実現します。
エコシステムは積極的に維持管理されており、プロジェクトが最新の Python バージョンやハードウェアドライバーとの互換性を維持します。これは静的な研究リポジトリを使用する際に見落とされがちな重要な要素です。
トレーニングコードの例
Ultralytics 最先端モデルのトレーニングUltralytics 。以下のコードスニペットは、効率的なYOLO26nモデルの読み込みとトレーニング方法を示しています:
from ultralytics import YOLO
# Load the YOLO26 Nano model (End-to-End, NMS-free)
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset for 100 epochs
# The system automatically handles data downloading and caching
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model performance
metrics = model.val()
print(f"mAP50-95: {metrics.box.map}")
結論
レガシーハードウェア上で厳密な産業用GPU 必要とするアプリケーションの場合、YOLOv6.YOLOv6依然として有力な選択肢です。 トランスフォーマーベースの注意機構を必要とする研究シナリオでは、RTDETRv2が柔軟性を提供します。しかし、速度・精度・低メモリ使用量・長期的な保守性のバランスを必要とする大半の実世界展開においては、Ultralytics 優れた選択肢です。そのエンドツーエンド設計とCPU 、従来世代では実現できなかったエッジAIの新たな可能性が開かれます。