RTDETRv2 vs.YOLOv6.0: リアルタイムトランスフォーマーと産業用CNNの評価

コンピュータビジョンの分野は絶えず進化を続けており、開発者には物体検出のための多様なアーキテクチャ選択肢が提示されている。異なるアプローチを代表する二つの主要モデルとして、最先端のビジョントランスフォーマーであるRTDETRv2と、産業用途向けに高度に最適化された畳み込みニューラルネットワーク（CNN）YOLOv6.YOLOv6挙げられる。

この包括的な技術比較では、それぞれのアーキテクチャ、パフォーマンス指標、および理想的な導入シナリオを検証します。さらに、Ultralytics 広範なUltralytics 優れた開発者体験を提供する仕組みを検証し、Ultralytics 次世代機能に焦点を当てます。

RTDETRv2: ビジョン・トランスフォーマー・アプローチ

Baiduの研究者によって開発されたRTDETRv2は、オリジナルのRT-DETRの基盤の上に構築されており、Transformerベースの物体検出における大きな飛躍を意味します。

著者：Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織：Baidu
日付: 2024-07-24
Arxiv: 2407.17140
GitHub:RT-DETR
ドキュメント: RTDETRv2 GitHub README

アーキテクチャのハイライト

RTDETRv2は、CNN特徴抽出器と強力なトランスフォーマーデコーダーを組み合わせたハイブリッドアーキテクチャを採用しています。このモデルの最大の特徴は、ネイティブにNMS設計であることです。後処理段階での非最大抑制（NMS）を排除することで、モデルは直接バウンディングボックスを予測し、これによりデプロイメントが簡素化され、推論レイテンシが安定化されます。

RTDETRv2に組み込まれた「Bag-of-Freebies」は、局所的な畳み込みよりも空間的関係性を本質的に理解するグローバルな注意機構により、複雑なシーンや重なり合う物体の処理能力を強化する。

Transformerのメモリ使用量

トランスフォーマーは複雑なシーン理解に優れる一方、CNNと比較して学習時に大幅にCUDA 必要とする。これにより、標準的なコンシューマー向けGPUではバッチサイズが制限され、学習時間全体が長くなる可能性がある。

RTDETRの詳細について。

YOLOv6.0: 産業用スループット最大化

美団（Meituan）のビジョンAI部門で開発されたYOLOv6.YOLOv6、GPU 最優先事項となる産業用パイプライン向けに、次世代検出器として明示的に設計された。

著者：Chuyi Li、Lulu Li、Yifei Geng、Hongliang Jiang、Meng Cheng、Bo Zhang、Zaidan Ke、Xiaoming Xu、Xiangxiang Chu
組織：美団（Meituan）
日付: 2023-01-13
Arxiv: 2301.05586
GitHub:YOLOv6

建築の焦点

YOLOv6、NVIDIA などのハードウェアアクセラレータにおけるメモリアクセスコストを最小化するために緻密に設計されたEfficientRepバックボーンに依存している。ネックアーキテクチャは、異なるスケール間での特徴融合を改善する双方向連結（BiC）モジュールを備えている。

トレーニング中、Anchor-Aided Training (AAT)戦略を採用することで、アンカーベースのパラダイムの利点を享受しつつ、より高速な実行のためにアンカーフリーの推論モードを維持します。サーバーグレードのGPU（例：T4、A100）で優れたスループットを達成する一方で、その特殊化されたアーキテクチャは、CPUのみのエッジデバイスにデプロイされた場合、最適ではないレイテンシを引き起こす可能性があります。

YOLOv6について詳しくはこちら

パフォーマンス比較

モデルを本番環境で評価する際には、精度（mAP）と推論速度、計算コスト（FLOPs）のバランスが極めて重要である。下表は各モデルの比較結果を示している。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

TensorRT YOLOv6純粋な処理速度で優位を示す一方、RTDETRv2はよりmAP を獲得し、特に大規模モデルバリエーションでのスケーラビリティに優れる。ただし、両モデルとも現代の統合フレームワークに見られる広範な汎用性を欠いている。YOLOv6.YOLOv6主に物体検出に特化しており、インスタンスセグメンテーションや姿勢推定といったタスクに対するネイティブサポートを標準では備えていない。

ユースケースと推奨事項

RT-DETRとYOLOv6の選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステム設定に依存します。

RT-DETRを選択すべきタイミング

RT-DETR 以下に最適RT-DETR ：

トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。

YOLOv6を選択すべき時

YOLOv6 以下に推奨YOLOv6 ：

産業用ハードウェア対応デプロイメント: モデルのハードウェア対応設計と効率的な再パラメータ化により、特定のターゲットハードウェアで最適化されたパフォーマンスを提供するシナリオです。
高速シングルステージdetect: 制御された環境でのリアルタイムビデオ処理のために、GPUでの生の推論速度を優先するアプリケーション。
美団エコシステム統合: 美団の技術スタックとデプロイメントインフラストラクチャ内で既に作業しているチーム。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

Ultralyticsの利点

適切なモデルの選択は、単なるベンチマークの生数値だけにとどまりません。開発者エクスペリエンス、デプロイの柔軟性、およびエコシステムサポートも同様に重要です。Ultralyticsプラットフォームに統合されたモデルを利用することで、ユーザーは静的な研究リポジトリと比較して大きな利点を得られます。

使いやすさ： The ultralytics Python シームレスなAPIを提供します。モデルの学習、検証、エクスポートはわずか数行のコードで実現できます。
整備されたエコシステム: 孤立した学術リポジトリとは異なり、Ultralytics Platformは活発に更新されています。ONNX、OpenVINO、CoreMLのようなツールとの堅牢な統合を誇ります。
訓練効率: Ultralyticsモデルは、RTDETRv2のようなトランスフォーマーアーキテクチャと比較して、訓練中のVRAM消費量が通常大幅に低く、民生用ハードウェアでより大きなバッチサイズを可能にします。
多様性: YOLOv6-3.0の限定されたスコープとは異なり、Ultralyticsモデルはマルチモーダルであり、単一の統合フレームワーク内で、画像分類、oriented bounding boxes (obb)、そしてセグメンテーションをネイティブにサポートします。

合理化されたデプロイメント

Ultralytics CLIを使用すれば、エッジ展開用の学習済みモデルをエクスポートするのは、以下のコマンドを実行するだけの簡単な作業です： yolo export model=yolo11n.pt format=tensorrt.

YOLO26の登場：究極のソリューション

RTDETRv2とYOLOv6.YOLOv6にはそれぞれ固有の利点がありますが、この分野は急速に進化しています。新たなコンピュータビジョンプロジェクトを開始するチームには、強く推奨します YOLO26を強く推奨しますUltralytics

YOLO26は、産業用CNNと現代的なトランスフォーマーの強みを統合しつつ、それぞれの弱点を排除します：

エンドツーエンドNMSフリー設計: YOLOv10で初めて導入された画期的な技術を採用したYOLO26は、NMSの後処理をネイティブに排除し、RTDETRv2と同様に安定した予測可能なデプロイメントを、はるかに少ないオーバーヘッドで実現します。
MuSGDオプティマイザ: 高度なLLMトレーニング技術（Moonshot AIのKimi K2など）に触発されたこのハイブリッドオプティマイザは、従来のビジョントランスフォーマーの悪名高い不安定性を克服し、安定したトレーニングと高速な収束を保証します。
エッジ向けに最適化: 従来世代と比較して最大43%高速なCPU推論と、Distribution Focal Loss (DFL) の戦略的な削除により、YOLO26はGPUアクセラレーションが利用できないモバイルおよびIoTデバイスに最適です。
ProgLoss + STAL: これらの高度な損失関数は、CNNにとって歴史的な課題であった小物体認識において顕著な改善をもたらし、YOLO26を航空画像やロボティクスにとって理想的なものにします。

トレーニング例

Ultralytics 、最先端モデルのトレーニングをシームレスに行えます。以下は、COCO8 Nanoモデルをトレーニングする方法を示す実行可能な例です：

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

概要

RTDETRv2YOLOv6比較する場合、選択は主に使用環境のハードウェアとレイテンシ制約によって決まります。RTDETRv2は、複雑な重なり合う物体の処理が重要な研究環境やサーバーサイド処理において真価を発揮します。一方、YOLOv6.YOLOv6は高性能NVIDIA を搭載した高スループットの製造ラインにおいて、依然として有力な選択肢です。

しかし、NMSトランスフォーマーの洗練性と、CNNの驚異的な速度・低メモリ消費という両方の長所を兼ね備えたソリューションを求める開発者にとって、YOLO26は比類のない選択肢です。Ultralytics 包括的なドキュメントと活発なコミュニティに支えられたYOLO26は、ビジョンAIプロジェクトの堅牢性、拡張性、将来性を保証します。