YOLOv6.0とRTDETRv2の比較：工業用スピードとトランスの精度のバランス

最適な物体検出アーキテクチャの選択には、推論レイテンシと検出精度のトレードオフが伴うことが多い。この技術比較では、この課題に対する2つの異なるアプローチを検証する。YOLOv6.0は、Meituanが産業用スピードのために設計したCNNベースのモデルであり、RTDETRv2は、リアルタイムアプリケーションに変換精度をもたらすように設計されたBaiduの Vision Transformer（ViT）アーキテクチャである。

YOLOv6.0

著者Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu
組織：Meituan
Date: 2023-01-13
Arxiv:YOLOv6 v3.0：A Full-Scale Reloading
GitHub:YOLOv6
Docs：Ultralytics YOLOv6 ドキュメント

YOLOv6.0は、ハードウェアの効率性が最優先される産業用アプリケーションに特化し、シングルステージ検出器の系譜を大きく進化させます。YOLOv6-3.0は、「フルスケール・リローディング」アーキテクチャを導入し、GPUのスループットを最大化するための高度な特徴フュージョンとトレーニング戦略を取り入れています。

アーキテクチャと主な機能

YOLOv6.0のアーキテクチャは、ハードウェアに優しい設計に重点を置いている。効率的なリパラメータ化バックボーン(RepBackbone)を利用することで、学習時には複雑な特徴抽出が可能でありながら、推論時には簡素化された構造となる。アーキテクチャの主な革新点は以下の通り：

双方向連結（BiC）：ネックに搭載されたモジュールで、大きな計算量のペナルティなしに特徴融合精度を向上させる。
アンカー補助トレーニング（AAT）：収束を安定させるために、トレーニング段階でアンカーベースとアンカーフリーのパラダイムの利点を組み合わせる戦略。
自己蒸留：このフレームワークは、モデルが自身の予測から学習する教師-生徒学習ループを採用しており、モデルサイズを大きくすることなく精度を向上させる。

長所

産業効率：このモデルは TensorRT展開に最適化されており、NVIDIA GPU上で非常に低いレイテンシを実現します。
エッジでの低レイテンシー：特定の "Lite "バリアントでは、モバイルCPU デバイスで優れた性能を発揮し、ハンドヘルドの産業用スキャナーに適しています。
量子化のサポート： QAT（Quantization Aware Training）を強力にサポートし、INT8精度に移行する際の大幅な精度低下を防ぎます。

弱点

タスクの制限： YOLOv6 6は、主にバウンディングボックス検出用に設計されています。より多機能なフレームワークに見られる、ポーズ推定やOBB（Oriented Bounding Box）検出のような複雑なタスクをネイティブにサポートしていません。
トレーニングの複雑さ：自己蒸留と特殊な再パラメータ化ステップに依存することで、標準的なYOLO モデルに比べてトレーニングパイプラインがもろくなり、カスタマイズが難しくなります。

理想的なユースケース

高速製造：ミリ秒単位のレイテンシーが重要な、高速で動くベルトコンベアでの欠陥検出。
組み込みロボット工学： NVIDIA Jetsonのようなプラットフォーム上のナビゲーションシステム。

YOLOv6.0の詳細はこちら

RTDETRv2

著者Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
組織：Baidu
Date: 2023-04-17 (Original), 2024-07-24 (v2)
Arxiv：RT-DETRv2：Bag-of-Freebies によるベースラインの改善
GitHub:RT-DETR
Docs：Ultralytics RT-DETR ドキュメント

RTDETRv2（Real-Time Detection Transformer v2）は、トランスフォーマーがリアルタイム速度を達成できることを証明することで、CNNの優位性に挑戦する。DETR（Detection Transformer）パラダイムを基礎としているが、一般的に注意メカニズムに関連する収束の遅さと計算コストの高さに対処している。

アーキテクチャと主な機能

RTDETRv2は、マルチスケール特徴を効率的に処理するハイブリッドエンコーダを採用している。すべての画像パッチを均等に処理する従来の変換器とは異なり、RTDETRv2はパイプラインの初期段階で関連する領域に注意を向ける。

効率的なハイブリッド・エンコーダ：計算オーバヘッドを削減するために、スケール内相互作用とクロススケールフュージョンを切り離す。
IoUクエリー選択：エンコーダ出力から高品質の初期オブジェクトクエリを選択し、デコーダの初期化を改善し、収束を早める。
アンカーフリー設計：NMSノンマキシマムサプレッション）の後処理が不要になり、展開パイプラインが簡素化され、混雑したシーンでのレイテンシーの変動が減少します。

長所

グローバルな文脈認識： 自己注視のメカニズムにより、モデルは画像全体を一度に「見る」ことができ、局所的な受容野に依存するCNNと比較して、より優れたオクルージョン検出を可能にする。
高精度の天井：常に高い精度を達成 mAPスコアは、多くのCNNと比較して、与えられたモデルスケールでCOCO データセット上で高い。
NMS： NMS ないことで、推論時間がより決定論的になり、リアルタイムシステムにとって大きな利点となる。

弱点

メモリ強度：トランスフォーマーは、アテンションマトリックスが2次関数的に複雑になるため、トレーニングや推論時にかなり多くのVRAMを必要とする（ただし、RTDETRはこれを最適化する）。
データのハンガー：ヴィジョン・トランスフォーマーは一般的に、YOLOv6ようなCNNに比べ、より大きなデータセットと長い学習スケジュールを必要とする。

理想的なユースケース

複雑な交通シーン：オクルージョンの多い、密集した混沌とした環境における歩行者と車両の検出。
自律走行：高信頼性の知覚を必要とするアプリケーションで、検出ミスのコストが、ハードウェア要件がわずかに高くなるコストを上回る場合。

RTDETRv2の詳細について。

パフォーマンス比較

以下の表は、YOLOv6.0とRTDETRv2の性能を対比したものである。RTDETRv2が精度を押し上げる一方、YOLOv6.0は、特に「ナノ」スケールでの生の推論速度で優位を保っている。

モデル	サイズ ^{(ピクセル)}	mAP^値 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOv6.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6.0l	640	52.8	-	8.95	59.6	150.7

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

分析

スピード対精度： The YOLOv6-3.0n は信じられないほど軽量（推論1.17ミリ秒）なので、非常に制約の多いハードウェアでは文句なしの王者となる。しかし、精度を優先するのであれば RTDETRv2-s よりも有意に高いmAP （48.1）を示した。 YOLOv6-3.0s (45.0)であったが、推論時間はほぼ2倍であった(5.03 ms 対 2.66 ms)。
スケーリング動作： モデルのサイズが大きくなるにつれて、その差は縮まっていく。 RTDETRv2-l (53.4mAP)が上回った。 YOLOv6-3.0l (52.8mAP)である一方、パラメータ数は42M対59.6Mと少なく、トランスフォーマ・アーキテクチャのパラメータ効率の高さを示しているが、FLOP数は同等である。
ハードウェアの意味 YOLOv66の利点は、ハードウェアアクセラレータに非常に直接対応する純粋なCNN構造にある。RTDETRv2は、その理論的な速度を実現するために、行列の乗算と注目演算を効率的に処理できるハードウェアを必要とする。

配備に関する考慮事項

エッジ・デバイスに展開する場合、「パラメータ」が必ずしもスピードと完全に相関するわけではないことを覚えておいてほしい。RTDETRv2は構成によってはパラメータが少ないかもしれないが、YOLOv66の高度に最適化された畳み込みに比べ、古いハードウェアではそのメモリ・アクセス・パターン（アテンション）が遅くなることがある。

学習方法論

これら2つのモデルのトレーニング環境は大きく異なり、開発に必要なリソースにも影響を与える。

YOLOv6.0は、CNNの標準的なディープラーニング手法に従っている。より短いトレーニング・スケジュール（通常300～400エポック）と、より少ないGPU メモリ消費量という利点がある。自己蒸留のような技術は内部で処理されるが、損失関数の計算に複雑なレイヤーを追加する。

RTDETRv2 は、トランスフォーマーベースであるため、一般に、より多くの要求があります。 CUDAメモリを必要とします。注意メカニズムは画像サイズに対して2次関数的に複雑であるため、バッチサイズを小さくするか、より強力なGPUを利用する必要があります。さらに、トランスフォーマーは、帰納的なバイアスなしに空間的関係を完全に学習するために、より長いトレーニングホライズンから恩恵を受けることが多い。

Ultralytics 優位性

YOLOv6 RTDETRも特定のニッチ向けに魅力的な機能を提供している、 Ultralytics YOLO11は、両者の長所をバランスさせた統合ソリューションを提供する。CNNの効率性と、変換精度に匹敵する現代的なアーキテクチャの改良が統合されており、そのすべてが開発者の生産性のために設計されたエコシステムの中にある。

Ultralytics モデルを選ぶ理由

使いやすさ： Ultralytics 、トレーニングやデプロイの複雑さを抽象化するPythonic APIを提供します。3行のコードで最先端のモデルをトレーニングできます。
パフォーマンス・バランス： YOLO11 11は、最適なトレードオフを提供するように設計されている。YOLOv6 匹敵するリアルタイムの推論速度を提供する一方で、RTDETRに挑戦する精度レベルを、トランスフォーマーの膨大なメモリー・オーバーヘッドなしで達成します。
汎用性： YOLOv6 （検出のみ）とは異なり、Ultralytics モデルはインスタンスセグメンテーション、ポーズ推定、分類、OBB（Oriented Bounding Box）検出をネイティブにサポートします。
整備されたエコシステム：頻繁なアップデート、豊富なドキュメント、コミュニティによるサポートにより、デバッグが一人きりになることはありません。
トレーニングの効率性： Ultralytics モデルは効率的なトレーニングパイプラインで有名で、控えめなハードウェアでも迅速な反復が可能です。

from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with a single command
results = model("path/to/image.jpg")

YOLO11の詳細について。

結論

YOLOv6.0とRTDETRv2は、どちらもコンピュータ・ビジョンにおける素晴らしい成果である。YOLOv6.0は、ハードウェアが固定され、スピードだけが重要な指標となる、厳格な産業用パイプラインに適した実用的な選択肢です。RTDETRv2は、複雑なシーンでの精度が重要で、ハードウェアリソースが豊富な研究およびハイエンドアプリケーションに最適です。

しかし、実世界でのアプリケーションの大半は、このようなものである、 Ultralytics YOLO11が優れた選択肢であることに変わりはない。性能、汎用性、使いやすさの「スイートスポット」を提供し、コンセプトから生産までの道のりを加速します。迅速な実験が必要な研究者であれ、何千ものエッジデバイスにデプロイするエンジニアであれ、Ultralytics エコシステムは確実に成功するためのツールを提供します。

その他のモデルを見る

さらに詳しい比較に興味がある場合は、Ultralytics ドキュメントにある以下のリソースを参照してください：

YOLOv6.0とRTDETRv2の比較：工業用スピードとトランスの精度のバランス

YOLOv6.0

アーキテクチャと主な機能

長所

弱点

理想的なユースケース

RTDETRv2

アーキテクチャと主な機能

長所

弱点

理想的なユースケース

パフォーマンス比較

分析

学習方法論

Ultralytics 優位性

Ultralytics モデルを選ぶ理由

結論

その他のモデルを見る

コメント