RTDETRv2 vsYOLOv6.0：工業用スピードに対応する高精度トランス

最適な物体検出アーキテクチャを選択するには、多くの場合、絶対精度と推論レイテンシの間のトレードオフをナビゲートする必要があります。この技術比較では、高精度タスク用に設計されたVision TransformerベースのモデルであるRTDETRv2と、産業用のスピードと効率に特化して設計されたCNNベースの検出器であるYOLOv6.0について検討します。それぞれのアーキテクチャ、性能指標、導入特性を分析することで、お客様のコンピュータ・ビジョン・アプリケーションに最適なソリューションを特定するお手伝いをします。

RTDETRv2：ヴィジョン・トランスフォーマーで限界を超える

RTDETRv2 (Real-Time Detection Transformer v2)は、画像内のグローバルな文脈を捉える変換器の力を活用し、物体検出における大きな進化を表している。局所的な特徴を処理する従来のCNNとは異なり、RTDETRv2は自己注意メカニズムを利用して遠くの物体間の関係を理解するため、複雑なシーンに非常に効果的である。

著者Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organization:Baidu
Date:2023-04-17 (Initial), 2024-07-24 (v2)
Arxiv:RT-DETR: DETRs Beat YOLOs on Real-time Object Detection
GitHub:RT-DETR Repository
Docs:RTDETRv2 Documentation

RTDETRv2の詳細について。

建築イノベーション

RTDETRv2のアーキテクチャはハイブリッド設計である。最初の特徴抽出のために標準的なCNNバックボーン（通常ResNetまたはHGNet）を採用し、その後にトランスフォーマエンコーダ・デコーダが続く。この構造により、アンカーボックスやNMS（Non-Maximum Suppression）のような手作業のコンポーネントの必要性を排除しながら、マルチスケール特徴を効果的に処理することができる。

変圧器の利点

RTDETRv2のVision Transformer(ViT)コンポーネントは、混雑したシーンでの曖昧さの解決に優れています。画像コンテクスト全体を同時に分析することで、オクルージョンや背景の乱れによる誤検出を低減する。

長所と短所

長所:

優れた精度：一般的に、以下のようなデータセットで高い平均精度（mAP）を達成しています。 COCOのようなデータセットにおいて、同規模のCNNと比較して高い平均精度を達成する。
Anchor-Free Design: アンカーボックスを削除することでdetectパイプラインを簡素化し、ハイパーパラメータの調整を軽減します。
グローバルなコンテキスト：局所的な特徴では不十分な、密集した環境や混乱した環境での物体検出に優れている。

弱点:

計算コスト：特にトレーニング時に、大幅に高いFLOPと GPU メモリを必要とする。
遅延：リアルタイム」ではあるが、同等のハードウェア上で、YOLOv6 ような最適化されたCNNの生の推論速度に一般的に劣る。
データハンガー：トランスフォーマーモデルが収束するためには、多くの場合、より大きなトレーニングデータセットとより長いトレーニングスケジュールを必要とする。

YOLOv6.0：インダストリアル・スピードスター

Meituanが開発したYOLOv6.0は、産業用アプリケーションのニーズである低レイテンシーと高スループットに正面から焦点を当てている。エッジ・デバイスからGPUまで幅広いハードウェア上で効率を最大化するために、古典的な1段オブジェクト検出器のパラダイムを改良している。

著者Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu
Organization:Meituan
Date:2023-01-13
Arxiv:YOLOv6 v3.0：A Full-Scale Reloading
GitHub:YOLOv6 Repository
Docs:Ultralytics YOLOv6 Docs

YOLOv6.0の詳細はこちら

効率化のための最適化

YOLOv6.0は「ハードウェアを意識した」設計思想を取り入れている。YOLOv6-3.0は、効率的なリパラメータ化バックボーン（RepVGGスタイル）を採用し、推論時にネットワークを3x3畳み込みのシンプルなスタックに効率化することで、マルチブランチの複雑さを排除している。さらに、推論コストを追加することなく精度を向上させるために、学習時に自己蒸留技術を採用している。

長所と短所

長所:

卓越したスピード：非常に低いレイテンシーを実現し、高速製造ラインやロボット工学に最適です。
展開に便利：リパラメータ化された構造は、次のようなフォーマットへのエクスポートが簡単です。 ONNXや TensorRTのようなフォーマットへのエクスポートが容易です。
ハードウェア効率： GPU コンピュートユニットをフルに活用し、アイドル時間を最小限に抑えるよう最適化。

弱点:

精度の上限： 競合性はあるものの、非常に複雑な視覚シナリオでは、Transformerベースのモデルのピーク精度に匹敵するには苦労する可能性があります。
汎用性が低い：主に検出に重点を置いており、インスタンスのセグメンテーションや新しいフレームワークで見られるポーズ推定のようなタスクをネイティブでサポートしていない。

パフォーマンス分析：スピード対精度

RTDETRv2とYOLOv6.0の選択は、多くの場合、展開環境の特定の制約に帰着する。RTDETRv2は可能な限り高い精度を必要とするシナリオで優位に立ち、YOLOv6.0は生のスピードと効率で勝る。

次の表は、主要なメトリクスを対比したものです。YOLOv6.0が同様のモデルスケールでより低いレイテンシ（より速い速度）を達成しているのに対し、RTDETRv2は計算強度（FLOPs）を犠牲にしてより高いmAP スコアを追求していることに注目してください。

モデル	サイズ ^{(ピクセル)}	mAP^値 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv6.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6.0l	640	52.8	-	8.95	59.6	150.7

トレーニングおよびリソース要件

カスタムモデルを開発する場合、トレーニングの経験は大きく異なる。

メモリ使用量：RTDETRv2は、アテンションメカニズムが2次関数的に複雑なため、かなりのGPU VRAMを必要とします。Large "または "X-Large "バリアントをトレーニングするには、多くの場合ハイエンドのエンタープライズGPUが必要です。対照的に、Ultralytics YOLO モデルとYOLOv6 6は一般的にメモリ効率が高く、コンシューマーグレードのハードウェアや小規模なクラウドインスタンスでのトレーニングが可能です。
収束：トランスフォーマーベースのモデルは、CNNが直感的に捉える空間階層を学習するために、通常、より長いエポックを必要とし、クラウドの計算コストを増加させる可能性がある。

理想的なバランスUltralytics 優位性

RTDETRv2とYOLOv6.0はそれぞれのニッチで優れている、 Ultralytics YOLO11は、両者の限界に対処する統合ソリューションを提供する。CNNの使いやすさとスピードに、トランスフォーマーに匹敵する精度を持つアーキテクチャーの改良が組み合わされている。

YOLO11の詳細について。

開発者や研究者がUltralytics モデルをますます好むようになった理由：

汎用性：検出に特化したYOLOv6異なり、Ultralytics 画像分類、セグメンテーション、姿勢推定、OBB（Oriented Bounding Box）検出を1つのAPIでサポートする。
整備されたエコシステム： Ultralytics プラットフォームは、頻繁なアップデート、幅広いコミュニティサポート、MLflow、TensorBoard、Ultralytics HUBなどのツールとのシームレスな統合を提供します。
使いやすさ：ローコード」哲学により、Python またはCLI コマンドを数行実行するだけで、最先端のモデルをトレーニング、検証、デプロイできます。
性能バランス： YOLO11 、リアルタイムの推論スピードと高精度のスイートスポットを提供し、しばしば旧バージョンのYOLO 上回り、実用的なシナリオでは複雑なトランスフォーマーにマッチする。

コード例

Ultralytics APIのシンプルさを体験してください。次の例では、事前にトレーニングされたモデルを読み込み、画像に対して推論を実行する方法を示します：

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (n=nano, s=small, m=medium, l=large, x=xlarge)
model = YOLO("yolo11n.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Process results
for result in results:
    result.show()  # Display results on screen
    result.save(filename="result.jpg")  # Save results to disk

結論

RTDETRv2とYOLOv6.0はどちらも、コンピュータビジョンの歴史における印象的なマイルストーンである。RTDETRv2は、計算コストに関係なく、精度が絶対的に優先される研究やシナリオに最適です。YOLOv6.0は、管理された環境下で極めて高速に動作するため、産業分野に適しています。

しかし、堅牢で汎用性が高く、導入が容易なソリューションを必要とするほとんどの実世界のアプリケーションでは、Ultralticsの導入が不可欠です、 Ultralytics YOLO11は、優れた選択肢として際立っています。最先端の性能、低メモリーフットプリント、盛んなエコシステムの組み合わせにより、開発者はプロトタイプから製品化まで自信とスピードを持って移行することができます。

その他のモデルを見る

さまざまなアーキテクチャーを比較して、お客様のプロジェクトに最適なものを見つけてください：

RTDETRv2 vsYOLOv6.0：工業用スピードに対応する高精度トランス

RTDETRv2：ヴィジョン・トランスフォーマーで限界を超える

建築イノベーション

長所と短所

YOLOv6.0：インダストリアル・スピードスター

効率化のための最適化

長所と短所

パフォーマンス分析：スピード対精度

トレーニングおよびリソース要件

理想的なバランスUltralytics 優位性

コード例

結論

その他のモデルを見る

コメント