RTDETRv2とYOLOv8:技術的な比較
急速に進化するコンピュータビジョンにおいて、適切な物体検出モデルを選択することは、プロジェクトの成功に不可欠です。RTDETRv2に代表される変換器ベースのアプローチと、次のような高度に最適化された畳み込みニューラルネットワーク(CNN)設計です。 Ultralytics YOLOv8.
RTDETRv2がビジョントランスフォーマを使用して精度の限界を押し広げる一方で、YOLOv8 スピード、精度、導入の容易さのバランスを洗練させている。この比較では、開発者や研究者がアプリケーションに最適なソリューションを選択できるよう、技術仕様、アーキテクチャの違い、実用的な性能指標を探ります。
パフォーマンス指標:スピード、精度、効率
性能面では、明確なトレードオフが浮き彫りになっている。RTDETRv2は複雑な注意メカニズムによって平均精度mAP最大化することに重点を置いているのに対し、YOLOv8 エッジやクラウド展開に適したリアルタイム推論速度と高精度の汎用的なバランスを優先している。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
結果の分析
このデータから、配備戦略にとって重要な洞察がいくつか明らかになった:
- 計算効率: YOLOv8 優れた効率性を示している。例えば YOLOv8lはRTDETRv2-l(53.4mAP)とほぼ同等の精度(52.9mAP)を達成しながら、GPU上でより高速な推論速度を実現しています。
- CPU パフォーマンス: YOLOv8 、CPU ハードウェア上で文書化されたロバストなパフォーマンスを提供し、専用アクセラレータを持たないエッジAIデバイスにとって実用的な選択肢となる。CPU 用のRTDETRv2ベンチマークは、トランスフォーマー層の計算コストが高いため、利用できないことが多い。
- パラメータ効率: YOLOv8 モデルでは、競争力のある結果を得るために必要なパラメータと浮動小数点演算(FLOP)が一貫して少なく、メモリ消費量の削減とトレーニング時間の短縮に直結しています。
ハードウェアに関する考察
Intel プロセッサのような)標準的なCPUや(Raspberry Piのような)組み込みデバイスをターゲットとする場合、YOLOv8 8のCNNベースのアーキテクチャは、RTDETRv2のトランスフォーマを多用したオペレーションに比べて、レイテンシにおいて大きなアドバンテージを提供する。
RTDETRv2: Transformerによるリアルタイム検出
RTDETRv2(Real-Time Detection Transformer v2)は、Vision Transformers(ViT)を物体検出に適用する継続的な進化を表している。Baiduの研究者によって開発され、グローバルなコンテキストを理解する能力を維持しながら、DETRベースのモデルに従来関連していた待ち時間の問題を解決することを目指している。
著者Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organization:Baidu
Date:2024-07-24 (v2 release)
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR
アーキテクチャ
RTDETRv2は、バックボーン(典型的にはResNetのようなCNN)と効率的な変換エンコーダ・デコーダを組み合わせたハイブリッドアーキテクチャを利用している。主な特徴は、スケール内相互作用とクロススケールフュージョンの分離であり、これによってモデルは画像全体の長距離依存関係を捉えることができる。これにより、モデルはシーンの異なる部分に同時に「参加」することができ、乱雑な環境における性能を向上させる可能性がある。
長所と短所
RTDETRv2の第一の強みは、グローバルなコンテキストが重要な複雑なデータセットにおいて高い精度を発揮する点にある。RTDETRv2は、アンカーボックスを使用せず、オブジェクトクエリを使用することで、Non-Maximum SuppressionNMS)の必要性を排除し、後処理パイプラインを簡素化している。
しかし、こうしたメリットには代償が伴う:
- リソース強度:このモデルは、CNNと比較してトレーニングに必要なGPU メモリが大幅に多い。
- 収束が遅い:トランスフォーマーベースのモデルは、一般的に収束までの学習に時間がかかる。
- 汎用性が低い:主にバウンディングボックスの検出用に設計されており、セグメンテーションやポーズ推定のネイティブサポートがない。
Ultralytics YOLOv8:スピード、多用途性、エコシステム
Ultralytics YOLOv8は、最先端のアンカーフリー物体検出モデルであり、汎用性と使いやすさの業界標準を確立しています。YOLO ファミリーの遺産を基に、YOLO 有名にしたリアルタイムのスピードを維持しながら、パフォーマンスを向上させるアーキテクチャの改良を導入しています。
著者Glenn Jocher、Ayush Chaurasia、Jing Qiu
組織:Ultralytics
日付:2023-01-10
GitHubultralytics
Docsyolov8
アーキテクチャ
YOLOv8 、CSP(Cross Stage Partial)ダークネットバックボーンとPANet(Path Aggregation Network)ネックを特徴としており、最終的に分離された検出ヘッドに至る。このアーキテクチャはアンカーフリーであり、オブジェクトの中心を直接予測するため、設計が簡素化され、汎化が向上している。このモデルはtensor プロセッシング・ユニットとGPUに高度に最適化されており、最大のスループットを保証する。
開発者にとっての主な利点
- 使いやすさ:Pythonic APIと堅牢なCLI、ユーザーはわずか数行のコードでモデルをトレーニングし、デプロイすることができます。包括的なドキュメントにより、初心者から上級者まで参入障壁が低くなっています。
- 整備されたエコシステム: Ultralytics支えられたYOLOv8 、頻繁なアップデート、コミュニティサポート、TensorBoardや MLFlowのようなツールとのシームレスな統合の恩恵を受けています。
- 汎用性:RTDETRv2とは異なり、YOLOv8 インスタンスのセグメンテーション、ポーズ推定、分類、指向性オブジェクト検出(OBB)など、さまざまなタスクをすぐにサポートします。
- トレーニング効率:このモデルは、ハードウェアの予算が限られている研究者でも利用できるように、少ないCUDA メモリ要件で迅速にトレーニングできるように設計されている。
ディープダイブアーキテクチャと使用例
これら2つのモデルのどちらを選択するかは、多くの場合、アプリケーション環境の特定の要件に依存する。
建築哲学
YOLOv8 畳み込みニューラルネットワーク(CNN)に依存しており、局所的な特徴や空間階層を効率的に処理することに優れている。そのため、CNNは本質的に高速で、メモリ消費量も少ない。RTDETRv2はTransformersに依存しているため、グローバルな関係を効果的にモデル化することができますが、画像サイズに対して2次関数的な複雑さが生じ、特に高解像度では待ち時間とメモリ使用量が増加します。
理想的なユースケース
YOLOv8 選ぶのはこんなときだ:
- リアルタイム性能が重要自律走行、ビデオ解析、製造品質管理などのアプリケーションでは、低レイテンシーが要求されます。
- ハードウェアの制約がありません: NVIDIA Jetson、Raspberry Pi、モバイルデバイスへの展開もYOLOv8ならシームレスです。
- マルチタスクが必要です:オブジェクトのセグメンテーションやキーポイントのトラッキングを検出と並行して行う必要がある場合、YOLOv8 統一されたフレームワークを提供します。
- 迅速な開発サイクル: Ultralytics エコシステムは、データのラベリング、トレーニング、デプロイメントを加速します。
以下の場合はRTDETRv2を選択する:
- 最大精度が唯一の指標:アカデミックなベンチマークや、無限の計算が可能でmAP 何分の一が重要なシナリオ向け。
- 複雑なオクルージョン:遠くのピクセルの関係を理解することが重要な、非常に乱雑なシーンでは、大局的注意メカニズムがわずかに優位に立つかもしれない。
比較概要
RTDETRv2はトランスフォーマーを検出に応用するという興味深い学術的進歩を提示している、 YOLOv8は、ほとんどの実用的なアプリケーションでは、依然として優れた選択肢です。速度、精度、効率のバランスは比類ない。さらに、1つのユーザーフレンドリーなライブラリで複数のコンピュータビジョンタスクを実行できるため、現代のAI開発にとって万能なツールとなっている。
最新のパフォーマンスと機能セットを求める開発者にとっては、次のような新しいイテレーションに期待したい。 YOLO11は、YOLOv8 RTDETRv2の両方を上回る効率と精度を提供します。
コード例:YOLOv8使い始める
YOLOv8 ワークフローに組み込むのは簡単です。以下はPython 例で、事前にトレーニングされたモデルをロードし、推論を実行し、デプロイのためにエクスポートする方法を示しています。
from ultralytics import YOLO
# Load a pre-trained YOLOv8 model
model = YOLO("yolov8n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a local image
# Ensure the image path is correct or use a URL
results = model("path/to/image.jpg")
# Export the model to ONNX format for deployment
success = model.export(format="onnx")
その他のモデルを見る
物体検出のアーキテクチャについてより広い視野を持つためには、これらの関連する比較を検討されたい: