RTDETRv2 vs.Ultralytics YOLO11：技術的な比較

最適な物体検出アーキテクチャを選択するには、精度、推論レイテンシ、計算効率のバランスを取る必要があります。このガイドでは、トランスフォーマーベースの検出器であるRTDETRv2の包括的な技術分析と Ultralytics YOLO11最先端のYOLO (You Only Look Once)シリーズの最新版です。

どちらのモデルもコンピュータビジョンの限界を押し広げるものではあるが、根本的に異なるアプローチを採用している。RTDETRv2は、複雑なシーンでの精度を優先し、グローバルなコンテキストをキャプチャするためにビジョン変換器を活用しています。対照的に、YOLO11 11はCNNベースのアーキテクチャを改良し、速度、精度、導入の容易さの比類ないバランスを実現し、堅牢なUltralytics エコシステムによってサポートされています。

RTDETRv2：リアルタイム検出トランスフォーマー

RTDETRv2は、リアルタイムの物体検出にTransformerアーキテクチャを適応させる重要な一歩となる。Baiduの研究者によって開発されたRT-DETR 2は、"bag-of-freebies "学習戦略による改良されたベースラインを導入することで、オリジナルのRT-DETR ベースにしている。

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織百度
Date: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHub：https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
ドキュメントhttps://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

アーキテクチャと能力

RTDETRv2は、バックボーン（典型的にはResNetのようなCNN）とトランスフォーマーエンコーダ・デコーダを組み合わせたハイブリッドアーキテクチャを利用している。核となる強みは、モデルが画像全体にわたるグローバルな情報を同時に処理することを可能にする、自己注意メカニズムにある。この能力は、混雑した環境で物体を区別したり、離れた画像特徴間の関係を識別したりするのに特に有益である。

長所と短所

RTDETRv2の主な利点は、COCOようなベンチマークで高い平均精度（mAP）を達成する能力であり、グローバルな文脈理解を必要とするシナリオでは、純粋なCNNベースのモデルを上回ることが多い。

しかし、これにはトレードオフが伴う。トランスフォーマーベースのアーキテクチャーは、本質的にリソースをより多く消費する。RTDETRv2は通常、YOLO モデルと比較して、学習および推論時にかなり多くのCUDA メモリを必要とします。さらに、「リアルタイム」性能のために最適化されているものの、特にエッジデバイスやハイエンドGPUを持たないシステムでは、生の推論速度でYOLO11 遅れをとることが多い。RTDETRv2を取り巻くエコシステムもまた、より断片的で、実運用への展開というよりは、主に研究目的に利用されている。

RTDETRv2の詳細について。

Ultralytics YOLO11：スピード、精度、多用途性

Ultralytics YOLO11は、世界で最も広く採用されている物体detectファミリーの最新版です。Ultralyticsによって設計されたYOLO11は、精度を損なうことなく効率を最大化するために、シングルステージdetectパラダイムを改良しています。

著者: Glenn Jocher、Jing Qiu
組織Ultralytics
日付: 2024-09-27
GitHub：https://github.com/ultralytics/ultralytics
ドキュメントhttps://docs.ultralytics.com/models/yolo11/

アーキテクチャと主な機能

YOLO11 、改良された特徴抽出層と、正確なバウンディングボックス回帰のために最適化されたヘッドを特徴とする、高度なCNNアーキテクチャを採用しています。検出のみに特化したモデルとは異なり、YOLO11 11は、インスタンス分割、画像分類、ポーズ推定、オリエンテッドバウンディングボックス（OBB）など、複数のコンピュータビジョンタスクを単一の統一されたフレームワークでサポートする汎用性の高いプラットフォームです。

統一エコシステム

YOLO11 最も大きな利点の一つは、Ultralytics エコシステムとの統合です。開発者は、データセットの管理からトレーニング、デプロイまで、すべてのタスクに同じAPIを使ってシームレスに移行できる。

Ultralytics 優位性

YOLO11 11は、開発者の体験を念頭に置いて設計されています。それは以下を提供する：

トレーニングの効率化：コンバージェンス速度が速く、トランスフォーマーモデルよりも必要なメモリが大幅に少ないため、コンシューマーグレードのハードウェアでのトレーニングが可能。
展開の柔軟性：次のようなフォーマットへのシームレスなエクスポート ONNXTensorRT、CoreML、TFLite 形式にエクスポートして、エッジやクラウドに展開できます。
使いやすさ：PythonicのAPIと包括的なCLI 、初心者にも使いやすく、上級者には奥深い。

YOLO11の詳細について。

パフォーマンス分析：指標と効率

RTDETRv2とYOLO11比較すると、設計思想が異なることがわかる。以下の表は、そのことを示している。 Ultralytics YOLO11が一貫して優れたスピード対精度比を提供していることがわかります。

例えば、YOLO11xは、推論レイテンシを大幅に抑えながら（T4GPU15.03 msに対して11.3 ms）、最大のRTDETRv2-xモデル（54.3）よりも高いmAP （54.7）を達成しています。さらに、YOLO11mのような小型のモデルは、計算オーバヘッドを大幅に削減しながら、競争力のある精度を提供するため、リアルタイムアプリケーションにはるかに有効です。

モデル	サイズ ^{(ピクセル)}	mAP^値 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

主なポイント

推論スピード： YOLO11 モデルは、特にTransformersが複雑な注目計算のために苦労することの多いCPU推論において、普遍的に高速である。
パラメータ効率： YOLO11 、より少ないパラメータとFLOPで同等以上の精度を達成し、ストレージコストと消費電力を削減します。
メモリ使用量： YOLO11 モデルのトレーニングは、通常、RTDETRv2と比較してGPU VRAMの消費量が少ないため、バッチサイズを大きくしたり、よりアクセスしやすいGPUでトレーニングすることができます。

使い方と開発者の経験

決定的な差別化要因は、統合の容易さである。RTDETRv2が研究指向のコードベースを提供するのに対し、YOLO11 実稼働可能なPython APIと CLI提供する。

次の例は、事前にトレーニングされたYOLO11 モデルを読み込み、画像に対して推論を実行することがいかに簡単であるかを示しています。このレベルのシンプルさは、開発ライフサイクルを大幅に加速します。

from ultralytics import YOLO

# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Show results
results[0].show()

この合理化されたワークフローは、Ultralytics 複雑なデータの増強とハイパーパラメータのチューニングを自動的に処理するカスタムデータセットでのトレーニングにも拡張されます。

理想的なユースケース

適切なモデルを選択するかどうかは、特定のプロジェクトの制約と目標に依存する。

Ultralytics YOLO11を選択する場合

YOLO11 、その多用途性とエコシステムのサポートにより、大多数の商業および研究用途に推奨される選択肢である。

エッジコンピューティング：低レイテンシーとリソース効率により、NVIDIA JetsonやRaspberry Piのようなデバイスへの展開に最適です。
リアルタイム・システム：ミリ秒レベルのスピードが重要な交通監視、自律航法、工業品質管理に最適。
マルチタスクプロジェクト：プロジェクトで、検出と同時にセグメンテーションやポーズ推定が必要な場合、YOLO11 11は統一されたソリューションを提供します。
迅速なプロトタイピング：広範なドキュメントとコミュニティ・サポートにより、アイデアからデプロイまで素早く反復することができます。

RTDETRv2を選択するタイミング

RTDETRv2は特殊な研究シナリオに最適である。

学術研究： 主な目標がVision Transformerアーキテクチャを研究すること、または計算コストに関係なく特定の学術ベンチマークを打ち破ることである場合。
複雑なオクルージョン：ハードウェアリソースが無制限の静的入力のシナリオでは、グローバルアテンションメカニズムは、密なオクルージョンの解決にわずかな利点を提供するかもしれない。

結論

RTDETRv2は物体検出におけるトランスフォーマーの可能性を示している、 Ultralytics YOLO11は、実用的な展開と包括的なコンピュータビジョンソリューションのための優れた選択肢であり続けています。そのアーキテクチャは、速度と精度のより良いバランスを実現し、周囲のエコシステムは劇的にトレーニングとMLOpsの複雑さを軽減します。

YOLO11 、プロトタイプから生産までスケールアップできる、信頼性が高く、高速で、十分にサポートされたモデルを求める開発者にとって、比類のない価値を提供する。

その他のモデルを見る

コンピュータ・ビジョンの比較にご興味のある方は、以下の関連ページをご覧ください：