YOLOv5 RTDETRv2: 物体検出におけるCNNとトランスフォーマーアーキテクチャの評価

コンピュータビジョンの分野はここ数年で大きく拡大し、開発者に複雑な視覚タスクに取り組むための多様なアーキテクチャを提供している。最も普及している手法としては、畳み込みニューラルネットワーク（CNN）と検出トランスフォーマー（DETR）が挙げられる。

このガイドでは、これらのカテゴリーにおける2つの主要モデルの詳細な技術比較を提供します： Ultralytics YOLOv5、高効率で広く採用されているCNNベースのモデルと、最先端のトランスフォーマーベースのリアルタイム物体検出器であるRTDETRv2です。

Ultralytics YOLOv5：効率性の業界標準

Ultralytics YOLOv5 リリース以来、AIコミュニティの礎YOLOv5 、世界中の数千もの商用アプリケーションや研究プロジェクトを支えています。完全に PyTorch フレームワーク上に構築されており、リアルタイム性能を損なうことなく直感的な開発者体験を優先しています。

主な特徴:

Author: Glenn Jocher
組織:Ultralytics
日付: 2020-06-26
リンク:GitHubリポジトリ

アーキテクチャと強み

YOLOv5 、極めて低いメモリ使用量を維持しながら特徴抽出効率を最大化するよう設計された、合理化されたCNNアーキテクチャYOLOv5 。CSPDarknetバックボーンとPANetネックを組み合わせることで、マルチスケール特徴融合のための強力な組み合わせを実現している。

YOLOv5 主な利点の一つは、その性能バランス YOLOv5 。速度と精度の間で優れたトレードオフを実現しており、NVIDIA デバイスやスマートフォンといったリソース制約のあるハードウェア上でのモデル展開に理想的な選択肢となる。

さらに、YOLOv5 比類のない汎用性を YOLOv5 。バウンディングボックス予測に限定されたモデルとは異なり、YOLOv5 画像分類とインスタンスセグメンテーションを YOLOv5 サポートし、多様な視覚タスクに対応する統一フレームワークを提供する。その学習効率も顕著で、トランスフォーマーベースのアーキテクチャと比較して、CUDA 大幅に少ない。

弱点

古いCNNフレームワークに依存しているため、YOLOv5は重複するバウンディングボックスを排除するために、後処理において本質的にNon-Maximum Suppression (NMS)に依存します。Ultralyticsフレームワーク内で高度に最適化されているものの、NMSは特殊なエッジNPUにおいて、時折レイテンシのボトルネックを引き起こす可能性があります。

YOLOv5について詳しくはこちら

RTDETRv2: Baiduによるリアルタイムトランスフォーマー

RTDETRv2（リアルタイム検出トランスフォーマーv2）は、トランスフォーマーアーキテクチャをリアルタイム物体検出に応用する上で大きな飛躍を遂げ、従来標準的なDETRを悩ませてきた計算効率の低さに対処するものである。

主な特徴:

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織:Baidu
日付: 2024-07-24
リンク:Arxiv論文、GitHubリポジトリ

アーキテクチャと強み

RTDETRv2は、ハイブリッドエンコーダと柔軟なデコーダ設計を活用して画像を処理することで、前世代モデルを基盤としています。トランスフォーマーの自己注意機構により、モデルは画像コンテキストの全体的な理解を獲得し、深刻な物体遮蔽が生じる複雑なシーンにおいても卓越した性能を発揮します。

RTDETRv2の決定的な特徴は、そのエンドツーエンドのNMSフリー設計です。アンカーボックスやNMS後処理を必要とせずにオブジェクトクエリを直接予測することで、推論パイプラインを簡素化します。このアーキテクチャは、COCOのようなベンチマークデータセットで、驚異的なmAP (平均平均精度)を達成します。

弱点

RTDETRv2はリアルタイム機能を持つにもかかわらず、YOLOモデルと比較して著しく高いメモリ要件があります。Transformerのアテンションメカニズムはシーケンス長に対して二次的にスケールするため、大規模なGPUクラスターを使用しない限り、高解像度トレーニング中にメモリ不足エラーが発生する可能性があります。さらに、Ultralyticsエコシステムのすぐに使える汎用性に欠けており、主に2D object detectionにのみ焦点を当てており、セグメンテーションや姿勢推定のネイティブサポートはありません。

RTDETRの詳細について。

性能比較表

これらのアーキテクチャを客観的に評価するため、我々はそれらの性能指標をまとめた。太字で強調された値は、テストされた全スケールにおいて最も効率的または最高の性能を示した指標を表す。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

パフォーマンスコンテキスト

RTDETRv2-xは最高の絶対mAPを達成する一方、YOLOv5nの約30倍のパラメータを必要とする。限られたハードウェア上で動作する高速アプリケーションにおいては、Ultralytics が一貫して最高の計算効率を提供する。

Ultralyticsエコシステムの利点

研究ノートブックから本番環境へモデルを移行する際、モデルを取り巻くソフトウェアはニューラルネットワークのアーキテクチャと同様に重要です。Ultralytics 提供する「適切に管理されたエコシステム」は開発ライフサイクルをUltralytics 加速させます。

比類のない使いやすさ

Ultralytics 、驚くほど合理化されたユーザー体験を最優先します。カスタムモデルのトレーニング、検証の実行、あるいはTensorRTなどのハードウェア固有フォーマットへのエクスポートなど、あらゆる操作において TensorRT や ONNX Ultralytics Python 、あらゆる操作をわずか数行のコードで実現します。

Ultralytics トレーニングと推論を実行するのがいかに簡単かを示す実用的なコード例を以下に示します：

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

このシンプルで統一されたAPIは、ネイティブに実験追跡ツールとの連携をサポートします。 Weights & Biases や Cometなどのツールとの統合をネイティブにサポートし、開発者が複雑な定型コードを記述することなくシームレスにメトリクスを記録できるようにします。

ユースケースと推奨事項

YOLOv5とRT-DETRのどちらを選択するかは、特定のプロジェクト要件、デプロイメントの制約、およびエコシステムの好みに依存します。

YOLOv5を選択すべき時

YOLOv5 以下に最適YOLOv5 ：

実績のある本番システム: YOLOv5の長年にわたる安定性、広範なドキュメント、および大規模なコミュニティサポートが評価されている既存のデプロイメント。
Resource-Constrained Training: 限られたGPUリソースを持つ環境において、YOLOv5の効率的なトレーニングパイプラインと低いメモリ要件が有利です。
豊富なエクスポート形式のサポート: ONNX、TensorRT、CoreML、およびTFLiteを含む多くの形式でのデプロイを必要とするプロジェクト。

RT-DETRを選択すべきタイミング

RT-DETR 以下に推奨RT-DETR ：

トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

展望：YOLO11 YOLO26

本日新たなビジョンプロジェクトを開始される場合、最新世代のUltralytics を検討されることを強くお勧めします。

YOLOv5 非常に信頼性が高いものの、 YOLO11 は精度が向上し、方向付き境界ボックス（OBB）検出を含むタスクセットが拡張されています。

さらに重要なことに、最先端のYOLO26は両者の利点を融合しています。これは、YOLOv10で初めて開拓されたエンドツーエンドのNMSフリー設計を実装しており、CNNの効率を維持しながら後処理のオーバーヘッドを排除します。YOLO26はまた、LLMトレーニングの革新に触発されたMuSGD Optimizerを導入し、より高速な収束を実現します。DFL Removal（エクスポートの簡素化とエッジ／低電力デバイスとの互換性向上のためにDistribution Focal Lossを削除）により、YOLO26は最大43%高速なCPU推論を実現し、エッジAIにとって最高の選択肢となります。さらに、ProgLoss + STALは、IoT、ロボティクス、航空画像にとって重要な小物体認識において顕著な改善をもたらす改良された損失関数を提供します。

結論

YOLOv5とRTDETRv2の選択は、デプロイメントの制約に大きく依存します。RTDETRv2は強力なトランスフォーマーアテンションメカニズムを活用してmAPの限界を押し広げますが、メモリと計算オーバーヘッドの面で大きなコストがかかります。

対照的に、Ultralytics YOLOv5は、クラウドサーバーからマイクロコントローラーまで、あらゆる場所でスムーズに動作する、実績があり、高度に最適化された多用途なソリューションを提供します。シームレスなデプロイツールとともに最高の精度を求めるチームにとって、Ultralyticsエコシステム内でYOLO26にアップグレードすることは、現代のビジョンAIアプリケーション向けの決定的な最先端ソリューションを提供します。

YOLOv5 RTDETRv2: 物体検出におけるCNNとトランスフォーマーアーキテクチャの評価

Ultralytics YOLOv5：効率性の業界標準

アーキテクチャと強み

弱点

RTDETRv2: Baiduによるリアルタイムトランスフォーマー

アーキテクチャと強み

弱点

性能比較表

Ultralyticsエコシステムの利点

比類のない使いやすさ

ユースケースと推奨事項

YOLOv5を選択すべき時

RT-DETRを選択すべきタイミング

Ultralytics YOLO26）を選択すべきタイミング

展望：YOLO11 YOLO26

結論

コメント