RTDETRv2 vs. YOLOv9:物体検出に関する技術比較
最適な物体検出モデルの選択は、あらゆるコンピュータビジョンプロジェクトにおいて非常に重要な決定事項です。その選択には、精度、推論速度、計算コストのトレードオフが伴います。このページでは、2つの強力なモデル、すなわち、高精度で知られるTransformerベースのモデルであるRTDETRv2と、速度と効率の優れたバランスで評価されているCNNベースのモデルであるYOLOv9との詳細な技術比較を提供します。この分析は、お客様の特定の要件に最適なモデルを選択するのに役立ちます。
RTDETRv2: Transformerを活用した高精度
RTDETRv2(Real-Time Detection Transformer v2)は、Baiduが開発した最先端の物体検出モデルです。Transformerアーキテクチャを活用し、特に複雑なシーンで卓越した精度を実現します。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織: Baidu
- 日付: 2023-04-17 (オリジナルのRT-DETR), 2024-07-24 (RTDETRv2論文)
- Arxiv: https://arxiv.org/abs/2304.08069 (オリジナル), https://arxiv.org/abs/2407.17140 (v2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Docs: https://docs.ultralytics.com/models/rtdetr/
アーキテクチャと主な機能
RTDETRv2は、従来のConvolutional Neural Networks (CNN)とは大きく異なるVision Transformer (ViT)アーキテクチャを基盤としています。自己注意メカニズムを使用することで、画像内のグローバルなコンテキストと長距離依存性を捉えることができます。これにより、より堅牢な特徴抽出が可能になり、特に遮蔽されたオブジェクトや多数のオブジェクトが存在するシナリオで、より高い精度を実現します。RTDETRv2はまた、アンカーフリーな検出メカニズムを採用し、検出プロセスを簡素化しています。
長所と短所
長所:
- 高精度: Transformerアーキテクチャは、複雑な詳細と関係性を捉えることに優れており、高いmAPスコアにつながります。
- グローバルコンテキストの理解: 画像全体をコンテキストに応じて処理する能力は、複雑な環境において大きな利点となります。
- リアルタイム対応: TensorRTのような十分なハードウェアアクセラレーションがあれば、リアルタイムの推論速度を達成できます。
弱点:
- 高いリソース需要: RTDETRv2 モデルは、パラメータ数が多く、FLOPs が高いため、大きな計算能力が必要です。
- 高いメモリ使用量: Transformerベースのモデルは、特にトレーニング中に、メモリを大量に消費することで悪名高く、高いCUDAメモリを必要とし、ハイエンドGPUなしでトレーニングすることを困難にしています。
- CPUでの推論が遅い: 最適化されたCNNと比較して、CPUまたはリソース制約のあるデバイスではパフォーマンスが大幅に低下します。
- 複雑さ: アーキテクチャは、より効率化されたモデルよりも、理解、調整、およびデプロイが複雑になる可能性があります。
理想的なユースケース
RTDETRv2は、精度が最優先事項であり、計算リソースが主な制約とならないアプリケーションに最適です。
- 医療画像解析: 高解像度医療スキャンにおけるわずかな異常の検出。
- 衛星画像解析: 大きな衛星画像内の小さなオブジェクトまたは特徴を識別します。
- ハイエンド産業検査: 精度が最も重要な詳細な品質管理を実行します。
YOLOv9:最新鋭の効率と性能
YOLOv9は、台湾のAcademia Sinicaの研究者によって開発された、Ultralytics YOLOファミリーにおける画期的なモデルです。効率を向上させ、深層ネットワークにおける情報損失に対処するための新しい手法を導入しています。
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織: 台湾 Academia Sinica 情報科学研究所
- Date: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Docs: https://docs.ultralytics.com/models/yolov9/
アーキテクチャと主な機能
YOLOv9では、Programmable Gradient Information (PGI)とGeneralized Efficient Layer Aggregation Network (GELAN)という2つの重要なイノベーションが導入されています。PGIは、データが深いニューラルネットワークを流れる際に発生する情報の損失を軽減し、モデルが効果的に学習できるようにします。GELANは、パラメータの使用率と計算速度を最適化する、非常に効率的なアーキテクチャです。
オリジナルの研究は非常に優れていますが、YOLOv9 を Ultralytics エコシステムに統合することで、その潜在能力を最大限に引き出すことができます。これにより、ユーザーは以下を利用できます。
- 使いやすさ: 合理化されたユーザーフレンドリーなPython APIと豊富なドキュメントにより、モデルのトレーニング、検証、およびデプロイが容易になります。
- 充実したエコシステム: 活発な開発、強力なコミュニティサポート、ノーコードトレーニングとMLOpsのためのUltralytics HUBのようなツールとのシームレスな統合が利用できます。
- 学習効率: Ultralyticsは、すぐに利用できる事前学習済みのウェイトと効率的な学習プロセスを提供します。重要なことに、YOLOv9は、RTDETRv2のようなTransformerモデルと比較して、学習中のメモリ要件が大幅に低く、より強力でないハードウェアを持つユーザーがアクセスできるようになっています。
- 多様性: 主に検出を目的とするRTDETRv2とは異なり、YOLOv9アーキテクチャはより汎用性が高く、インスタンスセグメンテーションのようなタスクをサポートする実装があり、さらなる可能性を示しています。
長所と短所
長所:
- 優れた効率性: 競合製品よりも少ないパラメータと低い計算コストで、最先端の精度を実現します。
- 優れたパフォーマンスバランス: 速度と精度の間で卓越したトレードオフを実現し、幅広いアプリケーションに適しています。
- 情報保持: PGIは、深層ネットワークにおける情報損失の問題に効果的に取り組みます。
- スケーラビリティ: 軽量なYOLOv9tから高性能なYOLOv9eまで、さまざまなニーズに対応する多様なモデルサイズを提供します。
弱点:
- 新規性: より新しいモデルであるため、コミュニティが提供するデプロイメント例の数はまだ増加していますが、Ultralyticsエコシステムのおかげで、その採用は急速に加速しています。
理想的なユースケース
YOLOv9は、高い精度とリアルタイム性能の両方が要求されるアプリケーションに最適です。
- エッジコンピューティング: その効率性により、NVIDIA Jetsonのようなリソース制約のあるデバイスへの実装に最適です。
- リアルタイム監視: セキュリティシステムのためのビデオフィードを効率的に監視します。
- ロボティクスとドローン: 自律ナビゲーションのための高速かつ正確な知覚を提供。
- モバイルアプリケーション: リソースを消費せずに、強力なオブジェクト検出をモバイルアプリに統合します。
性能の直接対決:精度、速度、効率
パフォーマンス指標を比較すると、YOLOv9とRTDETRv2の間のトレードオフが明確になります。YOLOv9は、パフォーマンスと効率のより良いバランスを一貫して示しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
表が示すように、最大のYOLOv9モデルであるYOLOv9eは、RTDETRv2-xの54.3%と比較して、より高いmAPである55.6%を達成していますが、使用するFLOPsは大幅に少なくなっています(189.0B対259B)。スペクトルの反対側では、YOLOv9sのような小型モデルは、RTDETRv2-sと同等の精度(46.8%対48.1%)を提供しますが、パラメータとFLOPsがはるかに少なく、はるかに高速で、エッジAIデバイスに適しています。
結論: どのモデルが最適か?
RTDETRv2は、Transformerベースのアーキテクチャを通じて高い精度を提供しますが、これは高い計算およびメモリ要件というコストを伴い、特殊な、高リソースアプリケーション向けのニッチな選択肢となっています。
圧倒的多数の開発者と研究者にとって、YOLOv9が優れた選択肢です。最先端の精度を提供するだけでなく、驚くほど効率的にそれを行います。より低いリソース要件、より高速な推論速度、およびスケーラビリティにより、実際のデプロイメントに非常に実用的です。最も重要なことは、堅牢なUltralyticsエコシステムが、使いやすいツール、包括的なサポート、およびコンセプトから生産までの開発を加速する効率的なワークフローを備えた、比類のないユーザーエクスペリエンスを提供することです。
その他の最新モデルを調べる
他の選択肢を検討されている場合は、Ultralyticsエコシステム内の他のモデルもご検討ください。
- Ultralytics YOLOv8: 検出、セグメンテーション、ポーズ推定、トラッキングなど、幅広いビジョンタスクで優れたパフォーマンスを発揮することで知られる、非常に人気があり汎用性の高いモデルです。YOLOv8とRT-DETRの比較をご覧ください。
- Ultralytics YOLO11:Ultralyticsの最新モデルで、速度と効率の限界をさらに押し広げています。リアルタイムアプリケーションにおける最先端のパフォーマンスのために設計されています。YOLO11とYOLOv9の比較をご覧ください。