YOLOv9 vs. RTDETRv2:物体検出のための技術比較
最適な物体検出モデルの選択は、あらゆるコンピュータビジョンプロジェクトにおいて非常に重要な決定事項であり、精度、推論速度、および計算コストの慎重なバランスが求められます。このページでは、2つの強力なモデル、すなわち、効率と精度で知られる最先端モデルであるYOLOv9と、高精度で評価されているTransformerベースのモデルであるRTDETRv2との詳細な技術比較を提供します。この分析は、お客様のプロジェクトの特定の要件に最適なモデルを判断するのに役立ちます。
YOLOv9:効率性によるリアルタイム検出の推進
YOLOv9は、YOLOシリーズにおける大きな飛躍であり、パフォーマンスと効率を向上させる画期的な技術を導入しています。主要な研究者によって開発され、深層学習における主要な課題に対処し、優れた結果を提供します。
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織: 台湾 Academia Sinica 情報科学研究所
- Date: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Docs: https://docs.ultralytics.com/models/yolov9/
アーキテクチャと主な機能
YOLOv9のアーキテクチャは、Programmable Gradient Information (PGI)とGeneralized Efficient Layer Aggregation Network (GELAN)という2つの主要なイノベーションを導入しています。PGIは、データが深層ニューラルネットワークを流れる際に発生する情報損失の問題に対処するように設計されており、モデルが正確な更新のために信頼性の高い勾配情報を受け取ることを保証します。GELANは、パラメータの利用率と計算効率を最適化する新しいネットワークアーキテクチャであり、YOLOv9は大量のパラメータなしで高い精度を達成できます。
Ultralyticsエコシステムに統合されると、YOLOv9のパワーは増幅されます。開発者は、シンプルなPython APIと豊富なドキュメントによる合理化されたユーザーエクスペリエンスの恩恵を受けます。このエコシステムは、すぐに利用できる事前トレーニング済みの重みによる効率的なトレーニングを保証し、活発な開発と強力なコミュニティサポートの恩恵を受けます。
長所と短所
長所:
- 最先端の精度: COCOなどのベンチマークで、主要なmAPスコアを達成し、多くの場合、より多くのパラメータを持つモデルを上回ります。
- 高い効率性: GELANとPGIは、より少ないパラメータとFLOPsで卓越した性能を発揮し、エッジAIデバイスへの実装に最適です。
- 情報保持: PGIは、情報損失を効果的に軽減し、より堅牢な学習とより優れた特徴表現につながります。
- 優れた維持管理体制のエコシステム: 活発な開発、包括的なリソース、MLOpsのためのUltralytics HUB統合、強力なコミュニティサポートの恩恵を受けています。
- メモリ要件が低い: Transformerベースのモデルと比較して、YOLOv9は通常、トレーニングおよび推論中に必要なメモリが大幅に少なく、限られたハードウェアを持つユーザーにとってよりアクセスしやすくなっています。
- 多様性: 元の論文は物体検出に焦点を当てていますが、このアーキテクチャはインスタンスセグメンテーションのような複数のタスクをサポートしており、YOLOv8のような他のUltralyticsモデルのマルチタスク機能と一致しています。
弱点:
- 新規性: より新しいモデルであるため、コミュニティ主導のデプロイメント例の数は、長い間確立されたモデルよりも少ない可能性がありますが、Ultralytics内での統合により、採用が急速に加速されます。
理想的なユースケース
YOLOv9は、高い精度とリアルタイム効率の両方が最も重要なアプリケーションに最適です。
- 自律システム: 高速かつ正確な認識を必要とする自動運転車やドローンに最適です。
- 高度なセキュリティ: リアルタイムの脅威検出による高度なセキュリティシステムを強化します。
- 産業オートメーション: 製造業における品質管理および複雑なロボットタスクに最適です。
- エッジコンピューティング: 効率的な設計により、リソース制約のある環境での実装に適しています。
RTDETRv2: 精度重視のリアルタイム検出
RTDETRv2(Real-Time Detection Transformer v2)は、Transformerアーキテクチャの能力を活用し、リアルタイム物体検出において高い精度が要求されるアプリケーション向けに設計されたモデルです。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織: Baidu
- 日付: 2023-04-17 (オリジナルのRT-DETR), 2024-07-24 (RTDETRv2論文)
- Arxiv: https://arxiv.org/abs/2304.08069 (オリジナル), https://arxiv.org/abs/2407.17140 (v2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- ドキュメント: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
アーキテクチャと主な機能
RTDETRv2のアーキテクチャは、Vision Transformers (ViT)を基盤としており、self-attentionメカニズムを通じて画像内のグローバルなコンテキストを捉えることができます。このTransformerベースのアプローチにより、従来型のConvolutional Neural Networks (CNN)と比較して優れた特徴抽出が可能になり、特に複雑なオブジェクト関係を持つ複雑なシーンで、より高い精度を実現します。
長所と短所
長所:
- 高精度: Transformerアーキテクチャは、優れたオブジェクト検出精度を提供し、精度重視のタスクに最適な選択肢となります。
- ロバストな特徴抽出: 画像内のグローバルなコンテキストと長距離の依存関係を効果的に捉えます。
- リアルタイム対応: 適切なハードウェアが利用可能であれば、リアルタイムアプリケーションに適した競争力のある推論速度を実現します。
弱点:
- 高いリソース需要: RTDETRv2 モデルは、パラメータ数と FLOPs が大幅に多いため、より多くの計算能力とメモリが必要です。
- 推論が遅い: 一般的にYOLOv9よりも遅く、特にGPU以外のハードウェアや低電力デバイスでは遅くなります。
- 高いメモリ使用量: Transformerアーキテクチャは、特にトレーニング中にメモリを大量に消費することが知られており、多くの場合、高いCUDAメモリを必要とし、多くのユーザーにとって障壁となる可能性があります。
- 汎用性が低い: 主に物体検出に焦点を当てており、Ultralyticsエコシステム内のモデルのような組み込みのマルチタスクの汎用性がありません。
- 複雑さ: 効率化され、ユーザーフレンドリーなUltralytics YOLOモデルと比較して、トレーニング、チューニング、およびデプロイがより複雑になる可能性があります。
理想的なユースケース
RTDETRv2は、可能な限り最高の精度を達成することが主な目標であり、計算リソースが主な制約とならないシナリオに最適です。
- 医療画像処理: 診断において精度が重要な複雑な医療スキャンの分析。
- 衛星画像: 高解像度衛星画像内の小さく不明瞭なオブジェクトを検出します。
- 科学研究: モデルのパフォーマンスがデプロイ効率よりも優先される研究環境で使用されます。
性能の直接対決:YOLOv9 vs. RTDETRv2
以下の表は、COCO valデータセットにおけるYOLOv9とRTDETRv2のさまざまなサイズのモデルの詳細な性能比較を示しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
データから、いくつかの重要な洞察が得られます。
- ピーク精度: YOLOv9-Eは、55.6%という最高のmAPを達成し、比較対象の他のすべてのモデルを上回っています。
- 効率性: 同程度の精度を持つモデルを比較すると、YOLOv9は一貫して優れた効率性を示します。例えば、YOLOv9-C (53.0 mAP) は、RTDETRv2-L (53.4 mAP) よりも高速で、必要なパラメータ数 (25.3M vs. 42M) とFLOPs (102.1B vs. 136B) が大幅に少なくなっています。
- 速度: YOLOv9モデルは一般に、TensorRTを使用したGPUでより高速な推論速度を提供します。YOLOv9-Cモデルは、同等のRTDETRv2-Lよりも著しく高速です。
結論: どのモデルを選ぶべきか?
圧倒的多数の現実世界のアプリケーションにとって、YOLOv9が推奨される選択肢です。精度、速度、および効率の優れた組み合わせを提供します。その革新的なアーキテクチャは、計算リソースに配慮しながら、最先端の性能を保証します。特にUltralyticsフレームワーク内でYOLOv9を選択する主な利点は、使いやすさ、より低いメモリ要件、複数のタスクにわたる汎用性、および適切にメンテナンスされたエコシステムの堅牢なサポートです。
RTDETRv2は、精度が最優先事項であり、より高い計算コストとメモリコストが許容されるニッチなアプリケーション向けの強力なモデルです。ただし、その複雑さとリソース集約的な性質により、高度に最適化され、ユーザーフレンドリーなYOLOv9と比較して、広範な展開にはあまり実用的ではありません。
検討すべきその他のモデル
他の選択肢を検討されている場合は、Ultralyticsエコシステムで利用可能な他の最先端モデルにも興味があるかもしれません。
- Ultralytics YOLO11:Ultralyticsの最新かつ最も高度なモデルで、速度と精度の限界をさらに押し広げています。
- Ultralytics YOLOv8: 幅広いビジョンタスクにおいて、卓越したパフォーマンスと多様性のバランスで知られる、成熟した非常に人気のあるモデルです。
- YOLOv5: 業界標準のモデルであり、特にエッジデバイス上での信頼性、速度、および容易な実装で知られています。