コンテンツにスキップ

RTDETRv2 対YOLOv9:リアルタイム検出用トランスフォーマーとCNNの比較

物体検出分野は急速な進化を遂げており、リアルタイムアプリケーションの先駆者として2つの異なるアーキテクチャが台頭している:トランスフォーマーベースのモデルとCNNベースのモデルである。RTDETRv2(Real-Time Detection Transformer version 2)はビジョン・トランスフォーマーの最先端を体現し、後処理を必要としないエンドツーエンド検出を実現する。 YOLOv9は一方、情報損失を低減するためプログラマブル勾配情報(PGI)を用いて従来のCNNアーキテクチャを進化させています。

この比較では、両モデルの技術仕様、性能指標、および理想的な使用事例を検証し、開発者が特定のコンピュータービジョンニーズに最適なツールを選択する手助けをします。

概要

RTDETRv2は、複雑な環境下、特に遮蔽が頻繁に発生する状況において高精度が求められるシナリオで優れた性能を発揮します。その注意機構によりグローバルな文脈理解が可能ですが、その代償として計算負荷が高くなり、学習速度が遅くなります。研究用途やGPU 最適な選択肢です。

YOLOv9 速度と精度の優れたバランスを提供し、YOLO 効率性を維持しています。汎用的な物体検出タスクに非常に効果的ですが、Ultralytics (例: YOLO26などのUltralyticsモデルに取って代わられています。これらは両方の長所を統合しています:エンドツーエンドNMS検出と最適化されたCNNの速度を兼ね備えています。

ほとんどの開発者にとって、 Ultralytics は、シームレスな統合、充実したドキュメント、そして最新鋭のモデルへのサポートを提供し、本番環境への最も堅牢な道筋を提供します。

詳細な性能比較

以下の表は主要指標の比較を並べて示したものです。RTDETRv2は高い精度を達成する一方、YOLOv9 新しいYOLO26のようなCNNベースのモデルは、標準的なハードウェア上でより高速な推論速度を提供することが多い点に留意してください。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

RTDETRv2: ビジョントランスフォーマーの挑戦者

RTDETRv2は、RT-DETR成功を基盤とし、ハイブリッドエンコーダーと不確実性を最小化するクエリ選択を最適化することで、速度と精度を向上させます。

主な特徴:

  • 著者:呂文宇、趙瑋安、他
  • 組織:Baidu
  • 日付:2023年4月(オリジナル)、2024年7月(v2)
  • リンク:Arxiv,GitHub

アーキテクチャと強み

RTDETRv2は、グローバルアテンションを用いて画像を処理するトランスフォーマーアーキテクチャを採用しています。これにより、モデルは画像内の離れた部分同士の関係性を「認識」できるため、遮蔽や混雑したシーンに対して特に頑健です。主な利点として、NMS設計が挙げられ、後処理として非最大抑制を不要とすることでデプロイメントパイプラインを簡素化します。

制限事項

RTDETRv2は強力である一方、CNNと比較してトレーニング時に大幅にGPU 必要とする傾向がある。アテンション機構の二次的な計算量は、高解像度入力におけるボトルネックとなり得る。さらに、そのエコシステムは主に研究向けであり、Ultralytics られるような広範なデプロイメントツールが不足している。

RT-DETRの詳細について。

YOLOv9: プログラマブル勾配情報

YOLOv9 、プログラマブル勾配情報(PGI)と汎用効率的層集約ネットワーク(GELAN)の概念YOLOv9 。これらの革新は、深層ニューラルネットワークにおける情報ボトルネック問題に対処する。

主な特徴:

  • 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
  • 組織: 中央研究院 情報科学研究所
  • 日付: 2024年2月21日
  • リンク:Arxiv,GitHub

アーキテクチャと強み

YOLOv9パラメータ効率を最大化し、従来モデルよりも少ないFLOPsで高精度を実現します。フィードフォワード処理中に重要な情報を保持することで、重み更新に用いる勾配の正確性と信頼性を確保します。これにより軽量かつ高精度なモデルが実現されます。

制限事項

YOLOv9 進歩を遂げているにもかかわらず、NMS YOLOv9 NMS に依存しており、デプロイ時に遅延や複雑さが生じる可能性があります。大規模なデプロイを管理するユーザーは、こうした複雑な処理をネイティブに処理するUltralytics による合理化された体験を好む傾向があります。

YOLOv9について詳しくはこちら

Ultralytics :モデルを超えて

特定のアーキテクチャを選択することは重要ですが、それを取り巻くソフトウェアエコシステムこそが、プロジェクトの成功を左右する決定的な要素となることがよくあります。Ultralytics (YOLOv8を含む)は、 YOLO11、そして最先端のYOLO26を含むUltralyticsのモデルは、以下の明確な利点を提供します:

1. 使いやすさとトレーニング効率

モデルのトレーニングに深層学習の博士号は必要ありません。Ultralytics Python 、データ読み込み、拡張、分散トレーニングの複雑さを抽象化します。

from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your data with a single command
model.train(data="coco8.yaml", epochs=100, imgsz=640)

2. タスク全体にわたる多様性

多くの専門モデルとは異なり、Ultralytics 汎用的なビジョンAIツールとして設計されています。単一のフレームワークが以下をサポートします:

3. 展開と輸出

トレーニング済みモデルから本番アプリケーションへの移行はシームレスです。Ultralytics ワンクリックUltralytics ONNXTensorRT、CoreML、TFLiteなどの形式へのワンクリックエクスポートを提供し、エッジデバイスからクラウドサーバーまで、あらゆるハードウェア上でモデルが効率的に動作することを保証します。

今後の展望: YOLO26の力

最高のパフォーマンスを求める開発者のために、 YOLO26 は次の飛躍を象徴します。RTDETRv2とYOLOv9の両方の限界に対処しYOLOv9 それらの強みを統合されたアーキテクチャに組みYOLOv9

YOLO26にアップグレードする理由

YOLO26は、ネイティブにエンドツーエンドNMS検出を実現することで、従来の比較を無意味なものとする。YOLOv9 の後処理ボトルネックを解消YOLOv9 、CNNの速度的優位性を維持し、RTDETRv2のようなトランスフォーマーの重い計算コストを回避する。

YOLO26の主要なブレークスルー:

  • ネイティブのエンドツーエンド: NMS 排除しNMS 迅速でシンプルなデプロイメントパイプラインNMS 。
  • MuSGDオプティマイザー:LLMトレーニング(Moonshot AIのKimi K2など)に着想を得たこのハイブリッドオプティマイザーは、安定した収束と堅牢なトレーニングを保証します。
  • 高速化: CPU 向けに最適化され、前世代比最大43%の高速化を実現。エッジAIアプリケーションに最適です。
  • ProgLoss + STAL:高度な損失関数が小型物体検出を改善。ドローン画像やIoTにとって重要な機能。

YOLO26についてさらに詳しく

結論

YOLOv9 はいずれもコンピュータビジョン分野における画期的なYOLOv9 。RTDETRv2はトランスフォーマーベースの精度限界を押し広げ、YOLOv9 CNNの効率性をYOLOv9 。しかし実用的な実環境での展開においては、Ultralytics YOLO 依然として優れた選択肢です。 YOLO26のリリースにより、開発者はエンドツーエンド検出の簡便性とCNNの高速性の間で選択する必要がなくなりました。単一の、十分にサポートされたパッケージで両方を実現できるのです。

Ultralytics 探索して、今すぐモデルのトレーニングを開始しましょう。または、豊富なドキュメントにアクセスして、ビジョンAIパイプラインの最適化についてさらに学びましょう。


コメント