Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 vs YOLOv9#

コンピュータビジョンの分野では、畳み込みニューラルネットワーク(CNN)とTransformerベースのモデルの間で、アーキテクチャの哲学が大きく分かれています。RTDETRv2とYOLOv9を比較する場合、開発者は実質的にグローバルアテンションメカニズムとプログラマブル勾配情報のどちらを選択するかというトレードオフを評価することになります。どちらのモデルもそれぞれのパラダイムの頂点に位置し、リアルタイム物体検出の境界を押し広げています。

Link to this sectionモデルの紹介#

Link to this sectionRTDETRv2: リアルタイム検出Transformer#

Baiduの研究者によって開発されたRTDETRv2は、オリジナルのRT-DETRを基盤とし、「Bag-of-Freebies」を導入することでベースラインのリアルタイム検出Transformerを強化しました。これはTransformerの伝統的なボトルネックである推論速度の問題に対処し、リアルタイムアプリケーションでの実用性を高めています。

  • 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
  • 組織: Baidu
  • 日付: 2024年7月24日
  • リンク: Arxiv, GitHub

RTDETRv2の際立った特徴は、ネイティブなエンドツーエンドのNMSフリー設計です。後処理中の非最大値抑制(NMS)を完全に取り除くことで、モデルの推論レイテンシを安定させ、デプロイメントパイプラインを簡素化しました。グローバルアテンションメカニズムにより、画像全体のコンテキストを同時に評価できるため、複雑なシーンの理解や密集した群衆の検出に優れた性能を発揮します。

RTDETRv2の詳細はこちら

Link to this sectionYOLOv9: プログラマブル勾配情報#

YOLOv9は、効率性に優れたCNNベースのアーキテクチャであり、ディープニューラルネットワークに固有の情報ボトルネック問題に対処しています。これは、プログラマブル勾配情報(PGI)とGeneralized Efficient Layer Aggregation Network(GELAN)を導入しています。

YOLOv9は、実証済みの畳み込みニューラルネットワークの基盤に依存しながら、パラメータ効率を最大化しています。フィードフォワードプロセス中に重要な情報を保持することで、信頼性の高い重み更新を保証し、信じられないほど軽量でありながら高精度なモデルを実現しています。ただし、RTDETRv2とは異なり、YOLOv9は依然として標準的なNMS後処理に依存しています。

YOLOv9の詳細はこちら

Link to this sectionパフォーマンスとリソース効率#

本番環境でこれらのモデルを評価する際は、平均適合率(mAP)と計算コストのバランスが不可欠です。以下の表は、MS COCO datasetにおけるパフォーマンスを示しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Link to this sectionメモリ要件とトレーニング効率#

RTDETRv2のようなTransformerは、学習中のメモリ消費が激しいことで知られており、完全に収束させるためには、多くの場合でかなりのCUDAメモリと長い学習スケジュールが必要です。対照的に、YOLOv9やその他のUltralytics YOLOモデルといったCNNアーキテクチャは、メモリ使用量が非常に低いため、開発者は民生用ハードウェアでも大きなバッチサイズで学習を行うことができます。

効率的な学習

ハードウェアの利用効率を最大化するには、クラウドでの効率的な学習のためにUltralytics Platformの利用を検討してください。環境構築や最適なバッチサイズ設定が自動的に処理されます。

Link to this sectionUltralyticsの利点:エコシステムと使いやすさ#

公式のRTDETRv2やYOLOv9のGitHubページのようなスタンドアロンのリポジトリを調査することは非常に学習になりますが、本番環境では安定性、使いやすさ、そして十分にメンテナンスされたエコシステムが求められます。Ultralytics Python APIを介してこれらのモデルを統合することで、シームレスな開発体験が得られます。

Link to this section統合APIと汎用性#

Ultralyticsフレームワークは、データ読み込み、拡張、分散学習の複雑さを抽象化します。さらに、オリジナルのRTDETRv2は検出のみに特化していますが、Ultralyticsエコシステムを使用すると、Object DetectionInstance SegmentationPose Estimationの間を簡単に切り替えることができます。

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

With robust documentation, automatic experiment tracking, and seamless export capabilities to formats like ONNX, TensorRT, and OpenVINO, Ultralytics drastically reduces the time from prototype to production.

Link to this section理想的なユースケース#

Link to this sectionRTDETRv2が優れている点#

グローバルアテンションメカニズムのおかげで、RTDETRv2はサーバーサイド処理や、グローバルなコンテキストが最優先される環境で威力を発揮します。特に以下の分野で優れています:

  • 医療用画像処理: 周囲のコンテキストが不可欠な微妙な異常の特定。
  • 航空監視: 従来のCNN畳み込みの空間的バイアスに影響されず、高解像度のドローン映像内の小さな物体を検出。
  • 密集した群衆の分析: アンカーベースのモデルでは通常混同が生じるような深刻な遮蔽がある状況での個人の追跡。

Link to this sectionYOLOv9が優れている点#

YOLOv9は、リソースに制約のあるエッジデプロイメントのチャンピオンです。その計算効率の高さから、以下に最適です:

  • ロボティクス: 最小限の遅延が求められるリアルタイムナビゲーションと障害物回避。
  • スマートシティIoT: 交通監視のためにNVIDIA Jetsonなどのエッジデバイスにデプロイ。
  • 産業用検査: 高いフレームレート(FPS)が求められる高速組み立てラインの品質管理。

Link to this section未来へ: Ultralytics YOLO26の登場#

YOLOv9とRTDETRv2は大きな飛躍を遂げましたが、技術動向は急速に進化しています。現代のデプロイメントに向けて、新たにリリースされた**Ultralytics YOLO26**は、両方のアーキテクチャの哲学を究極に統合したモデルです。

TransformerとCNNの最高の側面を取り入れることで、YOLO26は新しい標準を確立します:

  • エンドツーエンドのNMSフリー設計: RTDETRv2と同様に、YOLO26はネイティブなエンドツーエンド設計であり、NMS後処理を完全に排除して、より高速でシンプルかつ非常に予測可能なデプロイメントパイプラインを実現します。
  • MuSGDオプティマイザー: 大規模言語モデル(LLM)の学習テクニック(Moonshot AIのKimi K2など)に着想を得て、YOLO26はSGDとMuonのハイブリッドを活用しています。これにより、コンピュータビジョンにおいて比類のない学習の安定性と高速な収束がもたらされます。
  • CPU推論速度が最大43%向上: 重いTransformerとは異なり、YOLO26はエッジコンピューティングやGPUを搭載していないデバイス向けに高度に最適化されています。
  • DFLの削除: Distribution Focal Lossを削除することでモデルグラフが大幅に簡素化され、低電力エッジデバイスや組み込み型Neural Processing Unit(NPU)への完璧なエクスポートが可能になります。
  • ProgLoss + STAL: これらの改良された損失関数は、IoTや航空データセットにおいて重要な機能である小物体認識の精度を劇的に向上させます。

新しいコンピュータビジョンプロジェクトを開始しようとしているチームには、YOLO26の評価を強くお勧めします。これは、TransformerのNMSフリーのエレガンスと、高度に最適化されたYOLOアーキテクチャの爆発的な速度および学習効率を兼ね備えています。

YOLO26の詳細はこちら

Link to this section要約#

RTDETRv2とYOLOv9の選択は、主にデプロイ先のハードウェアと特定の精度要件によって決まります。RTDETRv2は、サーバーベースのアプリケーションに対して最高水準の精度とコンテキスト認識を提供し、YOLOv9はエッジデバイス向けに卓越した効率を提供します。

しかし、成熟したUltralyticsエコシステムを活用することで、開発者は両方のモデルを容易に試すことができます。さらに、YOLO11のような新しいモデルや、ネイティブなエンドツーエンドのYOLO26の導入により、高速推論、多目的なタスク対応、そして低いメモリ消費の完璧なバランスを見つけることが、これまで以上に容易になりました。

コントリビューター

コメント