YOLOv9 vs YOLOv10: リアルタイム物体検出の進化に関する技術的深掘り

リアルタイム・コンピュータビジョンの分野は、常に性能と効率の限界を押し広げようとする研究者たちによって、大きな進歩を遂げてきました。最先端のビジョンモデルの進化を分析する際、YOLOv9YOLOv10は2つの重要なマイルストーンとなります。2024年初頭にリリースされたこれらのモデルは、情報のボトルネックから後処理のレイテンシに至るまで、ディープニューラルネットワークにおける長年の課題に対処するため、パラダイムシフトをもたらすアーキテクチャ設計を導入しました。

この包括的な技術比較では、それぞれのアーキテクチャ、性能メトリクス、そして理想的なデプロイシナリオを探求し、現代の物体検出エコシステムの複雑さをナビゲートする手助けをします。

モデルの起源とアーキテクチャのブレークスルー

これらのモデルの系譜と理論的基盤を理解することは、特定のコンピュータビジョンプロジェクトに最適なアーキテクチャを選択するために不可欠です。

YOLOv9: 情報フローのマスター

2024年2月21日に発表されたYOLOv9は、データがディープニューラルネットワークを通過する際に発生する情報の損失という理論的な問題に取り組んでいます。

YOLOv9は、CSPNetとELANの長所を組み合わせることでパラメータの利用率を最大化する**Generalized Efficient Layer Aggregation Network (GELAN)を導入しています。さらに、深層レイヤーが重要な空間情報を保持することを保証する補助的監視メカニズムであるProgrammable Gradient Information (PGI)**を採用しています。これにより、YOLOv9は医療画像解析や遠隔監視など、高い特徴忠実度が求められるタスクにおいて非常に強力な性能を発揮します。

YOLOv9の詳細はこちら

YOLOv10: リアルタイム・エンドツーエンドの効率化

その直後の2024年5月23日にリリースされたYOLOv10は、物体検出における最も悪名高いレイテンシのボトルネックの一つであるNMS(Non-Maximum Suppression)を排除することで、デプロイメントパイプラインを再構築しました。

YOLOv10は、学習中にconsistent dual assignments(一貫したデュアル割り当て)を利用し、ネイティブなNMSフリー設計を実現しています。これにより、推論中の後処理オーバーヘッドが排除され、レイテンシが劇的に短縮されます。全体的な効率と精度の両立を目指したモデル設計と相まって、YOLOv10は優れたバランスを達成し、計算オーバーヘッド(FLOPs)を削減しながら競争力のある精度を維持しているため、エッジコンピューティングアプリケーションにおいて非常に魅力的です。

YOLOv10の詳細はこちら

パフォーマンスとメトリクスの比較

これら2つの強力なモデルを標準的なMS COCOデータセットでベンチマークすると、純粋な精度と推論レイテンシの間には明確なトレードオフが現れます。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

データの分析

  1. レイテンシと精度: YOLOv10モデルは一般的に優れた推論速度を提供します。例えば、YOLOv10sはTensorRT上で2.66msで46.7% mAPを達成しますが、YOLOv9sではほぼ同等の46.8% mAPに3.54msを要します。
  2. 最高レベルの精度: 最大限の検出精度が求められる研究シナリオでは、YOLOv9eが依然として強力な選択肢であり、55.6% mAPという素晴らしい数値を達成しています。そのPGIアーキテクチャは、繊細な特徴を確実に抽出します。
  3. 効率性: YOLOv10はFLOPs効率において優れています。これは直接的に消費電力の低下につながり、ビジョンAIモデルを実行するバッテリー駆動デバイスにとって重要な指標となります。
デプロイメントのヒント

CPUやRaspberry Piのようなリソース制限のあるエッジハードウェアにデプロイする場合、YOLOv10のNMSフリーアーキテクチャは、非決定論的な後処理ステップを排除することで、通常よりスムーズなパイプラインを提供します。

Ultralyticsの利点: トレーニングとエコシステム

アーキテクチャの違いは極めて重要ですが、それを取り巻くソフトウェアエコシステムがプロジェクトの成功を大きく左右します。YOLOv9とYOLOv10は両方ともUltralyticsエコシステムに完全に統合されており、比類のない開発者体験を提供します。

使いやすさとメモリ効率

膨大なメモリ肥大化に悩まされる複雑なTransformerベースのアーキテクチャとは異なり、Ultralytics YOLOモデルは最適なGPUメモリ使用量になるよう設計されています。これにより、研究者はコンシューマーグレードのハードウェアでより大きなバッチサイズを利用でき、最先端のAIをより身近なものにしています。

統合されたPython APIは、データ拡張ハイパーパラメータチューニングの複雑さを抽象化します。重みファイルの文字列を変更するだけで、シームレスにアーキテクチャを切り替えることができます。

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

MLflowへのメトリクスの記録や、高速ハードウェアデプロイのためのTensorRTへのエクスポートが必要な場合でも、Ultralyticsプラットフォームはネイティブに対応しています。

理想的な使用ケース

これらのモデルの選択は、デプロイメントの制約によって決まります。

  • Choose YOLOv9 if: You are working on small object detection tasks, such as aerial drone imagery or detecting small tumors, where the GELAN architecture's feature retention provides the highest fidelity.
  • YOLOv10を選択すべき場合: 主なターゲットがエッジデバイスでのリアルタイム推論である場合。NMSフリーの設計は、自律型ロボティクス、リアルタイム交通監視、およびスマート監視に最適です。

将来を見据えて: YOLO26への移行

YOLOv8、YOLOv9、YOLOv10は優れたモデルですが、モダンなAIソリューションを構築しようとする開発者は、2026年1月にリリースされた**Ultralytics YOLO26**を検討すべきです。

YOLO26は、YOLOv9の精度とYOLOv10の効率という両世代の長所を組み合わせた、究極の統合版です。

YOLO26の主なイノベーション

  • エンドツーエンドのNMSフリー設計: YOLOv10で築かれた基盤の上に構築されており、YOLO26はデプロイを簡素化するためにNMS後処理をネイティブに排除しています。
  • MuSGDオプティマイザ: SGDとMuonのハイブリッドであり、LLM学習の高度なイノベーションをコンピュータビジョンにもたらし、非常に安定した高速な収束を実現します。
  • 最大43%のCPU推論高速化: 専用GPUを持たないエッジコンピューティングやデバイス向けに特別に最適化されています。
  • DFLの削除: モデルエクスポートを簡素化し、低電力デバイスとの互換性を高めるために、Distribution Focal Lossが削除されました。
  • ProgLoss + STAL: これらの改善された損失関数により、小さな物体の認識において顕著な改善が見られ、YOLOv9の能力に匹敵するか、それを上回ります。

レガシーアーキテクチャを評価している研究者向けに、RT-DETRYOLO11もUltralyticsエコシステム内で十分にドキュメント化された代替手段として存在します。しかし、すべてのビジョンタスクにおいて最大の汎用性を求めるなら、Ultralyticsプラットフォーム上でYOLO26に移行することで、最高峰のオープンソース・ビジョンAIを活用できるようになります。

コメント