コンテンツにスキップ

YOLOv9 YOLOv10:リアルタイム物体検出の進化に関する技術的深掘り

リアルタイムコンピュータビジョンの分野では、研究者たちが性能と効率の限界を絶えず押し広げていることに大きく後押しされ、驚異的な進歩が見られている。最先端のビジョンモデルの進化を分析する際に、 YOLOv9YOLOv10 は二つの重要なマイルストーンを象徴する。2024年初頭に発表された両モデルは、情報ボトルネックから後処理遅延に至る深層ニューラルネットワークの長期課題に対処するため、パラダイム転換をもたらすアーキテクチャ設計を導入した。

この包括的な技術比較では、各技術のアーキテクチャ、性能指標、および理想的な導入シナリオを検証し、現代の物体検出エコシステムの複雑さを理解する手助けをします。

モデルの起源と建築的革新

これらのモデルの系譜と理論的基盤を理解することは、特定のコンピュータビジョンプロジェクトに適したアーキテクチャを選択する上で極めて重要です。

YOLOv9:情報の流れをマスターする

2024年2月21日に発表されたYOLOv9 、データが深層ニューラルネットワークを通過する際に生じる情報損失という理論的問題YOLOv9 。

YOLOv9 、CSPNetとELANの強みを組み合わせることでパラメータ利用率を最大化する汎用効率層集約ネットワーク(GELAN)YOLOv9 。さらに、深層が重要な空間情報を保持することを保証する補助的監督メカニズムであるプログラマブル勾配情報(PGI)を採用している。これにより、YOLOv9 医療画像解析や遠距離監視など、高い特徴忠実度が求められるタスクにおいてYOLOv9 強力な性能を発揮する。

YOLOv9について詳しくはこちら

YOLOv10: リアルタイムエンドツーエンド効率

2024年5月23日に間もなくリリースYOLOv10 、物体検出における最も悪名高い遅延ボトルネックの一つである非最大抑制(NMS)を排除することで、デプロイメントパイプラインをYOLOv10 。

YOLOv10 学習時に一貫した二重アサインメント YOLOv10 、ネイティブにNMS設計を実現する。これにより推論時の後処理オーバーヘッドが排除され、レイテンシが大幅に低減される。効率性と精度を両立させる包括的なモデル設計と相まって、YOLOv10 計算オーバーヘッド(FLOPs)を削減しつつ競争力のある精度を維持する卓越したバランスYOLOv10 、エッジコンピューティングアプリケーションにおいて極めて魅力的な選択肢となっている。

YOLOv10について詳しくはこちら

パフォーマンスとメトリクスの比較

標準的なMSCOCO でこれら2つの高性能モデルを比較評価すると、純粋な精度と推論遅延の間には明確なトレードオフが生じる。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

データの分析

  1. レイテンシー対精度: YOLOv10 概して優れた推論速度を提供する例えば、TensorRT上でYOLOv10sはわずか2.mAP 46.mAP を達成する一方、ほぼ同等の46.8%mAPを得るのにYOLOv9sは3.54msを要する。
  2. 最高水準の精度:最大検出精度が求められる研究シナリオにおいて、YOLOv9eは依然として強力な選択肢であり、55.6%という驚異的なmAPを達成します。そのPGIアーキテクチャにより、微細な特徴も確実に抽出されます。
  3. 効率性: YOLOv10 はFLOPs効率にYOLOv10 。これは電力消費の低減に直結し、ビジョンAIモデルを実行する電池駆動デバイスにとって重要な指標となります。

デプロイのヒント

CPUやラズベリーパイのようなリソース制約のあるエッジハードウェアに展開する場合、YOLOv10 NMSアーキテクチャNMS、非決定的な後処理ステップを排除することで、通常よりスムーズなパイプラインを実現します。

Ultralytics :トレーニングとエコシステム

アーキテクチャの違いは重要ではあるものの、プロジェクトの成功は周囲のソフトウェアエコシステムに大きく左右される。YOLOv9 YOLOv10 はいずれもUltralytics に完全にYOLOv10 、比類のない開発者体験を提供する。

使いやすさとメモリ効率

複雑なトランスフォーマーベースのアーキテクチャが膨大なメモリ消費に悩まされるのとは異なり、Ultralytics YOLO GPU 使用量を最適化するように設計されています。これにより研究者は一般向けハードウェアでより大きなバッチサイズを利用でき、最先端のAIを身近に活用できるようになります。

統一されたPython 、データ拡張ハイパーパラメータ調整の複雑さを抽象化します。重みファイルの文字列を変更するだけで、アーキテクチャをシームレスに切り替えることができます。

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

MLflowへのメトリクス記録や TensorRT への高速ハードウェア展開のためのエクスポートなど、Ultralytics はこれらをネイティブに処理します。

理想的なユースケース

これらのモデル間の選択は、導入上の制約によって異なります:

  • YOLOv9 を選択YOLOv9 : 小型物体検出タスク(航空ドローン画像や小型腫瘍の検出など)に取り組んでいる場合。GELANアーキテクチャの特徴量保持能力が最高の精度を提供するからです。
  • YOLOv10 を選択してください:主な目的がエッジデバイスでのリアルタイム推論である YOLOv10 。 NMS設計により、自律ロボット、リアルタイム交通監視、スマート監視に最適です。

将来を見据えた対策:YOLO26への移行

YOLOv8、YOLOv9、YOLOv10 優れたモデルYOLOv10 、現代的なAIソリューションを構築しようとする開発者は Ultralytics を検討すべきです。

YOLO26は、YOLOv9精度とYOLOv10効率性という各世代の優れた側面を統合し、これまでの世代の究極の統合体である。

YOLO26の主要なイノベーション

  • エンドツーエンドNMS設計: YOLOv10が築いた基盤を基に、YOLO26はNMS ネイティブに排除し、よりシンプルなデプロイを実現します。
  • MuSGDオプティマイザー: SGD ミSGD オンのハイブリッド手法。高度なLLMトレーニング技術革新をコンピュータビジョンにもたらし、驚異的な安定性と高速収束を実現。
  • 最大43%CPU :エッジコンピューティングおよび専用GPUを搭載しないデバイス向けに特別に最適化されています。
  • DFL除去: モデルエクスポートの簡素化と低電力デバイス互換性の向上のため、分布焦点損失(DFL)を除去しました。
  • ProgLoss + STAL:これらの改良された損失関数は、小規模物体認識において顕著な改善をもたらし、YOLOv9性能に匹敵あるいは凌駕する。

レガシーアーキテクチャを評価する研究者向けに、 RT-DETR および YOLO11Ultralytics 内で十分に文書化された代替手段です。ただし、あらゆるビジョンタスクにおいて最大限の汎用性を実現するには、Ultralytics 上でYOLO26に移行することで、オープンソースビジョンAIの頂点を活用できることを保証します。


コメント