コンテンツにスキップ

YOLOv10 .YOLOv9:リアルタイム物体検出の進化

2024年は物体検出技術において急速な革新が進んだ年であり、二つの重要なアーキテクチャが発表された: YOLOv10YOLOv9。両モデルとも速度と精度の限界を押し広げることを目指しているが、これを実現するアーキテクチャの哲学は根本的に異なっている。

YOLOv10 NMSにより後処理による推論遅延の解消にYOLOv10 、YOLOv9 プログラマブル勾配情報(PGI)を用いた深層ネットワークにおける情報保持YOLOv9 。

パフォーマンス比較

以下の表は、これらのモデルが標準的なベンチマークにおいてどのように比較されるかを詳細に示しています。データは、パラメータ効率、推論速度、検出精度(mAP)の間のトレードオフを浮き彫りにしています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

YOLOv10: エンドツーエンドのパイオニア

YOLOv10清華大学の研究者らが開発したYOLOv10は、エンドツーエンド処理への移行を示すものである。2024年5月23日に王暁、陳輝らによって発表された本モデルは、非最大抑制(NMS)のボトルネックに対処する。

YOLOv10について詳しくはこちら

主要なアーキテクチャ機能

  • NMSトレーニング:一貫した二重割り当てを採用することで、YOLOv10 NMS YOLOv10 。これにより、特にエッジコンピューティングアプリケーションにおいて、レイテンシが低減され、デプロイメントパイプラインが簡素化されます。
  • ホリスティック効率設計:アーキテクチャは、高い性能を維持しつつ計算オーバーヘッド(FLOPs)を削減するため、様々なコンポーネントを最適化する。
  • 改善されたレイテンシ:表に示す通り、YOLOv10 、同等の精度レベルにおいて、YOLOv9 と比較して一般的に低い推論時間を提供します。

技術的な詳細については、YOLOv10 論文を参照してください。

YOLOv9:情報の流れをマスターする

YOLOv9は、2024年2月21日に 中央研究院の王建耀(Chien-Yao Wang)と廖宏源(Hong-Yuan Mark Liao)によって発表されたもので深層ニューラルネットワークにおける情報損失という理論的問題に焦点を当てている。

YOLOv9について詳しくはこちら

主要なアーキテクチャ機能

  • GELANアーキテクチャ: 汎用効率的層集約ネットワークは、CSPNetとELANの強みを組み合わせ、パラメータ利用率を最大化する。
  • プログラマブル勾配情報(PGI):この補助的な監視機構により、深層が正確な検出に必要な重要な情報を保持することが保証され、高精度を要するタスクにおいてモデルの高い有効性が実現される。
  • 高精度:YOLOv9eモデルは55.6%という優れたmAPvalを達成し、純粋な検出精度において多くの同時代のモデルを上回っています。

より深く知りたい場合は、YOLOv9 論文をお読みください。

トレーニングと使いやすさ

両Ultralytics 完全に統合されており、開発者に統一されたシームレスな体験を提供します。YOLOv10 を使用YOLOv10 YOLOv9 YOLOv10 、Ultralytics Python がトレーニングパイプライン、データ拡張、ロギングの複雑さを抽象化します。

コード例

カスタムデータセットやCOCO8 のような標準ベンチマーク上でモデルを訓練することは容易COCO8 。フレームワークがアーキテクチャの違いを自動的に処理する。

from ultralytics import YOLO

# Load a model (Choose YOLOv10 or YOLOv9)
model = YOLO("yolov10n.pt")  # or "yolov9c.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

メモリ効率

Ultralytics YOLO 、GPU 使用量を最適化するように設計されています。トランスフォーマーベースのアーキテクチャや従来の検出モデルと比較して、コンシューマー向けハードウェア上でより大きなバッチサイズを可能にし、最先端のAIをより広範なユーザー層に提供します。

理想的なユースケース

YOLOv10 YOLOv9 の選択は、YOLOv9 、デプロイ環境の具体的な制約によって決まります。

YOLOv10を選択すべき時

  • 低遅延制約:アプリケーションがミリ秒単位で動作が求められるモバイルデバイスや組込みシステム上で動作する場合、YOLOv10 のNMS設計は大きな利点YOLOv10 。
  • シンプルなデプロイメント:後処理ステップを排除することで、 ONNXTensorRTなどのフォーマットへのエクスポートを簡素化し、演算子の非互換性のリスクを低減します。
  • リアルタイム映像: 交通管理や高速製造ラインなど、スループットが重要な場面に最適です。

YOLOv9を選択すべき時

  • 最高精度:研究用途や精度が最優先されるシナリオ(例:医療画像解析)において、YOLOv9eのPGI強化アーキテクチャは優れた結果を提供します。
  • 小型物体検出:GELANの豊富な特徴量保存能力により、YOLOv9 航空写真における小型または遮蔽された物体の検出においてYOLOv9 頑健性を発揮する。
  • 複雑なシーン:視覚的雑多性が高い環境において、プログラム可能な勾配情報はモデルが関連する特徴をより効果的に識別するのに役立つ。

未来はここにある:YOLO26

YOLOv10 強力なYOLOv10 、コンピュータビジョン分野は急速に進化しています。Ultralytics 、前世代の優れた特徴を統合しつつ画期的な最適化を導入したモデル「YOLO26」を発表しました。

YOLO26についてさらに詳しく

YOLO26は新規プロジェクトに推奨される選択肢であり、速度、精度、汎用性の優れたバランスを提供します。

YOLO26にアップグレードする理由

  • エンドツーエンドNMS: YOLOv10と同様に、YOLO26はネイティブにエンドツーエンドです。NMS 排除し、より高速な推論と簡素化されたデプロイメントパイプラインを実現します。
  • MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニングにおける革新(特にMoonshot AIのKimi K2)に着想を得て、YOLO26はSGD ミューオンオプティマイザーのハイブリッドを採用しています。これにより、トレーニングの安定性が大幅に向上し、収束が高速化されます。
  • DFL除去:分布焦点損失を除去することで、YOLO26はモデルアーキテクチャを合理化し、エクスポートに適した設計と幅広いエッジ/低消費電力デバイスとの互換性を実現します。
  • パフォーマンス飛躍: CPU に特化した最適化により、前世代比最大43%高速化を実現。エッジAIの強力な基盤となる。
  • タスクの汎用性: v9およびv10の検出に重点を置いたリリースとは異なり、YOLO26では全タスク向けに特化した改善が盛り込まれています:
    • セグメンテーション:新しい意味的セグメンテーション損失とマルチスケールプロトタイプ
    • Pose:高精度キーポイントのための残差対数尤度推定(RLE)
    • OBB: 方向付き境界ボックス課題における境界問題に対処するための特殊な角度損失

Ultralytics による効率化されたワークフロー

Ultralytics (旧称HUB)を活用し、YOLO26モデルのライフサイクル全体を管理できます。データセットのラベリングからクラウド上でのトレーニング、エッジデバイスへのデプロイまで、プラットフォームは統一されたインターフェースを提供し、市場投入までの時間を短縮します。

結論

両方 YOLOv10YOLOv9 は物体検出の歴史における重要なマイルストーンである。YOLOv10 NMSアーキテクチャが最先端性能を達成できることをYOLOv10 、YOLOv9 深層ネットワークにおける勾配情報の流れの重要性をYOLOv9 。

しかし、最も堅牢で汎用性が高く将来性のあるソリューションを求める開発者にとって、YOLO26は最高の選択肢として際立っている。NMS設計と革新的なMuSGD最適化アルゴリズム、そして幅広いタスク対応を組み合わせることで、YOLO26は現代のコンピュータビジョンアプリケーションにおいて最高の性能バランスを提供する。

  • YOLO11 - YOLO26の堅牢な前身モデルであり、その安定性で知られる。
  • YOLOv8 - 産業分野で広く活用されている汎用性の高い定番モデル。
  • RT-DETR - 変圧器ベースのリアルタイム検出器。

コメント