YOLOv9 YOLOv10:リアルタイム物体検出の進化に関する技術的深掘り
リアルタイムコンピュータビジョンの分野では、研究者たちが性能と効率の限界を絶えず押し広げていることに大きく後押しされ、驚異的な進歩が見られている。最先端のビジョンモデルの進化を分析する際に、 YOLOv9 と YOLOv10 は二つの重要なマイルストーンを象徴する。2024年初頭に発表された両モデルは、情報ボトルネックから後処理遅延に至る深層ニューラルネットワークの長期課題に対処するため、パラダイム転換をもたらすアーキテクチャ設計を導入した。
この包括的な技術比較では、各技術のアーキテクチャ、性能指標、および理想的な導入シナリオを検証し、現代の物体検出エコシステムの複雑さを理解する手助けをします。
モデルの起源と建築的革新
これらのモデルの系譜と理論的基盤を理解することは、特定のコンピュータビジョンプロジェクトに適したアーキテクチャを選択する上で極めて重要です。
YOLOv9:情報の流れをマスターする
2024年2月21日に発表されたYOLOv9 、データが深層ニューラルネットワークを通過する際に生じる情報損失という理論的問題YOLOv9 。
- 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
- 組織:台湾中央研究院情報科学研究所
- 参照:YOLOv9 arXiv論文
- Repository:YOLOv9 GitHub
YOLOv9 、CSPNetとELANの強みを組み合わせることでパラメータ利用率を最大化する汎用効率層集約ネットワーク(GELAN)YOLOv9 。さらに、深層が重要な空間情報を保持することを保証する補助的監督メカニズムであるプログラマブル勾配情報(PGI)を採用している。これにより、YOLOv9 医療画像解析や遠距離監視など、高い特徴忠実度が求められるタスクにおいてYOLOv9 強力な性能を発揮する。
YOLOv10: リアルタイムエンドツーエンド効率
2024年5月23日に間もなくリリースYOLOv10 、物体検出における最も悪名高い遅延ボトルネックの一つである非最大抑制(NMS)を排除することで、デプロイメントパイプラインをYOLOv10 。
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織:清華大学
- 参照:YOLOv10 arXiv論文
- リポジトリ:YOLOv10
YOLOv10 学習時に一貫した二重アサインメント YOLOv10 、ネイティブにNMS設計を実現する。これにより推論時の後処理オーバーヘッドが排除され、レイテンシが大幅に低減される。効率性と精度を両立させる包括的なモデル設計と相まって、YOLOv10 計算オーバーヘッド(FLOPs)を削減しつつ競争力のある精度を維持する卓越したバランスYOLOv10 、エッジコンピューティングアプリケーションにおいて極めて魅力的な選択肢となっている。
パフォーマンスとメトリクスの比較
標準的なMSCOCO でこれら2つの高性能モデルを比較評価すると、純粋な精度と推論遅延の間には明確なトレードオフが生じる。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
データの分析
- レイテンシー対精度: YOLOv10モデルは一般的に優れた推論速度を提供します。例えば、YOLOv10sはTensorRT上でわずか2.66msで46.7%のmAPを達成しますが、YOLOv9sはほぼ同じ46.8%のmAPを得るために3.54msを必要とします。
- 最高レベルの精度: 最大限のdetection精度が求められる研究シナリオにおいて、YOLOv9eは依然として強力な選択肢であり、驚異的な55.6%のmAPを達成します。そのPGIアーキテクチャは、微細な特徴が確実に抽出されることを保証します。
- 効率性: YOLOv10はFLOPs効率に優れています。これは直接的に消費電力の低減につながり、ビジョンAIモデルを実行するバッテリー駆動デバイスにとって重要な指標となります。
デプロイのヒント
CPUやラズベリーパイのようなリソース制約のあるエッジハードウェアに展開する場合、YOLOv10 NMSアーキテクチャNMS、非決定的な後処理ステップを排除することで、通常よりスムーズなパイプラインを実現します。
Ultralytics :トレーニングとエコシステム
アーキテクチャの違いは重要ではあるものの、プロジェクトの成功は周囲のソフトウェアエコシステムに大きく左右される。YOLOv9 YOLOv10 はいずれもUltralytics に完全にYOLOv10 、比類のない開発者体験を提供する。
使いやすさとメモリ効率
複雑なトランスフォーマーベースのアーキテクチャが膨大なメモリ消費に悩まされるのとは異なり、Ultralytics YOLO GPU 使用量を最適化するように設計されています。これにより研究者は一般向けハードウェアでより大きなバッチサイズを利用でき、最先端のAIを身近に活用できるようになります。
統一されたPython 、データ拡張とハイパーパラメータ調整の複雑さを抽象化します。重みファイルの文字列を変更するだけで、アーキテクチャをシームレスに切り替えることができます。
from ultralytics import YOLO
# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Validate the model's performance
metrics = model.val()
# Export the trained model to ONNX format for deployment
model.export(format="onnx")
MLflowへのメトリクス記録や TensorRT への高速ハードウェア展開のためのエクスポートなど、Ultralytics はこれらをネイティブに処理します。
理想的なユースケース
これらのモデルの選択は、デプロイ制約に依存します。
- YOLOv9を選択してください。航空ドローン画像や小さな腫瘍のdetectなど、GELANアーキテクチャの機能保持が最高の忠実度を提供する小さなオブジェクトdetectタスクに取り組んでいる場合に最適です。
- YOLOv10を選択してください。主要なターゲットがエッジデバイスでのリアルタイム推論である場合に最適です。NMS-free設計は、自律ロボット工学、リアルタイム交通監視、およびスマート監視に最適です。
将来を見据えた対策:YOLO26への移行
YOLOv8、YOLOv9、YOLOv10 優れたモデルYOLOv10 、現代的なAIソリューションを構築しようとする開発者は Ultralytics を検討すべきです。
YOLO26は、YOLOv9精度とYOLOv10効率性という各世代の優れた側面を統合し、これまでの世代の究極の統合体である。
YOLO26の主要なイノベーション
- エンドツーエンドのNMSフリー設計: YOLOv10で築かれた基盤に基づいて、YOLO26はよりシンプルなデプロイのためにNMS後処理をネイティブに排除します。
- MuSGDオプティマイザ: SGDとMuonのハイブリッドであり、高度なLLMトレーニングの革新をコンピュータービジョンにもたらし、驚くほど安定した高速な収束を実現します。
- 最大43%高速なCPU推論: エッジコンピューティングおよび専用GPUを持たないデバイス向けに特化して最適化されています。
- DFLの削除: Distribution Focal Lossが削除されたことで、モデルのエクスポートが簡素化され、低電力デバイスとの互換性が向上します。
- ProgLoss + STAL: これらの改良された損失関数は、小さなオブジェクトの認識において著しい改善をもたらし、YOLOv9の機能に匹敵するか、それを上回ります。
レガシーアーキテクチャを評価している研究者にとって、RT-DETRとYOLO11もUltralyticsエコシステム内で十分に文書化された代替手段です。しかし、すべてのビジョンタスクで最大の汎用性を得るには、Ultralytics Platform上のYOLO26に移行することで、オープンソースビジョンAIの頂点を活用できます。