Link to this sectionYOLOv9 vs YOLOv10: リアルタイム物体検出の進化に関する技術的深掘り#
リアルタイムコンピュータビジョンの分野では、研究者たちがパフォーマンスと効率の限界を絶えず押し広げることで、計り知れない進歩が遂げられてきました。最先端のビジョンモデルの進化を分析する際、YOLOv9とYOLOv10は2つの重要なマイルストーンとなります。2024年初頭にリリースされた両モデルは、情報のボトルネックから後処理のレイテンシまで、ディープニューラルネットワークにおける長年の課題に対処するためのパラダイムシフトとなるアーキテクチャ設計を導入しました。
この包括的な技術比較では、そのアーキテクチャ、パフォーマンスメトリクス、理想的な展開シナリオを探求し、現代の物体検出エコシステムの複雑さをナビゲートする手助けをします。
Link to this sectionモデルの起源とアーキテクチャのブレイクスルー#
これらのモデルの系譜と理論的基盤を理解することは、特定のコンピュータビジョンプロジェクトに適したアーキテクチャを選択するために不可欠です。
Link to this sectionYOLOv9: 情報フローの習得#
2024年2月21日に発表されたYOLOv9は、データがディープニューラルネットワークを通過する際の情報の損失という理論的問題に取り組んでいます。
- 著者: Chien-Yao Wang および Hong-Yuan Mark Liao
- 組織: 台湾 中央研究院 情報科学研究所
- リファレンス: YOLOv9 arXiv 論文
- リポジトリ: YOLOv9 GitHub
YOLOv9は、CSPNetとELANの利点を組み合わせることでパラメータの利用を最大化する**Generalized Efficient Layer Aggregation Network (GELAN)を導入しています。さらに、深層レイヤーが重要な空間情報を保持することを保証する補助的な監視メカニズムであるProgrammable Gradient Information (PGI)**を採用しています。これにより、YOLOv9は医療画像解析や遠隔監視など、高い特徴量の忠実度が求められるタスクにおいて非常に強力です。
Link to this sectionYOLOv10: リアルタイム・エンドツーエンドの効率性#
その直後の2024年5月23日にリリースされたYOLOv10は、物体検出における最も悪名高いレイテンシのボトルネックの1つであるNon-Maximum Suppression (NMS)を排除することで、デプロイメントパイプラインを再構築しました。
- 著者: Ao Wang, Hui Chen, Lihao Liu, 他
- 組織: 清華大学
- リファレンス: YOLOv10 arXiv 論文
- リポジトリ: YOLOv10 GitHub
YOLOv10はトレーニング中に一貫したデュアルアサインメントを利用し、ネイティブなNMSフリー設計を実現しています。これにより推論中の後処理オーバーヘッドが排除され、レイテンシが大幅に削減されます。包括的な効率と精度の追求を重視したモデル設計と組み合わさることで、YOLOv10は計算オーバーヘッド(FLOPs)を削減しながら競争力のある精度を維持する優れたバランスを達成しており、エッジコンピューティングアプリケーションにとって非常に魅力的です。
Link to this sectionパフォーマンスと指標の比較#
標準のMS COCOデータセットでこれら2つの強力なモデルをベンチマークすると、純粋な精度と推論レイテンシの間には明確なトレードオフが現れます。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Link to this sectionデータの分析#
- レイテンシ vs. 精度: YOLOv10モデルは、一般的に優れた推論速度を提供します。例えば、YOLOv10sはTensorRT上でわずか2.66msで46.7%のmAPを達成しますが、YOLOv9sはほぼ同等の46.8%のmAPを得るのに3.54msを要します。
- トップクラスの精度: 最大限の検出精度が求められる研究シナリオでは、55.6%のmAPに達するYOLOv9eが強力な選択肢であり続けます。そのPGIアーキテクチャにより、微細な特徴が確実に抽出されます。
- 効率性: YOLOv10はFLOPs効率に優れています。これは直接的に消費電力の削減につながり、ビジョンAIモデルを実行するバッテリー駆動のデバイスにとって重要な指標です。
CPUやRaspberry Piのようなリソースが制限されたエッジハードウェアに展開する場合、YOLOv10のNMSフリーアーキテクチャは、非決定論的な後処理ステップを排除することで、通常よりスムーズなパイプラインを提供します。
Link to this sectionUltralyticsの利点: トレーニングとエコシステム#
アーキテクチャの違いは極めて重要ですが、それを取り巻くソフトウェアエコシステムがプロジェクトの成功を大きく左右します。YOLOv9とYOLOv10は両方ともUltralyticsエコシステムに完全に統合されており、比類のない開発者体験を提供します。
Link to this section使いやすさとメモリ効率#
膨大なメモリ肥大化に苦しむ複雑なTransformerベースのアーキテクチャとは異なり、Ultralytics YOLOモデルは最適なGPUメモリ使用率を目指して設計されています。これにより、研究者は消費者向けハードウェアでより大きなバッチサイズを利用でき、最先端のAIを身近なものにしています。
The unified Python API abstracts away the complexities of data augmentation and hyperparameter tuning. You can seamlessly switch between architectures simply by altering the weight file string.
from ultralytics import YOLO
# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Validate the model's performance
metrics = model.val()
# Export the trained model to ONNX format for deployment
model.export(format="onnx")MLflowにメトリクスを記録したり、高速なハードウェア展開のためにTensorRTへエクスポートしたりする必要がある場合でも、Ultralyticsプラットフォームがネイティブに対応します。
Link to this section理想的なユースケース#
これらのモデルのどちらを選択するかは、展開時の制約に依存します。
- Choose YOLOv9 if: You are working on small object detection tasks, such as aerial drone imagery or detecting small tumors, where the GELAN architecture's feature retention provides the highest fidelity.
- YOLOv10を選択する場合: 主なターゲットがエッジデバイスでのリアルタイム推論である場合。NMSフリーの設計は、自律型ロボティクス、リアルタイム交通監視、スマート監視に最適です。
Link to this section将来への備え: YOLO26への移行#
YOLOv8、YOLOv9、YOLOv10は非常に優れたモデルですが、最新のAIソリューションの構築を目指す開発者は、2026年1月にリリースされた**Ultralytics YOLO26**を検討すべきです。
YOLO26は、YOLOv9の精度とYOLOv10の効率という両方の利点を融合させた、前世代の究極の統合形です。
Link to this sectionYOLO26の主な革新点#
- エンドツーエンドのNMSフリー設計: YOLOv10で築かれた基盤の上に構築されており、YOLO26は展開を簡素化するためにネイティブでNMS後処理を排除しています。
- MuSGDオプティマイザー: SGDとMuonのハイブリッドであり、先進的なLLMトレーニングのイノベーションをコンピュータビジョンにもたらし、驚くほど安定した高速な収束を実現します。
- 最大43%高速なCPU推論: 専用GPUを持たないエッジコンピューティングやデバイス向けに特別に最適化されています。
- DFLの削除: Distribution Focal Lossを削除することで、モデルエクスポートを簡素化し、低電力デバイスとの互換性を向上させました。
- ProgLoss + STAL: これらの改善された損失関数は、小物体認識において顕著な改善をもたらし、YOLOv9の能力に匹敵するか、それを上回ります。
レガシーアーキテクチャを評価中の研究者向けには、RT-DETRやYOLO11もUltralyticsエコシステム内で十分にドキュメント化された代替手段です。しかし、あらゆるビジョンタスクにおいて最大の汎用性を求めるなら、Ultralytics Platform上でYOLO26に移行することで、オープンソースのビジョンAIの頂点を活用することができます。