コンテンツにスキップ

YOLOv9 . YOLO26:リアルタイム物体検出の進化

急速に進歩するコンピュータビジョン分野において、適切なモデルアーキテクチャの選択は、性能、効率性、導入の容易さのバランスを取る上で極めて重要です。本比較では、 YOLOv9(2024年初頭に登場した強力なモデル)と、Ultralytics 2026年1月にUltralytics 最新鋭のYOLO26との技術的差異を比較検討する。両モデルともYOLO 重要なマイルストーンではあるが、速度、学習の安定性、展開の複雑性といった点で異なるニーズに対応している。

モデル概要と作成者

これらのアーキテクチャの系譜を理解することは、その設計思想の背景を明らかにする。

YOLOv9: プログラマブル勾配情報

著者:王建耀, 廖宏源
所属機関:中央研究院 情報科学研究所
日付:2024-02-21
リンク:Arxiv論文|GitHubリポジトリ

YOLOv9 はプログラマブル勾配情報(PGI) と汎用効率的層集約ネットワーク(GELAN)のYOLOv9 。これらの革新は、データが層を伝播する過程で情報が失われる深層ニューラルネットワークにおける「情報ボトルネック」問題に対処した。PGIは深層ネットワーク全体で重要な特徴情報が保持されることを保証し、特に複雑なシーンにおいて高精度な検出を可能にする。

YOLO26: エッジコンピューティングのエンドツーエンド専門家

著者:Glenn Jocher, Jing Qiu
組織:Ultralytics
日付:2026-01-14
リンク:公式ドキュメント|GitHubリポジトリ

YOLOv8の遺産を継承し YOLOv8YOLO11の遺産を継承しつつ、YOLO26は簡素化と高速デプロイメントへの転換を体現しています。 ネイティブでエンドツーエンドNMSを採用し、非最大抑制(NMS)後処理を不要としています。この設計選択と分布焦点損失(DFL)の削除により、YOLO26CPU エッジデバイス上で非常に高速に動作します。さらに、安定的な収束を確保するため、LLMトレーニングに着想を得たSGD ミューオン(Muon)のハイブリッドであるMuSGDオプティマイザの使用を先駆けて導入しています。

YOLO26についてさらに詳しく

パフォーマンスとメトリクスの比較

以下の表は、COCO 標準モデルの性能を比較したものです。YOLO26がCPU 顕著な速度優位性を示す点に注目してください。これはそのアーキテクチャ最適化の結果です。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

パフォーマンス分析

YOLO26 レイテンシと演算効率において明らかな優位性を示している。例えば、YOLO26nはYOLOv9t(38.3%)mAP 40.9%)を達成しつつ、大幅に少ないFLOPs(54億対77億)で動作する。この効率性は、バッテリー駆動のエッジデバイス上で動作するアプリケーションにとって極めて重要である。

アーキテクチャの詳細

YOLOv9

YOLOv9 情報の流れを保持することにYOLOv9 。そのGELANバックボーンは、CSPNet(勾配経路計画)とELAN(推論速度)の強みを組み合わせ、軽量でありながら強力な特徴抽出器を実現している。PGI補助ブランチは、トレーニング中に深層へ信頼性の高い勾配情報を提供し、推論時にはこれを除去することでモデルの軽量性を維持する。

  • 長所:困難なベンチマークにおいて卓越した精度を発揮;複雑なシーンにおける優れた情報保持能力。
  • 短所: NMS が必要;非標準タスクへのアーキテクチャ変更が複雑になり得る;同等のスループットを得るための計算負荷が新世代に比べて重い。

YOLO26アーキテクチャ

YOLO26は推論速度とデプロイの簡便性を優先する。

  1. NMS:モデルが1対1のマッチングをネイティブに予測するよう訓練することで、YOLO26は経験則NMS を排除します。これによりレイテンシ変動が低減され、効率的なNMS 依存関係から外れるTensorRT 簡素化されます。
  2. MuSGDオプティマイザー:Moonshot AIのKimi K2に着想を得たこのオプティマイザーは、SGD ミューオンオプティマイザーの適応特性を融合させます。これにより、大規模言語モデル(LLM)のトレーニング安定性がコンピュータビジョンにもたらされます。
  3. ProgLoss + STAL:プログレッシブ損失(Progressive Loss)とソフトターゲット割当損失(STAL)の導入により、アンカーフリー検出器における一般的な弱点である小物体検出が大幅に強化される。

トレーニングとエコシステム

両モデルにおける開発者体験は、主にそれぞれのソフトウェアエコシステムの違いにより、大きく異なる。

Ultralyticsによる使いやすさ

YOLOv9 Ultralytics にYOLOv9 、YOLO26はネイティブ対応です。これにより、初日から以下の全機能がサポートされます:

  • 統合API: タスクを切り替える 姿勢推定 または 傾斜バウンディングボックス(OBB) モデル重みファイルを変更するだけで(例: yolo26n-pose.pt)。
  • Ultralytics : Ultralytics を使用して、データセットをシームレスにアップロードし、AIアシスタントで注釈を付け、クラウドでトレーニングできます。
  • エクスポート柔軟性:ワンクリックでのフォーマットエクスポートをネイティブサポート CoreML 、Android TFLite 、Intel OpenVINO などへのiOSをネイティブでサポート。
from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for simplified deployment (no NMS plugin needed)
path = model.export(format="onnx")

メモリとリソース効率

YOLO26は、YOLOv9デュアルブランチアーキテクチャ(PGI)と比較して、トレーニング中にGPU 通常少ない。これにより、NVIDIA 3060や4090などのコンシューマー向けハードウェア上でより大きなバッチサイズを使用できるようになり、実験サイクルを加速できる。

実際のユースケース

YOLOv9を選択すべき時

YOLOv9 、静的ベンチマークにおける最高精度が唯一の優先事項であり、計算リソースが豊富なシナリオにおいて、YOLOv9 有力な選択肢YOLOv9 。

  • 学術研究:CNNにおける情報ボトルネック理論と勾配フローの研究。
  • サーバーサイド処理:リアルタイムの遅延がそれほど重要ではないアーカイブされた映像データを分析する高性能GPU 。

YOLO26を選択すべき時

YOLO26は、実稼働環境およびエッジコンピューティングにおける推奨選択肢です。

  • 組み込みシステム:最大43%高速なCPU により、ロボット工学分野におけるRaspberry PiやNVIDIA 導入に最適です。
  • リアルタイム分析: NMS設計により、自律走行や安全システムに不可欠な確定的な遅延が保証されます。
  • マルチモーダルアプリケーション: インスタンスセグメンテーションと姿勢推定をネイティブにサポートし、小売やスポーツにおける人間の行動分析など、複雑なパイプラインの汎用的な基盤として機能します。

結論

YOLOv9 PGIで画期的な理論概念YOLOv9 一方で、YOLO26はこれらの知見を実用的な高性能パッケージへと洗練させました。そのエンドツーエンドアーキテクチャ、後処理ボトルネックの解消、そして堅牢なUltralytics との統合により、次世代AIアプリケーションを開発する開発者にとって最適な選択肢となっています。

その他のモデルを見る

他の選択肢を探してみたい場合は、ぜひ YOLO11(YOLO26の前身)や YOLOv10(NMS手法の先駆け)もご検討ください。


コメント