YOLO26 vs. YOLOv9: 次世代のリアルタイムビジョンAIを解き放つ
コンピュータービジョンの分野が加速するにつれて、開発者や研究者は、速度、精度、展開の容易さの完璧なバランスを提供するモデルを常に求めています。この技術分析では、Ultralyticsの最新の統合モデルファミリーであるYOLO26と、プログラマブル勾配情報に焦点を当てたコミュニティ主導のモデルであるYOLOv9を比較します。両者のアーキテクチャ、性能指標、理想的なユースケースを検証することで、お客様の機械学習プロジェクトに最適なソリューションへと導くことを目指します。
概要
両モデルとも物体検出の限界を押し広げていますが、YOLO26は、本番環境への対応とエコシステム統合において大きな飛躍を遂げています。ネイティブなエンドツーエンド(NMSフリー)アーキテクチャを導入することで、デプロイメントパイプラインを大幅に簡素化し、エッジデバイス向けに最大43%高速なCPU推論を実現するように特別に最適化されています。2024年初頭にリリースされたYOLOv9は、トレーニングの安定性を向上させるためにProgrammable Gradient Information (PGI)のような新しい概念を導入しましたが、NMSを必要とするより伝統的なアンカーベースのdetectorのままです。
詳細なモデル分析
Ultralytics YOLO26
著者: Glenn Jocher and Jing Qiu
組織:Ultralytics
日付: 2026-01-14
リンク:GitHub | Docs
YOLO26は単なるモデルとしてだけでなく、完全なエコシステムソリューションとして設計されています。従来のアンカーとNon-Maximum Suppression (NMS)を廃止し、合理化されたエンドツーエンドアーキテクチャを採用しています。この設計選択により、後処理ステップに隠されがちなレイテンシが排除され、自動運転車やロボティクスのようなリアルタイムアプリケーションに最適です。
主要なアーキテクチャ革新には、Distribution Focal Loss (DFL)の削除が含まれており、これによりTensorRTやCoreMLなどの形式へのエクスポートが簡素化されます。トレーニングの安定性は、SGDとMuon(Moonshot AIのKimi K2に触発された)のハイブリッドであるMuSGD Optimizerによって強化されており、大規模言語モデルのトレーニング革新をビジョン領域にもたらします。さらに、ProgLossとSTAL(Soft-Target Anchor Loss)の導入により、小物体のdetectにおいて大幅な改善がもたらされ、航空画像やIoTデバイスにとって重要な機能となっています。
YOLOv9
著者: Chien-Yao Wang および Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2024-02-21
リンク:Arxiv | GitHub | Docs
YOLOv9は深層学習理論に焦点を当て、特に深層ネットワークにおける「情報ボトルネック」問題に対処しています。その中核的な貢献は、深層レイヤーを通過する際の入力データ情報の保持を助けるProgrammable Gradient Information (PGI)と、Generalized Efficient Layer Aggregation Network (GELAN)です。これらの機能により、YOLOv9は優れたパラメータ効率を達成しています。しかし、従来のアンカーベースモデルであるため、最終的な予測には依然としてNMSに依存しており、エンドツーエンドのソリューションと比較して、制約のあるハードウェアでのデプロイメントを複雑にする可能性があります。
性能指標の比較
以下の表は、COCO検証データセットにおける性能差を示しています。YOLO26は、特にCPU速度において優れた効率性を示しつつ、競争力のある、あるいはそれ以上の精度を維持しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
主要な技術的相違点
1. アーキテクチャと推論フロー
YOLO26のNMS-free設計は、パラダイムシフトをもたらします。モデルを1対1の予測をネイティブに生成するように学習させることで、推論パイプラインは単純な順方向パスになります。これにより、FPGAやNPUのようなエッジAIデバイスで最適化が困難なヒューリスティックなNMSステップが不要になります。対照的に、YOLOv9は従来の予測後に抑制する手法に依存しており、IoUしきい値の慎重な調整が必要であり、推論中に計算オーバーヘッドが増加します。
2. トレーニングの安定性と収束
YOLO26のMuSGD Optimizerは、トレーニングダイナミクスに対する現代的なアプローチを象徴しています。SGDとMuonをハイブリッド化することで、YOLO26は以前の世代よりも速く安定した収束を達成します。これは、ハイパーパラメータチューニングがリソースを大量に消費する可能性のあるカスタムデータセットでのトレーニングにおいて特に有益です。YOLOv9はPGIを使用して教師あり学習を支援しており、これは理論的には堅牢ですが、逆伝播フェーズ中のトレーニンググラフの複雑さとメモリ使用量を増加させる可能性があります。
3. エッジおよびCPU最適化
YOLO26の際立った特徴の一つは、最大43%高速なCPU推論です。これは、Raspberry Piや基本的なクラウドインスタンスなど、強力なGPUを持たないデバイス向けにアーキテクチャを特別に最適化することで達成されました。DFL (Distribution Focal Loss) の削除により、各検出ヘッドに必要な数学的演算もさらに削減されます。YOLOv9はGELANを介してパラメータ効率が高いものの、これらの特定のCPU中心の最適化を特徴としていないため、エッジデバイスへのデプロイメントにおいてはYOLO26が明確な勝者となります。
Ultralyticsによる合理化されたエクスポート
YOLO26モデルは、ONNX、TensorRT、OpenVINOなどの形式に単一のコマンドでエクスポートでき、NMS-free構造が自動的に処理され、シームレスな統合が可能です。
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.export(format="onnx") # Exports directly without NMS plugins
エコシステムと使いやすさ
The Ultralyticsエコシステム は重要な差別化要因です。YOLO26は ultralytics Pythonパッケージに完全に統合されており、トレーニング、検証、デプロイメントのための標準化されたAPIを提供します。
- シンプルさ: 開発者は、次のようなタスクを切り替えることができます。 姿勢推定 または 指向物体検出 (obb) モデルの重みファイル(例:
yolo26n-pose.ptまたはyolo26n-obb.pt)。YOLOv9は主に物体検出モデルであり、これらの特殊なタスクに対するネイティブサポートは限定的です。 - サポート: Ultralyticsは、広範なドキュメント、活発なコミュニティフォーラム、およびエンタープライズサポートオプションを提供しています。これにより、開発者が実装の詳細で立ち往生することがなくなります。
- 汎用性: 検出を超えて、YOLO26はPose用のResidual Log-Likelihood Estimation (RLE)やobb用の特殊な角度損失など、タスク固有の改善を提供し、多様なアプリケーションで高い精度を保証します。
ユースケースの推奨事項
YOLO26を選択する場合:
- クラス最速のCPU推論が必要な場合、またはエッジデバイス (Raspberry Pi、Jetson Nano、モバイル) にデプロイする場合。
- パイプラインがNMS-free出力の恩恵を受け、後処理ロジックが簡素化される場合。
- 単一の統合フレームワーク内でsegmentation、姿勢推定、または分類のサポートが必要な場合。
- データセット分析のためのUltralytics Explorerのようなツールを備えた、十分に文書化された活発なエコシステムを優先する場合。
- ProgLoss + STALが明確な優位性をもたらす、小規模オブジェクト検出に取り組んでいる場合。
YOLOv9を選ぶべき場合:
- プログラマブル勾配情報または補助監督手法に特化した学術研究を行っている場合。
- レガシーインフラストラクチャが、移行が困難なアンカーベースの事後処理パイプラインと密接に結合している場合。
結論
YOLOv9は2024年に重要な理論的進歩をもたらしましたが、YOLO26はこれらの概念を洗練し、2026年以降に向けた強力で本番環境に対応したツールとして提供します。エンドツーエンド設計、顕著なCPU高速化、および複数のビジョンタスクに対する堅牢なサポートにより、YOLO26は実世界のAIアプリケーション向けに、より汎用性が高く将来性のあるソリューションを提供します。スマートシティインフラの構築、農業監視システム、または高度なロボティクスなど、YOLO26は成功に必要な性能と信頼性を提供します。
これまでの最先端モデルに関心のある方のために、YOLO11とYOLOv8のドキュメントでは、YOLOファミリーの進化に関する追加情報を提供しています。