YOLOv9 vs. YOLO26:現代の物体検出に関する技術的深掘り
リアルタイム物体検出の領域は、ここ数年で劇的に進化しました。機械学習の実務者が多様なハードウェアにモデルをデプロイする際、適切なアーキテクチャを選択することは非常に重要です。本稿では、コンピュータビジョンの分野における2つの主要なマイルストーンを比較します。1つは勾配パスの最適化に焦点を当てて2024年初頭に発表されたYOLOv9であり、もう1つは2026年初頭にリリースされた最先端フレームワークである**Ultralytics YOLO26**です。YOLO26は、エッジ推論とトレーニングの安定性を完全に再定義しました。
エグゼクティブサマリー:モデルの系譜と開発背景
これらのディープラーニングモデルの起源を理解することは、アーキテクチャ設計上の選択やターゲットオーディエンスを知る上で有益な背景情報となります。
YOLOv9
YOLOv9は、台湾の中央研究院情報科学研究所のChien-Yao Wang氏とHong-Yuan Mark Liao氏によって執筆され、2024年2月21日にリリースされました。このモデルは、深層畳み込みニューラルネットワーク(CNN)における情報ボトルネック問題の解決に特化するなど、ディープラーニングの理論的概念を深く追求しています。
Ultralytics YOLO26
YOLO26は、UltralyticsのGlenn Jocher氏とJing Qiu氏によって執筆され、2026年1月14日にリリースされました。YOLO11やYOLOv8といった先行モデルの圧倒的な成功を基盤とし、プロダクション環境への対応、エッジデプロイメント、そしてネイティブなエンドツーエンドの効率性を最優先に設計されています。
コンピュータビジョンのパイプラインをアップグレードする準備はできていますか?Ultralytics Platformを使用すれば、コードを一切記述することなく、クラウド上で簡単にYOLO26モデルを学習・デプロイできます。
アーキテクチャの革新
両モデルともニューラルネットワークが視覚データを処理する方法に画期的な変更をもたらしていますが、アプローチはそれぞれ異なります。
YOLOv9におけるプログラム可能な勾配情報(PGI)
YOLOv9の分野における主な貢献は、**プログラム可能な勾配情報(PGI)および汎用効率的レイヤー集約ネットワーク(GELAN)**の導入です。ニューラルネットワークは深くなるにつれ、フィードフォワードの過程で情報損失が生じやすくなります。PGIは、誤差逆伝播法において重みを更新する際に使用される勾配を正確かつ確実に保つことで、GELANアーキテクチャがより少ないパラメータで高い精度を達成できるようにします。
しかし、YOLOv9はポストプロセスとして伝統的な非最大値抑制(NMS)に大きく依存しており、これがリアルタイム推論時のレイテンシのボトルネックとなる可能性があります。
YOLO26のエッジファーストなアーキテクチャ
YOLO26は、学習からリアルタイムデプロイメントまでの全パイプラインを最適化するという、全く異なるアプローチをとっています。YOLOv10で初めて導入されたエンドツーエンドのNMSフリー設計を基盤としており、NMSによるポストプロセスを完全に排除しています。これにより極めて低いレイテンシを実現し、Raspberry PiやNVIDIA Jetsonのようなエッジデバイスに最適化されています。
さらに、YOLO26はDistribution Focal Loss(DFL)を完全に削除しました。この構造的な変更により、ONNXへのモデルエクスポートが簡素化され、低消費電力のマイクロコントローラーとの互換性が大幅に向上しました。
学習フェーズにおいて、YOLO26は新しいMuSGD Optimizerを統合しています。これは確率的勾配降下法(SGD)とMuon(Moonshot AIのKimi K2で使用された大規模言語モデルの学習手法に触発されたもの)を組み合わせたハイブリッド手法です。これにより、大規模言語モデル(LLM)の学習技術とコンピュータビジョンの間のギャップを埋め、学習の安定性と収束速度が劇的に向上しました。
パフォーマンスとメトリクスの比較
広く利用されているCOCOデータセットを用いたベンチマークにおいて、両モデルとも卓越した能力を示しますが、実用的な推論速度とパラメータ効率においてはUltralyticsのエコシステムに軍配が上がります。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
結果の分析
- 速度と効率: YOLO26はNMSフリーのアーキテクチャと簡略化された損失関数を採用しているため、従来のアーキテクチャと比較してCPU推論が最大43%高速化されています。YOLO26nモデルは、TensorRTを使用してNVIDIA T4 GPU上で1.7msという圧倒的な速度で実行でき、リアルタイムビデオストリームにとって究極の選択肢となります。
- 精度: YOLO26xモデルは、これまでと一線を画す57.5 mAPを達成しており、より大きなYOLOv9eモデルを上回りつつ、低いレイテンシを維持しています。
- Memory Requirements: Ultralytics models are known for their efficiency. YOLO26 requires significantly less CUDA memory during model training and inference compared to complex transformer-based vision models, allowing developers to utilize larger batch sizes on consumer-grade hardware.
エコシステム、使いやすさ、汎用性
Ultralyticsエコシステムの真の強みは、ユーザーエクスペリエンスにあります。YOLOv9のGitHubコードベースを利用する研究者は複雑な環境構築や手動でのスクリプト操作が必要ですが、YOLO26は直感的なUltralytics Python APIに完全に統合されています。
合理化されたAPIの例
最先端のYOLO26モデルを学習させるために必要なPythonコードはわずか数行です:
from ultralytics import YOLO
# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export natively to ONNX format in a single command
model.export(format="onnx")比類なきタスク汎用性
主に標準的な物体検出向けに調整されたYOLOv9とは異なり、YOLO26は幅広いコンピュータビジョンタスクをネイティブにサポートしています。本アーキテクチャには、多様なアプリケーションに対応するための特定の機能強化が含まれています:
- インスタンスセグメンテーション: 特殊なセマンティックセグメンテーション損失とマルチスケールプロトを搭載し、ピクセル単位で完璧なマスクを生成します。
- 姿勢推定: 残差対数尤度推定(RLE)を統合し、スケルトンのキーポイントを高精度で追跡します。
- 指向性境界ボックス(OBB): 航空画像における回転物体検出の境界問題を解決するために特別に設計された、角度損失関数を含んでいます。
- 画像分類: ImageNet規格に基づく、画像全体の堅牢なカテゴリ分類を行います。
すべてのYOLO26モデルはUltralytics Platformとのシームレスな統合の恩恵を受けており、組み込みのデータセットラベリング、アクティブラーニング、即時のデプロイメントパイプラインを提供します。
実世界の応用例
これらのモデルの選択は、多くの場合、デプロイされる環境によって決まります。
IoTおよびエッジロボティクス
ロボティクス、自律型ドローン、スマートホームIoTデバイスにおいて、YOLO26は議論の余地のないチャンピオンです。ProgLoss + STALの統合は、高高度ドローンからの農業モニタリングにおいて不可欠な、小物体認識の大幅な向上をもたらします。さらに43%高速化されたCPU推論とNMSフリー設計の組み合わせにより、YOLO26は専用GPUのないハードウェアでも流暢に動作します。
学術研究および勾配分析
YOLOv9は学術界で高く評価され続けているモデルです。勾配流の理論的限界を調査する研究者や、PGIの概念に基づいた独自のPyTorchレイヤーを構築しようとしている研究者にとって、YOLOv9のコードベースはディープラーニング理論を探索するための優れた基盤となります。
高速製造パイプライン
高速コンベアベルト上での自動欠陥検出のような産業環境では、YOLO26モデルの驚異的なTensorRT速度によりフレーム落ちを防ぎ、品質保証システムの処理能力を最大化します。
ユースケースと推奨事項
YOLOv9とYOLO26のどちらを選ぶかは、プロジェクトの具体的な要件、デプロイメントの制約、およびエコシステムの好みによって異なります。
YOLOv9を選択すべき場合
YOLOv9は次のような場合に適した選択肢です:
- 情報のボトルネック研究: プログラマブル勾配情報 (PGI) および Generalized Efficient Layer Aggregation Network (GELAN) アーキテクチャを研究する学術プロジェクト。
- 勾配フロー最適化の研究: 学習中の深層ネットワーク層における情報の損失を理解し、軽減することに焦点を当てた研究。
- 高精度検出のベンチマーク: アーキテクチャ比較の基準点として、YOLOv9の強力なCOCOベンチマークパフォーマンスが必要なシナリオ。
YOLO26を選ぶべき場合
YOLO26は以下の場合に推奨されます:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
結論
両モデルとも、オープンソースコミュニティにとって信じられないほどの飛躍を意味します。YOLOv9は、今後長年にわたってアーキテクチャのインスピレーションとなる、勾配流に関する重要な理論的改善を導入しました。しかし、スピード、精度、デプロイの容易さの完璧なバランスを求める現代の開発者、スタートアップ、そして企業チームには、Ultralytics YOLO26を明確に推奨します。
NMSを排除し、強力なMuSGDオプティマイザーを導入し、検出、セグメンテーション、姿勢推定にわたる比類のないツール群を提供することで、YOLO26はあなたのコンピュータビジョンプロジェクトが今日利用可能な最も信頼性が高く、将来を見据えたフレームワーク上で構築されることを保証します。