コンテンツにスキップ

YOLOv9 . YOLO26:現代の物体検出技術への深い考察

リアルタイム物体検出の分野は、ここ数年で大きく進化を遂げてきた。機械学習の実践者が様々なハードウェアにモデルを展開しようとする中、適切なアーキテクチャの選択が極めて重要となる。この包括的な技術ガイドでは、コンピュータビジョン分野における二つの主要なマイルストーンを比較する: YOLOv9(2024年初頭発表、勾配経路最適化に重点)と Ultralytics を比較します。後者は2026年初頭にリリースされた最新鋭のフレームワークであり、エッジ推論とトレーニング安定性を完全に再定義しています。

エグゼクティブサマリー: モデルの系譜と著作権

これらの深層学習モデルの起源を理解することは、そのアーキテクチャ設計上の選択や対象ユーザー層に関する貴重な背景情報を提供する。

YOLOv9

台湾の中央研究院情報科学研究所のChien-Yao WangとHong-Yuan Mark Liaoによって執筆されたYOLOv9は、2024年2月21日にリリースされました。このモデルは、理論的な深層学習の概念に重点を置いており、特に深層畳み込みニューラルネットワーク(CNN)における情報ボトルネック問題に対処しています。

YOLOv9について詳しくはこちら

Ultralytics YOLO26

UltralyticsのGlenn JocherとJing Qiuによって執筆されたYOLO26は、2026年1月14日にリリースされました。YOLO11YOLOv8といった前身モデルの大成功を基盤として、YOLO26は本番環境への対応、エッジデプロイメント、ネイティブなエンドツーエンドの効率性を最優先するようにゼロから設計されました。

YOLO26についてさらに詳しく

今日YOLO26を試してみよう

コンピュータビジョンパイプラインのアップグレードをお考えですか?Ultralytics を使えば、コードを一切書くことなく、クラウド上でYOLO26モデルのトレーニングとデプロイを簡単に行えます。

アーキテクチャの革新

両モデルはニューラルネットワークが視覚データを処理する方法に画期的な変更をもたらしますが、問題には異なる角度からアプローチしています。

YOLOv9におけるプログラマブル勾配情報

YOLOv9主な貢献YOLOv9、プログラマブル勾配情報(PGI) と汎用効率的層集約ネットワーク(GELAN)の導入である。ニューラルネットワークが深くなるにつれ、順伝播過程で情報損失が生じやすい。PGIは逆伝播時の重み更新に用いる勾配の精度と信頼性を保証し、GELANアーキテクチャがより少ないパラメータで高精度を達成することを可能にする。

しかし、YOLOv9 後処理において従来の非最大抑制(NMS)に大きくYOLOv9 、実世界の推論において遅延のボトルネックとなる可能性がある。

YOLO26のエッジファーストアーキテクチャ

YNMS26は、トレーニングからリアルタイム展開までのパイプライン全体を最適化するという根本的に異なるアプローチを採用しています。これは、最初に YOLOv10で初めて導入されたエンドツーエンドNMS フリー設計を基盤とし、NMS 完全に不要にします。これにより驚異的な低遅延を実現し、ラズベリーパイや NVIDIA などのエッジデバイス向けに高度に最適化されています。

さらに、YOLO26はディストリビューション・フォーカル・ロス(DFL)を完全に除去した。この構造的変更により、 ONNXへのモデルエクスポートが簡素化され、低電力マイクロコントローラーとの互換性が大幅に改善される。

トレーニングフェーズにおいて、YOLO26は斬新なMuSGD Optimizerを統合しています。これは確率的勾配降下法とMuon(Moonshot AIのKimi K2におけるLLMトレーニング手法に触発されたもの)のハイブリッドです。これにより、大規模言語モデル(LLM)のトレーニング革新とコンピュータビジョンの間のギャップが埋まり、トレーニングの安定性が劇的に向上し、収束時間が短縮されます。

パフォーマンスとメトリクスの比較

広く利用されているCOCO ベンチマークにおいて、両モデルとも卓越した能力を発揮するが、Ultralytics は実用的な推論速度とパラメータ効率において優れている。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

結果の分析

  • 速度と効率: YOLO26はNMSフリーのアーキテクチャと簡素化された損失関数を利用しているため、従来のアーキテクチャと比較して最大43%高速なCPU推論を誇ります。YOLO26nモデルは、TensorRTを使用してNVIDIA T4 GPUで驚異的な1.7msで動作し、リアルタイムビデオストリームにとって究極の選択肢となります。
  • 精度: YOLO26xモデルは、比類のない57.5 mAPを達成し、最大のYOLOv9eモデルを上回りながら、より低いレイテンシを維持しています。
  • メモリ要件: Ultralyticsモデルは、その効率性で知られています。YOLO26は、複雑なTransformerベースのビジョンモデルと比較して、モデルトレーニングと推論中に大幅に少ないCUDAメモリしか必要とせず、開発者はコンシューマーグレードのハードウェアでより大きなバッチサイズを利用できます。

エコシステム、使いやすさ、汎用性

Ultralytics 真の強みはユーザー体験にあります。YOLOv9のGitHubコードベースを利用する研究者は複雑な環境設定や手動スクリプト操作を必要としますが、YOLO26はUltralytics Python 完全に統合されています。

簡素化されたAPIの例

最先端のYOLO26モデルのトレーニングには、わずか数行のPython 済みます:

from ultralytics import YOLO

# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export natively to ONNX format in a single command
model.export(format="onnx")

比類なきタスクの汎用性

YOLOv9主に標準的な物体検出向けに設計されているのとは異なり、YOLO26は標準状態で多様なコンピュータビジョンタスクをネイティブにサポートする。このアーキテクチャには、様々な用途に向けた特定の強化が組み込まれている:

  • インスタンスセグメンテーション: 完璧なピクセルレベルのマスクを実現するために、特殊なセマンティックセグメンテーション損失とマルチスケールプロトを特徴とします。
  • Pose Estimation: Residual Log-Likelihood Estimation (RLE)を統合し、骨格キーポイントを極めて高い精度で追跡します。
  • Oriented Bounding Boxes (OBB): 航空画像における回転オブジェクト検出の境界問題を解決するために特別に設計された、特殊な角度損失関数を搭載しています。
  • 画像分類: ImageNetの標準に基づいた、画像全体の堅牢な分類。

統合されたエコシステム

すべてのYOLO26モデルは、Ultralytics Platformとのシームレスな統合の恩恵を受け、組み込みのデータセットラベリング、アクティブラーニング、および即時デプロイメントパイプラインを提供します。

現実世界のアプリケーション

これらのモデルの選択は、多くの場合、それらがデプロイされる環境に左右されます。

IoTとエッジロボティクス

ロボット工学、自律ドローン、スマートホームIoTデバイスにおいて、YOLO26は揺るぎない王者です。ProgLoss + STALの統合は、小オブジェクト認識に顕著な改善をもたらし、これは高高度ドローンからの農業監視にとって極めて重要です。43%高速なCPU推論とNMSフリー設計と相まって、YOLO26は専用GPUなしのハードウェアでもスムーズに動作します。

学術研究と勾配分析

YOLOv9は、学術界で高く評価されているモデルであり続けています。勾配フローの理論的境界を調査する研究者や、PGIコンセプトに基づいたカスタムPyTorch層を構築しようとしている研究者にとって、YOLOv9のコードベースは、深層学習理論の探求のための優れた基盤となるでしょう。

高速製造パイプライン

高速コンベアベルト上の自動欠陥検出といった産業環境において、YOLO26モデルのTensorRT 驚異的なTensorRT により、フレームの損失を完全に防止。品質保証システムのスループットを最大化します。

ユースケースと推奨事項

YOLOv9とYOLO26のどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって異なります。

YOLOv9を選択すべき時

YOLOv9 以下のような場合に有力な選択肢YOLOv9 :

  • 情報ボトルネック研究: プログラマブル勾配情報(PGI)および汎用効率的層集約ネットワーク(GELAN)アーキテクチャを研究する学術プロジェクトです。
  • 勾配フロー最適化研究: トレーニング中の深層ネットワーク層における情報損失の理解と軽減に焦点を当てた研究。
  • 高精度detectベンチマーク: YOLOv9の強力なCOCOベンチマーク性能が、アーキテクチャ比較の参照点として必要とされるシナリオ。

YOLO26を選択すべき時

YOLO26は以下に推奨されます:

  • NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
  • 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

結論

両モデルはオープンソースコミュニティにとって信じられないほどの飛躍を意味します。YOLOv9は、勾配フローに不可欠な理論的改善をもたらし、今後何年にもわたってアーキテクチャにインスピレーションを与えるでしょう。しかし、速度、精度、デプロイの容易さの完璧なバランスを求める現代の開発者、スタートアップ、エンタープライズチームには、Ultralytics YOLO26が明確に推奨されます。

NMSを排除し、強力なMuSGDオプティマイザを導入し、detect、segmentation、ポーズタスク全体で比類のないツールスイートを提供することで、YOLO26は、今日のコンピュータビジョンプロジェクトが最も信頼性が高く、将来性のあるフレームワーク上に構築されることを保証します。


コメント