YOLO26 vs YOLOv9: リアルタイム物体検出における次の進化

コンピュータビジョンの領域は急速に進歩しており、新しいアーキテクチャが絶えず速度と精度の限界を押し広げています。本技術比較では、リアルタイム物体検出の分野で非常に影響力のある2つのモデル、YOLO26YOLOv9の違いを検証します。両モデルとも独自のアーキテクチャ上の革新を備えていますが、次のビジョンプロジェクトに最適なツールを選択するためには、それぞれのパフォーマンスのトレードオフ、デプロイ機能、およびハードウェア要件を理解することが不可欠です。

YOLO26: エッジ最適化されたパワーハウス

2026年初頭にリリースされたUltralytics YOLO26は、デプロイ効率とモデル学習の安定性における世代的な飛躍を表しています。ネイティブなエンドツーエンドのフレームワークとして設計されており、歴史的にエッジAIアプリケーションを悩ませてきたデプロイのボトルネックを直接解決します。

モデルの詳細:

アーキテクチャと革新

YOLO26は、エンドツーエンドのNMSフリー設計を導入することで、後処理パイプラインを根本的に再設計しました。非最大値抑制(NMS)を不要にすることで、モデルは大幅に低いレイテンシ変動を実現します。これにより、ONNXApple CoreMLのようなフレームワークへのエクスポート時に、モバイルやエッジプラットフォームへのデプロイが大幅に容易になります。

Additionally, the removal of Distribution Focal Loss (DFL) streamlines the export process and boosts compatibility with low-power microcontrollers. To improve training stability, YOLO26 integrates the novel MuSGD Optimizer, a hybrid of Stochastic Gradient Descent (SGD) and Muon (inspired by innovations in Large Language Model training). This results in faster convergence and more robust feature extraction across difficult datasets.

エッジデバイスでの推論

アーキテクチャの簡素化とDFLの削除により、YOLO26は最大43%の高速なCPU推論を実現しており、Raspberry PiNVIDIA Jetson Nanoのようなリソース制約のあるエッジデバイスに最適な選択肢となっています。

ドローン空撮画像のような非常に困難なシーンでの物体検出には、YOLO26は最新のProgLoss + STAL損失関数を活用します。これらは、小物体認識の再現率に顕著な向上をもたらします。さらに、インスタンスセグメンテーション用のマルチスケールproto、姿勢推定用のResidual Log-Likelihood Estimation (RLE)、指向性バウンディングボックス (OBB)検出用の特殊な角度損失など、タスク固有の拡張機能を備えています。

YOLO26の詳細はこちら

YOLOv9: プログラマブル勾配情報

2024年初頭に発表されたYOLOv9は、ニューラルネットワークが学習フェーズ中に勾配フローを処理する方法に理論的な進歩をもたらし、パラメータ効率と深い特徴の保持に焦点を当てています。

モデルの詳細:

アーキテクチャと強み

YOLOv9は、プログラマブル勾配情報(PGI)とGeneralized Efficient Layer Aggregation Network (GELAN)の概念に基づいて構築されています。これらの概念は、深層ニューラルネットワークで頻繁に見られる情報のボトルネック問題に対処します。GELANは、フィードフォワードプロセスを通じて重要な情報を保持することで、重みの更新に使用される勾配の信頼性を維持します。このアーキテクチャは高い精度を提供し、PyTorchフレームワークを使用したニューラルネットワーク理論および勾配経路最適化の学術研究において、YOLOv9を強力な候補にしています。

制限事項

優れたパラメータ効率にもかかわらず、YOLOv9はバウンディングボックスの後処理に従来のNMSに大きく依存しており、これがエッジデバイスでの推論時に計算上のボトルネックを生じさせる可能性があります。さらに、公式リポジトリは主に物体検出に焦点を当てており、トラッキングや姿勢推定などの専門的なタスクに適応させるには、高度なカスタムエンジニアリングが必要です。

YOLOv9の詳細はこちら

パフォーマンスの比較

When evaluating these models for real-world deployment, balancing accuracy (mAP), inference speed, and memory usage is critical. Ultralytics models are renowned for their low memory requirements during both training and inference, requiring far less CUDA memory than transformer-based alternatives like RT-DETR.

以下は、COCO datasetにおけるYOLO26とYOLOv9のパフォーマンスの直接比較です。各列の最大値は太字で示されています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

注: YOLOv9のCPU速度は、NMS設定によって大きく異なり、一般的にYOLO26のネイティブなNMSフリーの実装よりも低速であるため省略しています。

ユースケースと推奨事項

YOLO26とYOLOv9の選択は、プロジェクト固有の要件、デプロイの制約、およびエコシステムの好みによって異なります。

YOLO26を選ぶべき場合

YOLO26は以下の場合に強力な選択肢となります:

  • NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
  • 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。

YOLOv9を選択すべき場合

YOLOv9は以下の場合に推奨されます:

  • 情報のボトルネック研究: プログラマブル勾配情報 (PGI) および Generalized Efficient Layer Aggregation Network (GELAN) アーキテクチャを研究する学術プロジェクト。
  • 勾配フロー最適化の研究: 学習中の深層ネットワーク層における情報の損失を理解し、軽減することに焦点を当てた研究。
  • 高精度検出のベンチマーク: アーキテクチャ比較の基準点として、YOLOv9の強力なCOCOベンチマークパフォーマンスが必要なシナリオ。

Ultralyticsの利点

モデルの選択には、精度ベンチマークを読むこと以上の要素が含まれます。周囲のソフトウェアエコシステムが、データ収集から本番環境への移行速度を決定します。

使いやすさとエコシステム

Ultralytics Python APIは、シームレスな「ゼロからヒーローへ」の体験を提供します。複雑なリポジトリをクローンしたり、分散学習スクリプトを手動で設定したりする代わりに、開発者はpipを介してパッケージをインストールし、すぐに学習を開始できます。活発にメンテナンスされているUltralytics ecosystemは、頻繁なアップデート、Weights & BiasesのようなMLプラットフォームとの自動統合、および広範なドキュメントを保証します。

その他のUltralyticsモデル

Ultralyticsエコシステム内の他のモデルを探求することに興味がある場合は、YOLO11や、カスタムアプリケーションに対して非常に柔軟な古典的なYOLOv8との比較を検討するのも良いでしょう。

ビジョンタスク全般における多様性

YOLOv9が主に検出エンジンであるのに対し、YOLO26は汎用的なビジョンツールです。単一の統一された構文を使用して、物体検出から高精度な画像セグメンテーションや画像全体の分類へと簡単に移行できます。この多様性は、異なるコンピュータビジョン機能のために複数のバラバラなコードベースを維持する技術的負債を軽減します。

効率的な学習とデプロイ

学習の効率性は、Ultralyticsの哲学の要です。YOLO26は、すぐに利用可能な事前学習済み重みを利用し、肥大化したビジョンTransformerと比較して大幅に低いメモリ使用量を誇ります。一度学習すれば、組み込みのエクスポートパイプラインにより、TensorRTTensorFlow Liteなどの最適化されたフォーマットへワンクリックで変換でき、本番環境への道を円滑にします。

コード例: YOLO26を始める

YOLO26の実装は驚くほど簡単です。以下のPythonスニペットは、事前学習済みモデルの読み込み、カスタムデータでの学習、およびUltralytics APIを使用した推論の実行方法を示しています。

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

YOLO26の速度、簡素化されたアーキテクチャ、および堅牢なエコシステムを活用することで、チームはこれまで以上に迅速かつ技術的ハードルを抑えて、高度なビジョンAIアプリケーションを市場に投入できます。

コメント