Meet YOLO26: next-gen vision AI.

Link to this sectionPP-YOLOE+ と YOLOv9 の比較#

リアルタイムコンピュータビジョンの領域は絶えず変化しており、研究者や開発者は精度と推論速度の限界を押し広げ続けています。PP-YOLOE+YOLOv9 を比較すると、モデルアーキテクチャとエコシステム設計における2つの異なる哲学が見えてきます。

この包括的な技術比較では、アーキテクチャの革新、パフォーマンス指標、学習手法、そして理想的なユースケースを分析し、次回のデプロイに向けた最適な object detection モデルの選択を支援します。

Link to this sectionモデルの系譜と技術的基盤#

これらのモデルの起源とアーキテクチャ上の選択を理解することは、computer vision projects に適しているかどうかを判断するために不可欠です。

Link to this sectionPP-YOLOE+ の概要#

BaiduのPaddlePaddleチームによって開発された PP-YOLOE+ は、2022年4月2日に発表されました。これは、PaddleDetectionフレームワーク内の以前のバージョンをベースに構築されており、高性能な物体検出を実現しています。

PP-YOLOE+ は、PaddlePaddleエコシステム内でのデプロイに最適化された、堅牢なアンカーフリーアーキテクチャを導入しています。修正された CSPRepResNet バックボーンと ET-head を利用して、特徴抽出とバウンディングボックス回帰を向上させています。高い mean Average Precision (mAP) を達成していますが、PaddlePaddleフレームワークへの依存が、PyTorchやTensorFlowに慣れた開発者にとって統合のハードルとなる場合があります。

PP-YOLOE+の詳細はこちら

Link to this sectionYOLOv9 の概要#

台湾の中央研究院情報科学研究所の Chien-Yao Wang と Hong-Yuan Mark Liao によって発表された YOLOv9 は、ディープラーニングにおける情報ボトルネックの効率的な処理において大きな飛躍を遂げました。

  • 著者: Chien-Yao Wang および Hong-Yuan Mark Liao
  • 組織: 台湾 中央研究院 情報科学研究所
  • 日付: 2024-02-21
  • Arxiv: 2402.13616
  • GitHub: WongKinYiu/yolov9

YOLOv9 の最大の画期的な点は、ディープニューラルネットワークを通じたデータ損失を防ぐ「Programmable Gradient Information (PGI)」です。これに「Generalized Efficient Layer Aggregation Network (GELAN)」を組み合わせることで、YOLOv9 はパラメータ効率と計算フローを最大化しています。さらに、Ultralytics ecosystem にネイティブ統合されており、研究と商用アプリケーションの両方で非常に利用しやすくなっています。

YOLOv9の詳細はこちら

その他のUltralyticsモデル

最先端のオプションを検討されている場合は、Transformerベースの精度とエッジでのリアルタイム性能のバランスを提供する YOLO11RT-DETR にも関心をお持ちいただけるかもしれません。

Link to this sectionパフォーマンスと指標の比較#

生のパフォーマンスを分析すると、YOLOv9 は優れたパラメータ効率を示します。より少ないパラメータとFLOPsで同等以上の精度を達成しており、これは model training 中の VRAM 要件の低減につながります。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

表に示す通り、YOLOv9c は 53.0 mAP という強力な結果を達成しながら、同等の PP-YOLOE+l (52.2M) と比較して大幅に少ないパラメータ数 (25.3M) で実現しています。このメモリ使用量の少なさは、制限のある GPU リソースで作業する開発者にとって YOLOv9 を優れた選択肢にします。

Link to this sectionエコシステム、汎用性、使いやすさ#

YOLOv9 の最大の利点は、十分に整備された Ultralytics エコシステムとのシームレスな統合にあります。PP-YOLOE+ は複雑な PaddlePaddle の設定ファイルを操作する必要がありますが、YOLOv9 は効率化された Python API の恩恵を受けられます。

Ultralytics Python API を使用することで、開発者は事前学習済みウェイトのロード、data augmentation の管理、および学習の開始を最小限のボイラープレートコードで行うことができます。

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export the model to ONNX format
model.export(format="onnx")

さらに、Ultralytics エコシステムは比類のない汎用性を提供します。バウンディングボックス検出だけでなく、フレームワークは Instance SegmentationPose EstimationOriented Bounding Box (OBB) 検出をネイティブにサポートしています。これにより、複雑な現実世界のパイプラインにモデルを適応させることが非常に効率的になります。

エクスポートオプション

Ultralytics フレームワークを使用して学習されたモデルは、TensorRTOpenVINO を含む複数のフォーマットにエクスポートでき、多様なハードウェア全体で高度に最適化された推論が保証されます。

Link to this sectionユースケースと推奨事項#

PP-YOLOE+ と YOLOv9 のどちらを選ぶかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みに依存します。

Link to this sectionPP-YOLOE+ を選ぶべき場面#

PP-YOLOE+ は以下の場合に強力な選択肢となります:

  • PaddlePaddle エコシステムへの統合: Baidu の PaddlePaddle フレームワークとツールを使用して構築された既存のインフラストラクチャを持つ組織。
  • Paddle Lite エッジデプロイメント: Paddle Lite または Paddle 推論エンジン専用に高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
  • 高精度サーバーサイド検出: フレームワークの依存関係が懸念事項とならない、強力な GPU サーバー上での最大の検出精度を優先するシナリオ。

Link to this sectionYOLOv9を選択すべき場合#

YOLOv9は以下の場合に推奨されます:

  • 情報ボトルネック研究: Programmable Gradient Information (PGI)およびGeneralized Efficient Layer Aggregation Network (GELAN)アーキテクチャを研究する学術プロジェクト。
  • 勾配フロー最適化の研究: トレーニング中の深層ネットワーク層における情報損失の理解と軽減に重点を置いた研究。
  • 高精度検出ベンチマーク: アーキテクチャ比較の基準点として、YOLOv9の強力なCOCOベンチマークパフォーマンスが必要とされるシナリオ。

Link to this sectionUltralytics (YOLO26) を選択すべき時#

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。

  • NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
  • 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this section今後の展望:YOLO26の優位性#

PP-YOLOE+ と YOLOv9 はどちらも強力ですが、新たにリリースされた YOLO26 は、本番環境に向けた決定的な次のステップです。2026年1月にリリースされた YOLO26 は、エッジコンピューティングとクラウドデプロイの新しい基準を確立しました。以下の画期的な技術革新により、すべての新規コンピュータビジョンプロジェクトに YOLO26 を強く推奨します。

  • エンドツーエンドの NMS 不要設計: YOLO26 はネイティブなエンドツーエンドモデルであり、Non-Maximum Suppression (NMS) の後処理が完全に不要です。これによりデプロイパイプラインが大幅に簡素化され、レイテンシが削減されます。
  • CPU 推論が最大 43% 高速化: エッジコンピューティング向けにアーキテクチャを最適化することで、専用 GPU を持たないハードウェア上で YOLO26 は大幅に高速化されます。
  • DFL の削除: Distribution Focal Loss が削除され、エクスポートがよりシンプルになり、低電力のエッジデバイスとの互換性が劇的に向上しました。
  • MuSGD オプティマイザー: 大規模言語モデルの学習手法 (Moonshot AI の Kimi K2 など) に着想を得たこの SGD と Muon のハイブリッド手法により、非常に安定した学習ダイナミクスと迅速な収束が保証されます。
  • ProgLoss + STAL: これらの高度な損失関数は、aerial imageryrobotics に不可欠なアップグレードである小物体認識において、顕著な改善をもたらします。
  • タスク固有の改善: YOLO26 には、セグメンテーション用のマルチスケール proto やポーズ推定用の Residual Log-Likelihood Estimation (RLE) など、特定のタスク向けのカスタマイズされたアーキテクチャが含まれています。

データセットのアノテーション、クラウド学習、モデル監視のためのオールインワンソリューションである Ultralytics Platform を通じて、YOLO26 モデルを簡単に学習およびデプロイできます。

Link to this section実際のアプリケーション#

これらのアーキテクチャの選択は、多くの場合、ターゲットとするデプロイ環境によって決まります。

PP-YOLOE+ は、PaddlePaddle integration と Baidu のハードウェアスタックがエンタープライズインフラに深く組み込まれている地域において、産業製造センターで頻繁に導入されています。厳しいリアルタイム制約よりも絶対的な精度が優先される静的画像解析において優れています。

YOLOv9 は、迅速な real-time inference が求められる動的な環境で優れた性能を発揮します。その優れたパラメータ効率により、自律型ドローンのナビゲーションやエッジベースのセキュリティシステムに最適です。さらに、VRAM 消費が低いため、一般向け GPU で学習する研究者にとっての参入障壁が低くなります。

smart city traffic management や高速ロボティクス全体で最高のパフォーマンスを求める場合、NMS ボトルネックのオーバーヘッドがないエンドツーエンドの効率性を備えた新しい YOLO26 に勝るものはありません。

コメント