Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 と YOLOv6-3.0 の比較#

リアルタイム物体検出の進化は、ニューラルネットワークアーキテクチャの絶え間ない革新によって推進されており、推論速度、精度、そして計算効率という繊細なバランスを最適化してきました。開発者や研究者がコンピュータビジョンのフレームワークという広大な領域を探索する中で、主要なアーキテクチャを比較することは、目的に最適なツールを選択するために不可欠です。

本テクニカルガイドでは、非常に優れた性能を持つ2つのモデル、すなわち情報の保持能力に長けた「YOLOv9」と、産業用途向けに特別に設計された「YOLOv6-3.0」を詳細に比較します。

Link to this sectionYOLOv9 の概要: 特徴量保持の最大化#

2024年初頭に発表された YOLOv9 は、深層ニューラルネットワークにおける最も持続的な課題の一つである「フィードフォワード過程における情報損失」に取り組んでいます。勾配の信頼性を確保し、特徴マップが重要なデータを保持するように設計することで、理論上の精度の限界を押し広げています。

  • 著者: Chien-Yao Wang および Hong-Yuan Mark Liao
  • 組織: 台湾 中央研究院 情報科学研究所
  • 日付: 2024年2月21日
  • リンク: Arxiv Paper, GitHub Repository

Link to this sectionアーキテクチャと手法#

YOLOv9 は、Generalized Efficient Layer Aggregation Network (GELAN) とともに、Programmable Gradient Information (PGI) という概念を導入しました。PGI は、推論オーバーヘッドを追加することなく、メインネットワークが堅牢で信頼性の高い特徴を学習できるように補助的な監視機能を提供することで、情報ボトルネックに対処しています。一方、GELAN はパラメータの利用効率を最適化し、計算コストを抑えつつ最先端の mean Average Precision (mAP) を達成しています。これにより、特徴量の忠実度が極めて重要となる 医療画像解析 や極小物体の検出において、類を見ない選択肢となっています。

YOLOv9の詳細はこちら

Link to this sectionYOLOv6-3.0 の概要: 産業規模向けに構築#

Meituan によって開発された YOLOv6-3.0 (v3.0とも呼ばれます) は、負荷の高い産業用アプリケーション向けにゼロから設計されました。2023年初頭にリリースされた本モデルは、展開の効率性に重点を置いており、エッジハードウェアで優れた性能を発揮する量子化対応モデル群を提供します。

  • 著者: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu
  • 組織: Meituan
  • 日付: 2023年1月13日
  • リンク: Arxiv Paper, GitHub Repository

Link to this sectionアーキテクチャと手法#

YOLOv6-3.0 は、その RepOptimizer および Anchor-Aided Training (AAT) 戦略によって他と一線を画しています。このモデルは RepVGG に着想を得たハードウェア対応のニューラルネットワーク設計を採用しており、レイヤーを融合することで GPU 上での推論を極めて高速化しています。3.0 のアップデートでは、局所化精度を向上させるために Bi-directional Concatenation (BiC) モジュールが導入され、アーキテクチャがさらに洗練されました。TensorRTOpenVINO といった展開フォーマット向けに高度に最適化されているため、YOLOv6-3.0 は物流、製造自動化、高スループットなサーバー環境で頻繁に採用されています。

YOLOv6-3.0の詳細はこちら

Link to this sectionパフォーマンスの比較#

これらのモデルを標準的な COCO dataset で評価すると、精度と推論速度の間に明確なトレードオフがあることがわかります。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Link to this section技術分析#

YOLOv6-3.0n は T4 ハードウェアでの生の速度において最高記録 (1.17ms) を保持していますが、YOLOv9t はパラメータ数が半分以下 (2.0M 対 4.7M) であり、さらに FLOPs も大幅に少ないにもかかわらず、わずかに高い mAP (38.3%) を達成しています。高精度が求められる複雑な要件に対しては、大規模な YOLOv9e が 55.6% mAP という精度を叩き出し、深層ネットワークにおける PGI アーキテクチャの威力を示しています。

YOLO26でプロジェクトの将来性を確保

新しいコンピュータビジョンの取り組みを開始される場合は、YOLO26 の利用を強く推奨します。2026年にリリースされた本モデルは、ネイティブな End-to-End NMS-Free Design を採用しており、後処理のレイテンシを完全に排除し、最大 43% 高速な CPU 推論を実現します。

Link to this sectionUltralyticsエコシステムの利点#

どちらのモデルのアーキテクチャ哲学が好ましいかにかかわらず、Ultralytics Python API を通じてネイティブに実装することで、優れた開発者体験が得られます。

Link to this section使いやすさと学習の効率性#

複雑なディープラーニングモデルの学習には、従来、膨大なボイラープレートコードが必要でした。Ultralytics Platform は、これらの複雑さを抽象化します。欠陥検出 のために YOLOv9 をファインチューニングする場合でも、モバイルアプリケーション向けに YOLOv6 をエクスポートする場合でも、ワークフローは非常に一貫しています。

さらに、Ultralytics のアーキテクチャは、かさばる Transformer ベースのモデルと比較して、学習中の CUDA memory requirements が一般的に低くなっています。これにより、開発者は民生用 GPU でより大きなバッチサイズを使用でき、学習効率が大幅に向上します。

from ultralytics import YOLO

# Easily swap architectures by changing the weights file string
# model = YOLO("yolov6n.pt")
model = YOLO("yolov9c.pt")

# Train the model with built-in data augmentation and caching
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Export to ONNX or TensorRT seamlessly
model.export(format="engine", quantize=16)

Link to this sectionビジョンタスク全般にわたる比類のない汎用性#

YOLOv6-3.0 は高速なバウンディングボックス生成に最適化されていますが、現代のコンピュータビジョンプロジェクトではマルチタスクなアプローチが必要になることがよくあります。Ultralytics のモデルはその汎用性の高さで評価されています。Ultralytics YOLOv8 や最新の YOLO26 のようなツールを使用すれば、単一のフレームワークで object detectioninstance segmentationimage classificationpose estimation、そして oriented bounding boxes (OBB) をシームレスに処理できます。

Link to this sectionYOLO26 の紹介: 新しいスタンダード#

パフォーマンスと展開の容易さの両方を最大化したい組織にとって、YOLO26 は速度と精度の究極の融合を象徴しています。

YOLO11 の成功の上に構築された YOLO26 は、パラダイムを転換するいくつかの機能を導入しています。

  • MuSGD Optimizer: Moonshot AI の Kimi K2 といった大規模言語モデル (LLM) の学習技術に着想を得たこのハイブリッドオプティマイザーは、非常に安定した学習と高速な収束を保証します。
  • DFLの削除: Distribution Focal Lossを排除することで、YOLO26はエクスポートグラフを簡素化し、低電力のedge computingチップとの互換性を大幅に向上させています。
  • ProgLoss + STAL: これらの高度な損失関数は、ドローン運用 や IoT アプリケーションに不可欠な、小物体認識の顕著な改善をもたらします。
  • タスク固有の改善: YOLO26 には、セグメンテーション用のネイティブなマルチスケールプロトタイピング、スケルトントラッキング用の Residual Log-Likelihood Estimation (RLE)、および OBB 検出のエッジケースを解決するための専門的な角度損失アルゴリズムが含まれています。

Link to this section理想的な展開シナリオ#

最適なアーキテクチャの選択は、最終的にはプロダクションの制約に帰着します。

産業製造における確立されたパイプラインがあり、量子化に大きく依存しており、サブミリ秒単位の最小ハードウェアレイテンシを必要とする特殊な推論アクセラレーターを使用している場合は、YOLOv6-3.0 を選択してください。

複雑な ヘルスケア診断 や、わずかなピクセルレベルの特徴を見逃すことが許されない長距離監視に取り組んでいる場合は、YOLOv9 を選択してください。

しかし、最先端の精度と簡素化された NMS フリーの展開の両立という完璧なバランスを求めるなら、Ultralytics YOLO26 が現代のコンピュータビジョンエンジニアリングにとっての決定的な推奨モデルです。活発な開発サイクル、包括的なドキュメント、そして活気あるコミュニティサポートにより、研究者と開発者にとって欠かせないツールとなっています。

コントリビューター

コメント