Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv6-3.0 対 PP-YOLOE+#

リアルタイムの物体検出フレームワークを選択する際、機械学習エンジニアはしばしば多様な高性能アーキテクチャを評価します。産業用アプリケーションの分野で注目すべきモデルが、YOLOv6-3.0と**PP-YOLOE+**です。どちらのモデルも精度と速度の限界を押し上げてきましたが、それぞれ異なるエコシステムや展開ハードウェア向けに調整されています。

この技術比較では、両者のアーキテクチャ、パフォーマンス指標、およびトレーニング手法を詳しく解説します。また、優れた汎用性と使いやすさを提供するUltralytics YOLO26のようなモダンな選択肢についても紹介します。

Link to this sectionYOLOv6-3.0: 高スループットな産業用エンジン#

MeituanのVision AI部門によって開発されたYOLOv6-3.0は、産業環境、特に高性能なサーバーグレードのGPUを活用する環境向けに徹底的に最適化されています。

  • 著者:Chuyi Li、Lulu Li、Yifei Geng、Hongliang Jiang、Meng Cheng、Bo Zhang、Zaidan Ke、Xiaoming Xu、およびXiangxiang Chu
  • 組織:Meituan
  • 日付:2023-01-13
  • Arxiv:2301.05586
  • GitHub:meituan/YOLOv6

Link to this sectionアーキテクチャの革新#

YOLOv6-3.0は、NVIDIA GPUのようなハードウェアアクセラレータの利用効率を最大化するために設計されたEfficientRepバックボーンを採用しています。このアーキテクチャは、ネック部分に**双方向連結(Bi-directional Concatenation: BiC)**モジュールを導入し、マルチスケール特徴量の融合を大幅に向上させました。さらに、**アンカー支援トレーニング(Anchor-Aided Training: AAT)**戦略を組み込んでいます。このハイブリッドアプローチは、トレーニングフェーズ中にはアンカーベースネットワークの堅牢な収束特性を享受しつつ、推論時にはアンカーを破棄することで、アンカーフリーパラダイム特有の高速性を維持します。

YOLOv6の詳細はこちら

Link to this sectionPP-YOLOE+: PaddlePaddleの検出チャンピオン#

**PP-YOLOE+**は、Baiduの研究者によってPaddlePaddleフレームワーク内で完全に開発された、PP-YOLOシリーズの進化版です。Paddleのエコシステムが既に構築されている環境で優れた性能を発揮します。

Link to this sectionアーキテクチャの革新#

PP-YOLOE+は、TAL(Task Alignment Learning)として知られる動的なラベル割り当て戦略を導入したアンカーフリー検出器です。これはCSPRepResNetバックボーンを利用しており、計算効率を維持しながらセマンティックな特徴を効率的にキャプチャします。このモデルはTensorRTおよびOpenVINO経由のデプロイメント向けに高度に最適化されており、ユーザーがPaddlePaddle APIの操作に慣れていれば、エッジおよびサーバーデプロイメントの強力な候補となります。

PP-YOLOE+の詳細はこちら

フレームワークに関する考察

PP-YOLOE+は優れた結果をもたらしますが、PaddlePaddleへの依存はPyTorchに慣れたエンジニアにとって学習曲線が生じる可能性があります。Ultralyticsのような統合フレームワークを利用することで、セットアップ時間を大幅に短縮できます。

Link to this sectionパフォーマンスの比較#

これらのモデルを評価するには、平均適合率(mAP)と推論速度のバランスを確認する必要があります。以下の表は、COCO検証データセットにおけるパフォーマンスを示しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

両モデルとも強力なパフォーマンスを示しますが、YOLOv6-3.0は一般的に小規模なモデルサイズにおいて生TensorRT速度でわずかな優位性を維持しており、高速な自動チェックアウトや製造時の欠陥検出に非常に効果的です。逆に、PP-YOLOE+は最大精度のためにパラメータ数を大規模に拡張するのに適しています。

Link to this sectionUltralyticsの優位性:YOLO26の紹介#

YOLOv6-3.0とPP-YOLOE+は非常に有能ですが、コンピュータビジョンの急速な進化により、生速度だけでなく、卓越した使いやすさ、低いメモリ要件、そして統合されたエコシステムを提供するアーキテクチャが求められています。ここで、Ultralytics YOLOモデル、特にYOLO11と最先端の**YOLO26**が、最先端技術を再定義します。

2026年1月にリリースされたYOLO26は、エッジファーストかつクラウド対応のビジョンAIの新しいベンチマークを確立し、レガシーモデルに対して大幅な利点を提供します。

  • エンドツーエンドのNMSフリー設計: YOLOv10によって築かれた基盤の上に構築されたYOLO26は、後処理における非最大値抑制(NMS)をネイティブに排除しました。これにより、デプロイメントロジックが大幅に簡素化され、混雑したシーンでのレイテンシのばらつきが低減されます。
  • 最大43%高速なCPU推論: 分布焦点損失(DFL)を戦略的に排除することで、YOLO26はCPUパフォーマンスを劇的に加速させ、IoTデバイスやモバイルアプリケーションにおいてYOLOv6やPP-YOLOE+を圧倒します。
  • MuSGDオプティマイザ: 高度なLLMトレーニング技術(Moonshot AIのKimi K2など)に触発されたハイブリッドなMuSGDオプティマイザは、従来のSGDやAdamWよりも高速に収束し、非常に安定した効率的なトレーニングを提供します。
  • ProgLoss + STAL: これらの高度な損失関数は、ドローン画像や空中監視において重要な要素である、小さな物体の認識において顕著な改善をもたらします。
  • タスクの汎用性: 検出に特化したYOLOv6-3.0とは異なり、YOLO26はインスタンスセグメンテーションポーズ推定分類、および指向性バウンディングボックス(OBB)検出を標準でサポートしています。

Link to this section効率化されたトレーニングエコシステム#

PP-YOLOE+のデプロイにはPaddlePaddle環境の管理が必要であり、YOLOv6-3.0には研究用スクリプトの理解が必要です。対照的に、Ultralyticsプラットフォームは、シームレスなゼロからヒーローへの体験を提供します。

最先端のYOLO26モデルのトレーニングには、わずか数行のPythonコードが必要です。

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with the MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's accuracy
metrics = model.val()

# Export seamlessly to OpenVINO or TensorRT
path = model.export(format="engine")

このシンプルなAPIは、RT-DETRのようなTransformerを多用するモデルと比較して、トレーニング中のメモリ使用量を抑えることで、高性能なAIを民主化します。

Link to this section理想的なユースケースとデプロイ戦略#

適切なモデルの選択が、デプロイメントパイプラインの成功を左右します。

Link to this sectionYOLOv6-3.0の用途#

  • 高速製造: 産業用カメラから専用のNVIDIA T4またはA100 GPUへ直接映像が入力され、5ms以下の安定した推論が求められる環境。
  • サーバーサイドビデオ分析: 純粋なGPUスループットが最大のボトルネックとなる、複数の高密度ビデオストリームを処理する環境。

Link to this sectionPP-YOLOE+の使用時期#

  • Baidu/Paddleエコシステム: PaddlePaddle技術スタックに深く投資しているエンタープライズ環境、またはBaiduのツールチェーン向けに最適化されたハードウェアでデプロイする場合。
  • 高精度な静止画: エッジでのデプロイ速度よりも、大型(PP-YOLOE+x)モデルの高mAPが重要視されるシナリオ。

Link to this sectionUltralytics YOLO26を選択するタイミング#

  • エッジおよびIoTデバイス: NMSフリーの設計とDFL削除により、YOLO26はRaspberry Pi、NXP、またはモバイルCPUでのデプロイにおける疑いのない選択肢です。
  • マルチタスクアプリケーション: 統合APIを使用して、物体追跡、ポーズ推定、またはセグメンテーションを同時に実行する必要があるプロジェクト。
  • 迅速なプロトタイピングからプロダクションへ: Ultralyticsプラットフォームを活用して、データセットアノテーション、ハイパーパラメータチューニング、ワンクリックでのモデルデプロイメントを効率化するチーム。

検出モデルのより広範な状況を探索したい開発者向けに、YOLOXDAMO-YOLOのようなフレームワークも、Ultralyticsのドキュメントで確認する価値のある独自のアーキテクチャアプローチを提供しています。

コメント