YOLOv10 vs. YOLO26: 比較分析
リアルタイム物体検出の急速に進化する状況において、開発者と研究者は、推論速度、精度、デプロイの柔軟性の最適なバランスを常に模索しています。この道のりにおける2つの重要なマイルストーンは、清華大学によって開発されたYOLOv10と、それに続くUltralyticsの最新フラッグシップモデルであるYOLO26です。
両モデルともエンドツーエンドアーキテクチャへの移行を推進していますが、その実装、エコシステムサポート、ターゲットアプリケーションにおいて大きく異なります。この分析では、これら2つの強力なビジョンAIツールを選択する際のアーキテクチャの変更点、パフォーマンス指標、および実用的な考慮事項を詳細に解説します。
モデル概要
YOLOv10: エンドツーエンドのパイオニア
2024年5月に清華大学の研究者によってリリースされたYOLOv10は、NMSフリートレーニングのための一貫したデュアルアサインメント戦略を導入することで注目を集めました。このアーキテクチャは、以前のYOLOバージョンでは歴史的にレイテンシのボトルネックとなっていた非最大抑制(NMS)の後処理ステップを排除することを目的としていました。
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織:清華大学
- 日付: 2024年5月23日
- 主要なイノベーション: NMSフリートレーニングのための一貫したデュアルアサインメントと、包括的な効率と精度を重視したモデル設計。
YOLO26: エッジAIの新標準
2026年1月にUltralyticsによってリリースされたYOLO26は、YOLOv10が先駆けたエンドツーエンドの概念を洗練させますが、エッジデプロイメント、トレーニングの安定性、およびハードウェア互換性に焦点を当ててフレームワークを再構築します。エクスポート性を合理化するために、Distribution Focal Loss (DFL)のようなレガシーコンポーネントを削除し、LLMにインスパイアされた最適化技術を導入します。
- 著者: Glenn Jocher、Jing Qiu
- 組織:Ultralytics
- 日付: 2026年1月14日
- 主要なイノベーション: DFLの削除、MuSGDオプティマイザ(SGD/Muonハイブリッド)、および5つのコンピュータビジョンタスクにおけるネイティブなエンドツーエンドサポート。
アーキテクチャの違い
YOLOv10からYOLO26への移行は、学術的なイノベーションからプロダクションレベルの堅牢性への転換を表しています。
エンドツーエンド設計とNMS
両モデルはNMSの除去という目標を共有しています。YOLOv10は、トレーニング時の豊富な教師信号には一対多割り当てを、推論時には一対一割り当てを使用するデュアルラベル割り当ての概念を導入しました。
YOLO26はこのネイティブなエンドツーエンドNMSフリー設計を採用していますが、Ultralyticsエコシステムとのシームレスな統合を確実にするために実装を最適化しています。後処理なしで直接予測を生成することで、両モデルはレイテンシの変動を低減し、これは自動運転車やロボティクスのようなリアルタイムアプリケーションにとって不可欠です。
損失関数と最適化
主要な差別化要因は、モデルがどのようにトレーニングされるかにあります。
- YOLOv10は、アーキテクチャの効率性と精度を重視した設計に焦点を当て、計算オーバーヘッドを削減するために特定のコンポーネントを最適化しています。
- YOLO26は、SGDとMuonオプティマイザ(Moonshot AIのKimi K2に触発されたもの)のハイブリッドであるMuSGDオプティマイザを導入しています。これにより、大規模言語モデル(LLM)トレーニングからの最適化技術がコンピュータビジョンにもたらされ、より速い収束と高い安定性が実現されます。さらに、YOLO26はProgLossとSTAL(Small-Target-Aware Label Assignment)を利用し、特に小オブジェクト認識の改善を目標としています。
シンプルさとエクスポート性
YOLO26は、Distribution Focal Loss (DFL)の除去という抜本的な一歩を踏み出しました。DFLは以前の世代でボックス精度に貢献しましたが、特にエッジデバイス向けにONNXやTensorRTのような形式へのエクスポートプロセスを複雑にすることがよくありました。YOLO26でのDFLの除去はモデルグラフを簡素化し、先行モデルと比較してCPU推論で最大43%高速になり、エッジコンピューティングに非常に効果的です。
パフォーマンス比較
以下の表は、両モデルのパフォーマンス指標を強調しています。YOLOv10は強力なパフォーマンスを提供しますが、YOLO26は特にCPU環境で優れた速度を示し、より大きなモデルでは精度が向上しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
主なポイント
- CPU効率: YOLO26は、検証済みの高度に最適化されたCPU推論速度を提供し、Raspberry Piや標準的なノートPCなど、専用GPUを持たないデバイスにとって不可欠です。
- 精度向上: 全体的に、YOLO26はより高いmAPスコアを達成しており、ミディアム(m)、ラージ(l)、エクストララージ(x)の各バリアントで顕著な向上が見られます。
- パラメータ効率: YOLOv10が低いパラメータ数を目指す一方で、YOLO26はFLOPsとアーキテクチャを最適化し、実世界のシナリオで計算単位あたりのより良いmAPを提供します。
エコシステムと使いやすさ
プロダクション向けモデルを選択する際、周囲のエコシステムはアーキテクチャ自体と同じくらい重要です。
Ultralyticsの利点
YOLO26は、成熟したUltralyticsエコシステムの恩恵を受けています。これには以下が含まれます。
- 統一API: トレーニング、検証、デプロイメントのための一貫したpythonおよびCLIインターフェース。
- ドキュメンテーション: Weights & Biases、Comet、Roboflowなどのツールとの統合に関する広範なガイド。
- 汎用性: 主にdetectに焦点を当てているYOLOv10とは異なり、YOLO26は同じフレームワーク内でインスタンスセグメンテーション、姿勢推定、Oriented Bounding Boxes (obb)、および分類をネイティブにサポートしています。
- サポート: GitHub、Discord、およびUltralyticsコミュニティフォーラムを通じた活発なコミュニティサポート。
タスクの柔軟性
プロジェクトがバウンディングボックス以上のもの、例えば身体の姿勢理解(姿勢推定)や不規則なオブジェクトのセグメンテーション(セグメンテーション)を必要とする場合、YOLO26は同じシンプルなAPIでこれらの機能をすぐに利用できるように提供します。
トレーニング効率
YOLO26モデルは、一般的にTransformerを多用するアーキテクチャと比較して、トレーニング中のメモリ要件が少なくなります。MuSGDオプティマイザの導入により、トレーニングの実行がさらに安定し、実験的なモデルを悩ませる可能性のある損失の発散や「NaN」エラーの発生確率が低減されます。ユーザーは単一のコマンドで簡単にトレーニングを開始できます。
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train on a custom dataset
results = model.train(data="custom_dataset.yaml", epochs=100, imgsz=640)
ユースケース
YOLOv10を選択すべき時
YOLOv10は、効率と精度を重視した設計の理論的限界を具体的に調査する学術研究者や、元のデュアルアサインメント研究を基盤としたい人々にとって、依然として強力な選択肢です。「nano」バージョンにおける低いパラメータ数は、非常に制約の厳しい理論的ベンチマークにおいて印象的です。
YOLO26を選択すべき時
YOLO26は、実世界アプリケーションを構築する開発者、エンジニア、および企業に推奨される選択肢です。
- エッジデプロイメント: DFLの削除とCPU推論の最適化により、モバイルアプリやIoTデバイスに最適です。
- 複雑なシナリオ: ProgLoss関数とSTALは、ドローン画像や衛星分析のような小さなオブジェクトを含むシナリオにおいて、具体的な利点を提供します。
- マルチタスク要件: 将来的にセグメンテーションや姿勢推定が必要になる可能性のあるプロジェクトでも、ライブラリを切り替えることなく同じコードベース内で作業を継続できます。
- プロダクションの安定性: ONNX、TensorRT、CoreML、OpenVINOに対する堅牢なエクスポートサポートにより、トレーニングしたモデルを確実にデプロイできます。
結論
YOLOv10がNMS-free detectの可能性を広く知らしめた一方で、YOLO26はこの技術を洗練させ、実用化しました。エンドツーエンド設計と高度なLLM着想オプティマイザー、タスクの多様性、そしてUltralyticsプラットフォームの堅牢なサポートを組み合わせることで、YOLO26は2026年における実用的で高性能なコンピュータービジョン開発において優れた選択肢として際立っています。
同様の最先端オプションを検討している開発者向けには、YOLO11モデルも優れた性能を提供し、レガシーワークフローに対して完全にサポートされています。