YOLO26 vs YOLOv10: エンドツーエンド物体検出の進化
リアルタイム物体検出の状況は急速に進化し、複雑な多段階パイプラインから合理化されたエンドツーエンドアーキテクチャへと移行しています。この移行における2つの重要なモデルは、YOLO26(Ultralyticsが提供する最新の最先端モデル)と、清華大学の学術的ブレークスルーであるYOLOv10です。
両モデルは、デプロイメントを簡素化するためにNon-Maximum Suppression (NMS)の削除を提唱していますが、最適化の目標、エコシステムサポート、およびアーキテクチャの改良において大きく異なります。このガイドでは、コンピュータビジョンプロジェクトに適したツールを選択できるよう、両者の違いについて技術的な詳細を掘り下げて説明します。
パフォーマンスベンチマーク
以下の表は、COCO検証データセットにおけるYOLO26とYOLOv10の性能を比較したものです。YOLO26は、特にエッジデプロイメント向けに最適化されているCPUハードウェアにおいて、優れた精度 (mAP) と推論速度を示します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Ultralytics YOLO26
YOLO26は、2026年1月にリリースされたUltralyticsモデルファミリーの頂点です。YOLOv8とYOLO11の遺産の上に構築され、NMS後処理の必要性を排除しつつ、エッジデバイスで大幅な速度向上を実現するネイティブなエンドツーエンド設計を導入しています。
主要なアーキテクチャ革新
- エンドツーエンドNMSフリー推論: YOLOv10と同様に、YOLO26はNMSステップを削除します。これによりデプロイメントパイプラインが簡素化され、モデル出力が下流のロジックにすぐに利用できるようになり、リアルタイムシステムにおけるレイテンシのばらつきが低減されます。
- DFLの削除: このアーキテクチャはDistribution Focal Loss (DFL) を削除します。この変更により、ONNXやTensorRTなどの形式へのエクスポートプロセスが大幅に簡素化され、複雑な出力層に苦慮する可能性のある低電力エッジハードウェアとの互換性が向上します。
- MuSGDオプティマイザ: Stochastic Gradient Descent (SGD)とMuon(Moonshot AIのLLMトレーニング技術に触発されたもの)を組み合わせた新しいトレーニングオプティマイザです。これにより、従来のAdamWやSGDのセットアップと比較して、より速い収束とより安定したトレーニング実行が実現します。
- ProgLoss + STAL: Progressive Loss BalancingとSmall-Target-Aware Label Assignment (STAL) の統合は、object detectionにおける一般的な弱点に直接対処し、特に航空画像や物流で見られる小さな物体に対する性能を向上させます。
ユースケースと強み
YOLO26はユニバーサルビジョンモデルとして設計されています。detectに加えて、インスタンスsegmentation、姿勢推定、oriented bounding box (obb) detect、および画像分類をネイティブにサポートしています。
CPU推論に最適化されているため、GPUリソースが利用できないRaspberry Piやモバイルデバイス上での実行など、エッジAIアプリケーションにとって理想的な選択肢となります。
エッジ効率
YOLO26は、前世代と比較して最大43%高速なCPU推論に最適化されており、バッテリー駆動のIoTデバイスや組み込みシステムにとって画期的なものとなります。
YOLOv10
清華大学の研究者によって開発されたYOLOv10は、YOLOファミリーにNMSフリーのトレーニングを導入した先駆的なモデルでした。モデルヘッドの冗長性を減らし、後処理の計算ボトルネックを排除することに重点を置いています。
主な特徴
- 一貫したデュアルアサインメント: YOLOv10は、トレーニング中にデュアルアサインメント戦略を採用しています。豊富な教師信号には多対一のアサインメントを、効率性には一対一のアサインメントを使用します。これにより、推論時にエンドツーエンドで機能しながら、モデルを効果的にトレーニングできます。
- 包括的な効率設計: このアーキテクチャは、軽量な分類ヘッドと空間チャネル分離ダウンサンプリングを利用して、計算オーバーヘッド (FLOPs) を削減します。
- ランクガイド型ブロック設計: 効率を向上させるために、YOLOv10はネットワークの段階に基づいてブロック設計を適応させ、より深い層での冗長性を低減します。
制限事項
革新的ではありますが、YOLOv10は主に学術研究プロジェクトです。YOLO26に見られるような広範なタスクサポート(公式リポジトリにおけるネイティブなobbやPoseモデルなど)を欠いており、Ultralyticsエコシステムが提供する継続的なメンテナンスや統合サポートと同レベルの恩恵を受けていません。
詳細な技術比較
トレーニングと最適化
YOLO26は、大規模言語モデル (LLM) トレーニングからの安定性に関する革新をコンピュータビジョンにもたらすハイブリッドアプローチであるMuSGDオプティマイザを導入しています。これは、標準的な最適化技術に依存するYOLOv10とは対照的です。さらに、YOLO26はProgLoss(Progressive Loss)を採用し、トレーニング中に損失重みを動的に調整することで、トレーニングの進行とともにモデルがより困難な例に焦点を当てるようにします。
推論速度とデプロイ
両モデルはエンドツーエンド推論を提供し、NMSボトルネックを解消します。しかし、YOLO26はDFLを削除することでこれをさらに進めており、これはしばしばCoreMLやTFLiteのエクスポートを複雑にします。ベンチマークでは、YOLO26がCPUで最大43%高速な推論を達成していることが示されており、これは理論的なGPU FLOP削減だけでなく、実用的で現実世界のエッジデプロイメントに焦点を当てていることを強調しています。
汎用性とエコシステム
Ultralytics YOLO26は単なるdetectモデルではなく、プラットフォームです。ユーザーは同じAPIを使用して、segment、姿勢推定、obbなどのタスクをシームレスに切り替えることができます。
from ultralytics import YOLO
# Load a YOLO26 model for different tasks
model_det = YOLO("yolo26n.pt") # Detection
model_seg = YOLO("yolo26n-seg.pt") # Segmentation
model_pose = YOLO("yolo26n-pose.pt") # Pose Estimation
# Run inference
results = model_det("image.jpg")
対照的に、YOLOv10は主に物体検出に焦点を当てており、これらの複雑な下流タスクに対する公式サポートは限られています。
Ultralytics YOLO26を選ぶ理由
開発者や企業にとって、YOLO26はより堅牢なソリューションを提供します。
- 使いやすさ: Ultralyticsのpython APIとCLIは、そのシンプルさで業界標準となっています。トレーニング、検証、エクスポートはすべて単一行コマンドです。
- 十分に維持されたエコシステム: Ultralyticsは、頻繁なアップデート、バグ修正、およびDiscordとGitHubでの活発なコミュニティを提供しています。
- トレーニング効率: 全てのタスクとサイズに対応する事前学習済み重みが利用可能であるため、転移学習は高速かつ効率的であり、RT-DETRのようなTransformerベースの代替モデルよりもGPUメモリの消費が少なくて済みます。
- デプロイメント対応: OpenVINO、TensorRT、ONNXを含む幅広いエクスポート形式をサポートしているため、モデルがあらゆる場所で実行可能です。
結論
YOLOv10がNMSフリーのYOLOアーキテクチャを先駆けて導入した一方で、YOLO26はこのコンセプトを洗練させ、本番環境に対応した強力なものへと発展させました。YOLO26は、その優れた精度、特化したエッジ最適化、および包括的なタスクサポートにより、スマートシティ分析から農業監視に至るまで、最新のコンピュータビジョンアプリケーションに推奨される選択肢です。
その他の検討すべきモデル
Ultralyticsエコシステム内で他の選択肢を検討することに興味がある場合は、以下もご検討ください。
- YOLO11: 信頼性の高い前身モデルで、優れた汎用性能を提供します。
- YOLO-World: トレーニングデータに存在しないオブジェクトをdetectする必要があるオープンボキャブラリー検出向け。
- RT-DETR: 推論速度がそれほど重要でない、高精度が求められるシナリオ向けのTransformerベースのdetector。