YOLOv10 vs YOLO26: エンドツーエンド物体検出の進化

コンピュータビジョンの分野は近年、複雑で後処理に依存したアーキテクチャから、効率化されたエンドツーエンドモデルへと移行し、目覚ましい発展を遂げました。本技術比較では、この過程における2つの重要なマイルストーン、つまり学術的なブレークスルーであるYOLOv10と、最先端でエンタープライズ向けのYOLO26について掘り下げます。そのアーキテクチャ、学習手法、そして実環境でのデプロイメント能力を検証することで、開発者は次世代のビジョンAIアプリケーションを構築する際に、情報に基づいた意思決定が可能になります。

YOLOv10: エンドツーエンド物体検出の先駆者

著者: Ao Wang, Hui Chen, Lihao Liu 他
組織: Tsinghua University
日付: 2024-05-23
リンク: arXiv Paper | GitHub Repository

2024年半ばにリリースされたYOLOv10は、リアルタイム物体検出における最も永続的なボトルネックの一つであるNMS(Non-Maximum Suppression)に対処することで、学術的なコンピュータビジョン研究に大きな飛躍をもたらしました。従来の物体検出器は、冗長なバウンディングボックスを除去するためにNMSに大きく依存しており、推論時のレイテンシを変動させ、エッジへのデプロイメントを複雑にしていました。

清華大学のチームは、NMS不要の学習に向けた一貫性のあるデュアルアサインメント戦略を導入しました。これにより、モデルは後処理のフィルタリングステップを必要とせずに正確にバウンディングボックスを予測できるようになり、推論レイテンシを直接的に改善し、ハードウェアアクセラレータへのデプロイの障壁を下げました。標準的な検出タスクには非常に効率的ですが、このモデルは主にバウンディングボックスの予測に重点を置いており、インスタンスセグメンテーションや姿勢推定といったより複雑なタスクへのネイティブなサポートは不足していました。

YOLOv10の詳細はこちら

YOLO26: エッジおよびクラウドビジョンAIの新たな標準

著者: Glenn Jocher, Jing Qiu
組織: Ultralytics
日付: 2026-01-14
リンク: GitHub Repository | Ultralytics Platform

以前に先駆けて行われたNMS不要のコンセプトを基盤として、新たにリリースされたYOLO26は、パフォーマンスと汎用性の頂点を体現しています。学術研究とエンタープライズグレードのデプロイメントの両方を念頭に設計されており、エンドツーエンドのNMS不要設計をネイティブに組み込んでいます。これにより、NMSの後処理を完全に排除し、サポートされているすべてのハードウェアにおいて、より高速かつシンプルなデプロイメントを実現します。

YOLO26はいくつかの画期的なアーキテクチャの改善を導入しています。Distribution Focal Loss (DFL) の削除により、モデルのエクスポートプロセスが大幅に簡素化され、低電力エッジデバイスとの互換性が向上しました。これらの構造的変化と相まって、YOLO26は最大43%高速なCPU推論を達成しており、GPUアクセラレーションが利用できない場合が多いIoTやロボティクスアプリケーションにおいて、極めて優れた選択肢となっています。

さらに、LLM学習技術に触発されたSGDとMuonのハイブリッドであるMuSGD Optimizerの使用により、学習の安定性と収束速度に革命がもたらされました。ProgLoss + STALといった高度な損失関数と組み合わせることで、YOLO26は小さなオブジェクトの認識において注目すべき改善を誇ります。また、セグメンテーション用のマルチスケールプロトタイピング、姿勢推定用のResidual Log-Likelihood Estimation (RLE)、およびOBB(Oriented Bounding Box)検出における境界問題を解決するための専用の角度損失など、タスク固有の強化も導入しています。

YOLO26の詳細はこちら

エンタープライズデプロイメント

コンピュータビジョンのワークフローを拡張しようとするチームのために、Ultralytics PlatformはYOLO26とのシームレスな統合を提供します。直感的なデータアノテーション、自動クラウド学習、および大規模なMLOpsインフラを必要としないワンクリックデプロイメントオプションを提供します。

技術的パフォーマンス比較

これらのモデルを評価する際、精度、モデルサイズ、推論速度のバランスが重要です。以下の表は、標準的なCOCO datasetで評価された、様々なスケールにおける両モデルファミリーのパフォーマンスを強調しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

データは、新しいアーキテクチャの進化的な優位性を明確に示しています。YOLO26は、高度に競争力のある推論速度を維持しながら、すべてのサイズ層でより高いmAP (mean Average Precision)を達成しています。YOLO26におけるDFLの削除は、特に優れたCPU ONNXパフォーマンスに寄与しており、これは以前の世代が苦戦していたメトリクスです。

学習手法とエコシステム

モデルはそれをサポートするエコシステムがあってこそ有用なものとなります。YOLOv10はPyTorchに基づいた優れた学術的実装を提供しましたが、基本的な検出以外のタスクには手動の構成が必要となることが多くあります。

対照的に、YOLO26は十分にメンテナンスされたUltralyticsエコシステムに完全に統合されています。RT-DETRのようなTransformerベースのモデルと比較して、学習時のメモリ要件が大幅に低いため、研究者は民生用ハードウェアで最先端のネットワークを学習させることができます。その使いやすさは比類がなく、データ拡張、ハイパーパラメータチューニング、ロギングを自動的に処理する統合APIを提供しています。

コード例: YOLO26の学習

汎用的で高精度なモデルの学習には、わずか数行のPythonコードが必要です:

from ultralytics import YOLO

# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model efficiently with automatic memory management
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
)

# Export natively to TensorRT without NMS complexities
model.export(format="engine")

実際のアプリケーションとユースケース

適切なアーキテクチャの選択は、デプロイメントの制約に完全に依存します。

高速エッジコンピューティング

マイクロコントローラ、ロボティクス、またはレガシーなモバイルデバイスへの迅速なデプロイメントを必要とするアプリケーションにとって、YOLO26の43%高速なCPU推論は決定的な選択となります。そのNMS不要、DFL不要のアーキテクチャは、OpenVINOTensorRTのようなフォーマットにシームレスに変換され、スマートシティインフラにおけるリアルタイムビデオ分析に最適です。

高度なマルチタスクビジョン

YOLOv10は純粋なバウンディングボックス検出に優れていますが、高度な視覚的理解を必要とするプロジェクトではYOLO26に頼る必要があります。医療画像におけるinstance segmentationから、スポーツ分析のための精密なpose estimationまで、YOLO26は多様なドメインで優れた精度を保証するタスク固有の損失関数を提供します。

その他の選択肢

プロジェクトで堅牢なオープンボキャブラリー検出が必要な場合は、YOLO-Worldの調査を検討してください。レガシーなパイプラインを維持しているユーザーには、YOLO11が、Ultralyticsフレームワーク内で引き続き完全にサポートされる強力な代替手段となります。

ユースケースと推奨事項

YOLOv10とYOLO26のどちらを選択するかは、プロジェクト固有の要件、デプロイメントの制約、およびエコシステムの好みによって決まります。

YOLOv10を選ぶべき場合

YOLOv10は以下の用途に強力な選択肢です:

  • NMSフリーのリアルタイム検出: Non-Maximum Suppressionなしでエンドツーエンドの検出を行い、デプロイの複雑さを軽減できるアプリケーション。
  • バランスの取れた速度と精度のトレードオフ: さまざまなモデルスケール全体で、推論速度と検出精度の強力なバランスが求められるプロジェクト。
  • Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.

YOLO26を選ぶべき場合

YOLO26は以下の場合に推奨されます:

  • NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
  • 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。

結論

YOLOv10からYOLO26への移行は、学術的な概念実証から製品対応のエンタープライズソリューションへの重要なシフトを浮き彫りにしています。先駆的なNMS不要設計を採用し、MuSGDオプティマイザ、ProgLoss、および合理化されたエッジ互換性で強化することで、YOLO26はリアルタイムコンピュータビジョンで何が可能かという新たなベンチマークを打ち立てています。速度、精度、使いやすさの最良のバランスを達成することを目指す開発者にとって、YOLO26は究極の推奨事項として際立っています。

コメント