コンテンツにスキップ

YOLOv10 YOLO26: エンドツーエンド物体検出の進化

コンピュータビジョンの分野では近年、複雑で後処理を多用するアーキテクチャから、効率化されたエンドツーエンドモデルへと移行する目覚ましい進歩が見られた。本技術比較では、この変遷における二つの主要なマイルストーン——学術的ブレークスルーYOLOv10 最先端の企業導入対応モデルYOLO26——を掘り下げる。両モデルのアーキテクチャ、トレーニング手法、実環境での展開能力を検証することで、開発者は次世代ビジョンAIアプリケーション構築時に適切な判断を下せるようになる。

YOLOv10:画期的なエンドツーエンド物体検出

著者: Ao Wang, Hui Chen, Lihao Liu, et al.
所属機関:清華大学
日付: 2024-05-23
リンク:arXiv論文|GitHubリポジトリ

2024年半ばに発表YOLOv10 、リアルタイム物体検出における最も根強いボトルネックの一つである非最大抑制(NMS)に対処することで、学術的なコンピュータビジョン研究において大きな飛躍YOLOv10 。従来の物体検出器は冗長なバウンディングボックスNMS 大きく依存しており、推論時に変動する遅延を生じさせ、エッジデバイスへの展開を複雑化させていた。

清華大学チームは、NMSのための一貫した二重割り当て戦略を導入した。これにより、後処理フィルタリングステップを必要とせずにモデルが正確にバウンディングボックスを予測できるようになり、推論レイテンシが直接改善され、ハードウェアアクセラレータへの展開障壁が低下した。標準的な検出タスクでは非常に効率的であったが、このモデルは主にバウンディングボックス予測に焦点を当てており、インスタンスセグメンテーションや姿勢推定といったより複雑なタスクに対するネイティブサポートを欠いていた。

YOLOv10について詳しくはこちら

YOLO26:エッジおよびクラウドビジョンAIの新たな標準

著者: Glenn Jocher と Jing Qiu
組織: Ultralytics
日付: 2026-01-14
リンク:GitHub リポジトリ|Ultralytics

先に確立NMS概念を基盤とし、新たにリリースされたYOLO26は性能と汎用性の頂点を体現しています。学術研究とエンタープライズグレードの展開の両方を想定して設計され、エンドツーエンドNMS設計をネイティブに組み込み、NMS 完全に排除することで、サポート対象の全ハードウェアにおいてより高速かつ簡便な展開を実現します。

YOLO26はいくつかの画期的なアーキテクチャ改良を導入しています。分布焦点損失(DFL)の削除により、モデルのエクスポートプロセスが大幅に簡素化され、低電力エッジデバイスとの互換性が向上しました。これらの構造的変更と相まって、 CPU 最大43%高速化し、GPU 利用できないIoTやロボティクスアプリケーションにおいて優れた選択肢となっています。

さらに、LLMトレーニング技術に着想を得たSGD ミューオンのハイブリッドであるMuSGDオプティマイザーの採用により、トレーニングの安定性と収束速度が革新されました。ProgLoss + STALなどの先進的な損失関数と組み合わせることで、YOLO26は小規模物体認識において顕著な改善を実現。さらに、セグメンテーション向けマルチスケールプロトタイピング、姿勢推定向け残差対数尤度推定(RLE)、オリエンテッドバウンディングボックス(OBB)検出における境界問題を解決する専用角度損失など、タスク特化型の強化機能を導入している。

YOLO26についてさらに詳しく

エンタープライズ導入

コンピュータビジョンワークフローの拡張を目指すチーム向けに、Ultralytics YOLO26とのシームレスな統合を提供します。これにより、直感的なデータアノテーション、自動化されたクラウドトレーニング、ワンクリックデプロイメントオプションを実現し、大規模なMLOpsインフラを必要としません。

技術的パフォーマンス比較

これらのモデルを評価する際には、精度、モデルサイズ、推論速度のバランスが極めて重要である。下表は、標準的なCOCO を用いて評価した、両モデルファミリーの様々なスケールにおける性能を比較したものである。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

データは、新しいアーキテクチャの進化的な優位性を明確に示している。YOLO26は、すべてのサイズ階層でよりmAP 平均精度)mAP 達成しつつ、非常に競争力のある推論速度を維持している。YOLO26におけるDFLの除去は、特にそのCPU ONNX に寄与しており、この指標では従来世代がしばしば苦戦していた。

トレーニング方法論とエコシステム

モデルは、それを支えるエコシステムによってのみ有用性が決まる。YOLOv10 PyTorchに基づく優れた学術的実装を提供したが、基本的な検出を超えるタスクでは手動設定が必要となる場合が多かった。

対照的に、YOLO26は整備されたUltralytics に完全に統合されている。これにより、Transformerベースのモデルと比較して、トレーニング時のメモリ要件が大幅に低減される。 RT-DETRなどのトランスフォーマーベースのモデルと比較して、トレーニング時のメモリ要件を大幅に低減します。これにより、研究者はコンシューマーグレードのハードウェア上で最先端のネットワークをトレーニングできます。使いやすさは比類なく、データ拡張、ハイパーパラメータ調整、ロギングを自動的に処理する統一APIを提供します。

コード例:YOLO26のトレーニング

汎用性が高く高精度なモデルを訓練するには、わずか数行のPython で済みます:

from ultralytics import YOLO

# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model efficiently with automatic memory management
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
)

# Export natively to TensorRT without NMS complexities
model.export(format="engine")

実世界でのアプリケーションとユースケース

適切なアーキテクチャの選択は、完全にデプロイメントの制約に依存する。

高速エッジコンピューティング

マイクロコントローラー、ロボティクス、またはレガシーモバイルデバイスへの迅速な展開を必要とするアプリケーションにおいて、YOLO26の43%CPU が決定的な選択肢となります。そのNMS・DFL不要のアーキテクチャは、 OpenVINOTensorRTといったフォーマットへシームレスに変換でき、スマートシティインフラにおけるリアルタイム動画解析に最適です。

高度なマルチタスクビジョン

YOLOv10 純粋な境界ボックス検出にYOLOv10 一方、豊富な視覚理解を必要とするプロジェクトではYOLO26に依存せざるを得ない。医療画像におけるインスタンスセグメンテーションからスポーツ分析のための精密姿勢推定まで、YOLO26は多様な領域で優れた精度を保証するタスク特化型の損失関数を提供する。

代替案

プロジェクトで堅牢なオープンボキャブラリ検出が必要な場合は、YOLOの検討をお勧めします。レガシーパイプラインを維持しているユーザー向けには、 YOLO11Ultralytics 内で完全サポートされた強力な代替手段として引き続き利用可能です。

ユースケースと推奨事項

YOLOv10 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムの好みに依存します。

YOLOv10を選択すべき時

YOLOv10 以下に最適YOLOv10 :

  • NMSリアルタイム検出:ノンマキシマム抑制なしのエンドツーエンド検出により、導入の複雑さを軽減するアプリケーション。
  • 速度と精度のバランスの取れたトレードオフ:様々なモデル規模において、推論速度と検出精度との強力なバランスを必要とするプロジェクト。
  • 一貫したレイテンシを必要とするアプリケーション:予測可能な推論時間が極めて重要な展開シナリオ(例:ロボティクスや自律システム)。

YOLO26を選択すべき時

YOLO26は以下に推奨されます:

  • NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
  • CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
  • 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。

結論

YOLOv10 移行は、学術的な概念実証から実運用可能なエンタープライズソリューションへの重要な転換点を示しています。先駆的なNMS設計を採用し、MuSGDオプティマイザ、ProgLoss、効率化されたエッジ互換性で強化されたYOLO26は、リアルタイムコンピュータビジョンにおける可能性の新たな基準を確立しました。 速度、精度、使いやすさの最適なバランスを追求する開発者にとって、YOLO26は究極の選択肢として際立っています。


コメント