YOLOv10 YOLO26: エンドツーエンド物体検出の進化
コンピュータビジョンの分野では近年、複雑で後処理を多用するアーキテクチャから、効率化されたエンドツーエンドモデルへと移行する目覚ましい進歩が見られた。本技術比較では、この変遷における二つの主要なマイルストーン——学術的ブレークスルーYOLOv10 最先端の企業導入対応モデルYOLO26——を掘り下げる。両モデルのアーキテクチャ、トレーニング手法、実環境での展開能力を検証することで、開発者は次世代ビジョンAIアプリケーション構築時に適切な判断を下せるようになる。
YOLOv10:画期的なエンドツーエンド物体検出
著者:Ao Wang、Hui Chen、Lihao Liu 他
所属:清華大学
日付:2024-05-23
リンク:arXiv論文 | GitHubリポジトリ
2024年半ばに発表YOLOv10 、リアルタイム物体検出における最も根強いボトルネックの一つである非最大抑制(NMS)に対処することで、学術的なコンピュータビジョン研究において大きな飛躍YOLOv10 。従来の物体検出器は冗長なバウンディングボックスNMS 大きく依存しており、推論時に変動する遅延を生じさせ、エッジデバイスへの展開を複雑化させていた。
清華大学チームは、NMSのための一貫した二重割り当て戦略を導入した。これにより、後処理フィルタリングステップを必要とせずにモデルが正確にバウンディングボックスを予測できるようになり、推論レイテンシが直接改善され、ハードウェアアクセラレータへの展開障壁が低下した。標準的な検出タスクでは非常に効率的であったが、このモデルは主にバウンディングボックス予測に焦点を当てており、インスタンスセグメンテーションや姿勢推定といったより複雑なタスクに対するネイティブサポートを欠いていた。
YOLO26:エッジおよびクラウドビジョンAIの新たな標準
著者:Glenn Jocher、Jing Qiu
所属:Ultralytics
日付:2026-01-14
リンク:GitHubリポジトリ | Ultralyticsプラットフォーム
以前に開拓されたNMSフリーの概念を基盤とし、新しくリリースされたYOLO26は、パフォーマンスと汎用性の頂点を表しています。学術研究とエンタープライズグレードのデプロイメントの両方のために設計されており、ネイティブにエンドツーエンドのNMSフリー設計を組み込んでおり、NMSの後処理を完全に排除することで、すべてのサポートされるハードウェアでのより高速でシンプルなデプロイメントを実現します。
YOLO26はいくつかの画期的なアーキテクチャ改良を導入しています。分布焦点損失(DFL)の削除により、モデルのエクスポートプロセスが大幅に簡素化され、低電力エッジデバイスとの互換性が向上しました。これらの構造的変更と相まって、 CPU 最大43%高速化し、GPU 利用できないIoTやロボティクスアプリケーションにおいて優れた選択肢となっています。
さらに、LLMトレーニング技術に着想を得たSGD ミューオンのハイブリッドであるMuSGDオプティマイザーの採用により、トレーニングの安定性と収束速度が革新されました。ProgLoss + STALなどの先進的な損失関数と組み合わせることで、YOLO26は小規模物体認識において顕著な改善を実現。さらに、セグメンテーション向けマルチスケールプロトタイピング、姿勢推定向け残差対数尤度推定(RLE)、オリエンテッドバウンディングボックス(OBB)検出における境界問題を解決する専用角度損失など、タスク特化型の強化機能を導入している。
エンタープライズ展開
コンピュータビジョンワークフローをスケールアップしたいチームにとって、Ultralytics PlatformはYOLO26とのシームレスな統合を提供し、直感的なデータアノテーション、自動化されたクラウドトレーニング、そして広範なMLOpsインフラストラクチャを必要としないワンクリックデプロイメントオプションを提供します。
技術的パフォーマンス比較
これらのモデルを評価する際には、精度、モデルサイズ、推論速度のバランスが極めて重要である。下表は、標準的なCOCO を用いて評価した、両モデルファミリーの様々なスケールにおける性能を比較したものである。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
データは、新しいアーキテクチャの進化的な優位性を明確に示している。YOLO26は、すべてのサイズ階層でよりmAP 平均精度)mAP 達成しつつ、非常に競争力のある推論速度を維持している。YOLO26におけるDFLの除去は、特にそのCPU ONNX に寄与しており、この指標では従来世代がしばしば苦戦していた。
トレーニング方法論とエコシステム
モデルの有用性は、それをサポートするエコシステムによって決まります。YOLOv10はPyTorchに基づいた優れた学術的実装を提供しましたが、基本的な detect 以外のタスクでは手動設定が必要となることがよくあります。
対照的に、YOLO26は整備されたUltralytics に完全に統合されている。これにより、Transformerベースのモデルと比較して、トレーニング時のメモリ要件が大幅に低減される。 RT-DETRなどのトランスフォーマーベースのモデルと比較して、トレーニング時のメモリ要件を大幅に低減します。これにより、研究者はコンシューマーグレードのハードウェア上で最先端のネットワークをトレーニングできます。使いやすさは比類なく、データ拡張、ハイパーパラメータ調整、ロギングを自動的に処理する統一APIを提供します。
コード例:YOLO26のトレーニング
汎用性が高く高精度なモデルを訓練するには、わずか数行のPython で済みます:
from ultralytics import YOLO
# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with automatic memory management
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
)
# Export natively to TensorRT without NMS complexities
model.export(format="engine")
実世界でのアプリケーションとユースケース
適切なアーキテクチャの選択は、デプロイメントの制約に完全に依存します。
高速エッジコンピューティング
マイクロコントローラ、ロボット工学、またはレガシーモバイルデバイスへの迅速な展開を必要とするアプリケーションにおいて、YOLO26の43%高速なCPU推論は決定的な選択肢となります。そのNMSフリー、DFLフリーアーキテクチャは、OpenVINOやTensorRTのような形式にシームレスに変換でき、スマートシティインフラにおけるリアルタイムビデオ分析に理想的です。
高度なマルチタスクビジョン
YOLOv10 純粋な境界ボックス検出にYOLOv10 一方、豊富な視覚理解を必要とするプロジェクトではYOLO26に依存せざるを得ない。医療画像におけるインスタンスセグメンテーションからスポーツ分析のための精密姿勢推定まで、YOLO26は多様な領域で優れた精度を保証するタスク特化型の損失関数を提供する。
代替オプション
プロジェクトで堅牢なオープンボキャブラリ検出が必要な場合は、YOLOの検討をお勧めします。レガシーパイプラインを維持しているユーザー向けには、 YOLO11Ultralytics 内で完全サポートされた強力な代替手段として引き続き利用可能です。
ユースケースと推奨事項
YOLOv10とYOLO26のどちらを選択するかは、特定のプロジェクト要件、デプロイメントの制約、およびエコシステムの好みに依存します。
YOLOv10を選択すべき時
YOLOv10 以下に最適YOLOv10 :
- NMSフリーのリアルタイムdetect: Non-Maximum Suppressionなしのエンドツーエンドのdetectから恩恵を受け、デプロイの複雑さを軽減するアプリケーション。
- 速度と精度のバランスの取れたトレードオフ: さまざまなモデルスケールにおいて、推論速度と検出精度の強力なバランスを必要とするプロジェクト。
- 一貫したレイテンシが求められるアプリケーション: ロボット工学や自律システムなど、予測可能な推論時間が重要となるデプロイメントシナリオ。
YOLO26を選択すべき時
YOLO26は以下に推奨されます:
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
結論
YOLOv10 移行は、学術的な概念実証から実運用可能なエンタープライズソリューションへの重要な転換点を示しています。先駆的なNMS設計を採用し、MuSGDオプティマイザ、ProgLoss、効率化されたエッジ互換性で強化されたYOLO26は、リアルタイムコンピュータビジョンにおける可能性の新たな基準を確立しました。 速度、精度、使いやすさの最適なバランスを追求する開発者にとって、YOLO26は究極の選択肢として際立っています。