YOLO . YOLO26:次世代リアルタイム物体検出アーキテクチャの分析
コンピュータビジョンの分野は、高精度と低遅延推論を両立させるアーキテクチャの必要性により、絶えず進化を続けている。本比較では、Ultralytics YOLO26の技術的複雑性に深く迫り、両者のアーキテクチャ革新、トレーニング手法、および理想的なユースケースを探求する。
エッジデバイスへのビジョンモデル展開であれ、高スループットなクラウドパイプライン構築であれ、これらのモデル間の微妙な差異を理解することは、現代のAI開発において情報に基づいたアーキテクチャ決定を行う上で極めて重要です。
YOLO: 大規模ニューラルアーキテクチャ探索
アリババグループが開発したYOLO、2022年11月23日にリリースされた。徐賢哲、江一琪、陳偉華、黄一倫、張元、孫秀宇によって設計されたこのモデルは、ニューラルアーキテクチャ検索(NAS)を用いた効率的なアーキテクチャの自動発見に重点を置いている。
彼らのArXiv論文でオリジナル研究を確認するか、YOLO リポジトリでソースコードを閲覧できます。
主要なアーキテクチャ機能
YOLO 、リアルタイム物体検出の限界を押し広げるために設計された複数の技術的革新YOLO :
- MAE-NASバックボーン:YOLO 多目的進化探索YOLO 最適なバックボーンを発見する。このNASアプローチは、特定のハードウェア上で検出精度と推論速度を厳密にバランスさせるアーキテクチャを発見する。
- 効率的なRepGFPN:特徴融合を大幅に改善するヘビーネック設計であり、航空写真に見られるような複雑なシーンを分析する際に極めて有益である。
- ゼロヘッド設計:最終予測層の計算複雑性を最小化する、大幅に簡略化された検出ヘッド。
- AlignedOTAと知識蒸留:YOLO ラベル割り当ての曖昧性を解決するためAligned Optimal Transport Assignment(AlignedOTA)YOLO 、大規模な教師ネットワークを用いて小規模な生徒モデルの精度を向上させるための堅牢な知識蒸留強化戦略と組み合わせる。
Ultralytics のUltralytics :YOLO26
2026年1月14日、Glenn JocherとJing Qiuにより公開 UltralyticsによってリリースされたYOLO26は、アクセスしやすく高性能なビジョンAIの頂点を体現しています。 YOLO11 と YOLOv10の遺産を継承し、エッジファースト展開、マルチモーダル対応、比類なき使いやすさを追求して一から設計されています。
YOLO26 イノベーション
Ultralytics 、現代のコンピュータビジョンアプリケーションにおける決定的な選択肢となる画期的な機能を複数導入しています:
- エンドツーエンドNMS:YOLO26は非最大抑制(NMS)後処理をネイティブに排除します。YOLOv10初めて導入されたこのエンドツーエンドアプローチは、デプロイメントパイプラインを大幅に簡素化し、決定論的で低遅延の推論を保証します。
- 最大43%高速CPU :エッジコンピューティング向けにアーキテクチャ最適化されたYOLO26は、エッジデバイスや標準CPU上で卓越した速度を実現し、バッテリー駆動のIoTデバイスに最適です。
- MuSGDオプティマイザ:大規模言語モデル(LLM)のトレーニング(Moonshot AIのKimi K2など)に着想を得て、YOLO26SGD ハイブリッド手法を採用しています。これにより、大規模言語モデルのトレーニングにおける安定性がコンピュータビジョンにもたらされ、より高速で信頼性の高い収束を実現します。
- DFL除去:ディストリビューション・フォーカルロスを除去することでモデルグラフが簡素化され、ONNXなどのフォーマットへの摩擦のないエクスポートが可能になります ONNX や TensorRTなどへのエクスポートを可能にします。
- ProgLoss + STAL:これらの高度な損失関数は、ドローン運用や 農業において重要な機能である小物体認識において顕著な改善をもたらします。
タスク特化型強化
YOLO26は複数のモダリティにわたる特化的な改良を含みます:インスタンスセグメンテーションのためのマルチスケールプロトタイプ、姿勢推定のための残差対数尤度推定(RLE)、および方向付き境界ボックス(OBB)検出における境界問題を緩和するための高度な角度損失です。
パフォーマンス比較
これらのモデルを評価する際には、精度(mAP)と計算効率(処理速度/FLOPs)のバランスが最も重要である。下表は、業界標準COCO を用いたこれらのモデルの比較結果を示している。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
上記のように、YOLO26は一貫して高い精度を実現しつつ、パラメータ数とFLOPsを大幅に削減しており、これにより学習と推論の両方においてはるかに効率的なアーキテクチャを実現している。
トレーニングの効率性と使いやすさ
YOLOの複雑性
YOLO 競争力のある精度YOLO 一方で、そのトレーニング手法は非常に複雑である。ニューラルアーキテクチャ探索(NAS)への依存と高度な知識蒸留を必要とするため、カスタムモデルのトレーニングには多くの場合、GPU 専門知識が求められる。巨大な教師モデルをトレーニングし、それをより小さな生徒モデルに蒸留するというこの多段階プロセスは、カスタムデータセットで迅速な反復を試みるアジャイルエンジニアリングチームのボトルネックとなり得る。
合理化されたUltralytics
一方、Ultralytics 「ゼロからヒーローへ」の使いやすさを追求して設計されています。トレーニング、検証、デプロイの全ライフサイクルが、洗練されたPython CLI背後で抽象化されています。さらに、YOLO26は大幅に少ない CUDA メモリを必要とします。 RT-DETRなどのトランスフォーマーベースのモデルと比較して大幅に少ないCUDAメモリしか必要としないため、研究者はコンシューマーグレードのハードウェア上で最先端モデルをトレーニングできます。
Ultralytics SDKを使用してYOLO26モデルのトレーニング、評価、エクスポートを簡単に行う方法の例を以下に示します:
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the model's performance on the validation set
metrics = model.val()
# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export the model to ONNX format for deployment
model.export(format="onnx")
ノーコード環境を好むチーム向けに、Ultralytics データセットの注釈付け、クラウドトレーニング、シームレスなデプロイのための直感的なインターフェースを提供します。
現実世界のアプリケーション
適切なアーキテクチャの選択は、対象となるデプロイ環境とハードウェアの制約に大きく依存します。
工業品質管理
高速製造自動化においては、YOLO専用GPU 上で良好な性能を発揮する。しかし、現代の組立ラインではYOLO26が推奨される選択肢である。そのエンドツーエンドNMS設計は、決定論的でジッターのない遅延を保証し、これは視覚データをロボットアクチュエータとリアルタイムで同期させる際に不可欠である。
エッジAIとモバイルデバイス
バッテリー駆動デバイスへのコンピュータビジョンの展開には、極めて高い効率性が求められます。YOLO 特定のRepGFPNネックにYOLO に対し、YOLO26n(Nano)はエッジコンピューティング向けに特別に最適化されています。DFLの除去 CPU 、スマートカメラ、モバイルアプリケーション、セキュリティ警報システム向けの究極のソリューションとなっています。
マルチモーダルプロジェクト要件
プロジェクトが単なる物体検出以上の機能を必要とする場合(例:姿勢推定を用いたスポーツ選手の動作解析、インスタンスセグメンテーションによる正確なピクセル境界の抽出など)、YOLO26は単一の統合コードベース内でこれら全てのタスクをネイティブにサポートします。YOLO バウンディングボックス検出に厳密にYOLO
ユースケースと推奨事項
YOLO 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステム上の好みに依存します。
DAMO-YOLOを選択するタイミング
YOLO 以下に最適YOLO :
- 高スループット動画解析:固定NVIDIA GPU 上で高FPS動画ストリームを処理し、バッチ1スループットを主要指標とする。
- 産業用製造ライン:専用ハードウェア上でGPU 厳しい制約があるシナリオ。例:組立ラインにおけるリアルタイム品質検査。
- ニューラルアーキテクチャ探索研究:自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンが検出性能に及ぼす影響の検討。
YOLO26を選択すべき時
YOLO26は以下に推奨されます:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
結論
両アーキテクチャは深層学習分野における重要な成果である。YOLO、特定のハードウェアベンチマーク向けに最適化されたニューラルアーキテクチャ探索と蒸留技術の威力を示唆する興味深い事例である。
しかし、開発者、研究者、そして実運用可能なソリューションを求める企業にとって、Ultralytics 卓越した選択肢として際立っています。エンドツーエンドNMS設計、CPU 性能向上、マルチモーダル対応の汎用性、そしてUltralytics への統合を兼ね備えることで、今日の現実世界のコンピュータビジョン課題を解決する上で最も堅牢かつ実用的なツールとなっています。
Ultralytics モデルを探索したいユーザー向けに、以下の包括的なドキュメントが利用可能です。 YOLO11、 YOLOv8、およびトランスフォーマーベースの RT-DETR。