YOLO .YOLO11:リアルタイム物体検出の深層分析
物体検出の分野は絶えず進化を続けており、研究者やエンジニアは精度、推論速度、計算効率という相反する要求のバランスを取ることに取り組んでいる。この分野で登場した注目すべき2つのアーキテクチャは、アリババグループが開発YOLOYOLO11が挙げられるUltralytics
YOLO ニューラルアーキテクチャ探索(NAS)と重度再パラメータ化において新たなYOLO 一方で、YOLO11 実用性と汎用性に焦点を当てた洗練されたユーザー中心のアプローチをYOLO11 。本比較では両モデルのアーキテクチャ上の微妙な差異、性能指標、実用的な導入上の考慮事項を探る。
DAMO-YOLO の概要
YOLO アリババのDAMOアカデミーの研究者らが提案した高性能物体検出器YOLO 。特定の制約条件に合わせて効率的なバックボーンを自動設計するニューラルアーキテクチャ探索(NAS)を活用することで、他社製品との差別化を図っている。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織:Alibaba Group
- 日付: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
このアーキテクチャは、特徴融合のための専用RepGFPN(再パラメータ化汎用特徴ピラミッドネットワーク)と「ZeroHead」と呼ばれる軽量ヘッドを統合している。その学習戦略の重要な構成要素は「AlignedOTA」であり、分類タスクと回帰タスク間の不整合問題を解決するために設計された動的ラベル割り当て手法である。さらに、より小型のバリエーションの性能を向上させるため、大規模な「教師」モデルからの蒸留に大きく依存している。
YOLO11
Ultralytics YOLO 遺産をYOLO11 、CSP(Cross Stage Partial)ネットワーク設計を洗練させてパラメータ効率を最大化します。複雑な設定を必要とする研究向けモデルとは異なり、YOLO11 即時の実世界適用をYOLO11 、「すぐに使える」体験を提供します。
- 著者: Glenn Jocher、Jing Qiu
- 組織:Ultralytics
- 日付: 2024-09-27
- ドキュメント:https://docs.ultralytics.com/models/yolo11/
- GitHub:https://github.com/ultralytics/ultralytics
YOLO11 C3k2ブロック設計をYOLO11 、グローバルコンテキストをより効果的に捕捉するためC2PSA(Cross Stage Partial with Spatial Attention)モジュールを導入しています。Ultralytics 完全に統合されており、CPU、GPU、エッジデバイスを含む多様なハードウェア環境において、シームレスなトレーニング、検証、デプロイメントをサポートします。
技術比較
以下の表はモデル間の性能差を比較したものです。YOLO 理論上高い性能YOLO 、YOLO11 特にエクスポートとデプロイのオーバーヘッドを考慮した場合、実用的なシナリオにおいて速度と精度のバランスが取れたプロファイルを提供YOLO11
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
アーキテクチャとトレーニング手法
YOLO、特定の遅延制約下で最適なバックボーン構造を発見するためにMAE-NAS(Masked Autoencoder Neural Architecture Search)を採用する。これにより理論的には効率的なモデルが得られるが、元のNASパイプラインなしでは修正や微調整が困難な場合がある。訓練プロセスは複雑で、多くの場合、まず大規模な教師モデルを訓練して知識を抽出(ディスティル)し、それをより小さなターゲットモデルに適用する二段階アプローチが必要となる。
YOLO11一方、YOLO11 手作業で構築されながらも高度に最適化されたアーキテクチャを採用し、深度、幅、解像度のバランスを実現している。トレーニングパイプラインは合理化されており、補助的な教師モデルや複雑な知識伝達フェーズを必要としない標準的なデータ拡張手法と損失関数を使用する。これにより、深いドメイン知識がなくても、カスタムデータセットでの YOLO11 トレーニングがYOLO11 容易になる。
戒め:複雑さと使いやすさ
YOLOのアプローチYOLO数学的に最適な構造を生成するが、Ultralytics 実用性を優先する。YOLO11 のようなモデルは単一CLI でYOLO11 。 yolo train一方、研究リポジトリでは複雑な設定ファイルや複数段階の準備作業が必要となる場合が多い。
Ultralyticsの利点
モデルの選択は、単純なmAP を超えた判断が必要です。機械学習プロジェクトのライフサイクル全体を考慮する必要があります。Ultralytics YOLO11最先端のYOLO26は、開発を簡素化する明確な利点を提供します。
比類なき使いやすさとエコシステム
Ultralytics 摩擦を低減するよう設計されています。YOLO11 トレーニングには最小限のコードしか必要とせず、Python 全モデルバージョンで一貫しています。これに対しYOLOでは、ユーザーは研究レベルのコードベースを操作することが多く、そこには堅牢なドキュメントや長期的なメンテナンスが欠けている場合があります。
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100)
さらに、Ultralytics は、データセット管理、ラベリング、クラウドトレーニングのためのシームレスなインターフェースを提供し、高度なコンピュータビジョン機能へのアクセスを効果的に民主化します。
タスクを横断する汎用性
Ultralytics を採用する最大の利点は汎用性である。YOLO 主に物体検出器YOLO に対し、YOLO11 同一コードベース内で多様なコンピュータビジョンタスクYOLO11 :
- インスタンスセグメンテーション:物体の精密なマスキング。
- 姿勢推定:人体骨格追跡のためのキーポイント検出
- オリエンテッド・バウンディング・ボックス(OBB):航空写真や角度のある物体に最適。
- Classification: 画像全体の分類。
パフォーマンスとメモリ効率のバランス
Ultralytics 効率的なリソース利用で知られています。YOLO11 、トランスフォーマーを多用するアーキテクチャや複雑なNAS由来モデルと比較して、トレーニング時にCUDA YOLO11 少なくて済みます。これにより開発者はコンシューマー向けGPUでより大きなバッチをトレーニングでき、反復サイクルを加速できます。
推論のため、YOLO11 は ONNX、 TensorRT、CoreMLなどの形式へのエクスポートに最適化されています。これにより、ベンチマークで確認された高い精度が、NVIDIA モジュールからRaspberry Piに至るエッジデバイス上でのリアルタイム性能に確実に反映されます。
今後の展望: YOLO26の力
究極の性能を求める開発者のために、Ultralytics YOLO26 Ultralytics 。この次世代モデルは、画期的なYOLO11 凌駕します:
- エンドツーエンドNMS設計:YOLO26はノンマキシマムサプレッション(NMS)後処理を排除します。このネイティブなエンドツーエンドアプローチはデプロイメントパイプラインを簡素化し、レイテンシ変動を低減します。この機能は YOLOv10で初めて検討された機能です。
- MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニングにおける革新(Moonshot AIのKimi K2など)に着想を得て、YOLO26はより速い収束と高いトレーニング安定性を実現するためMuSGDオプティマイザーを採用しています。
- エッジファースト最適化:ディストリビューション焦点損失(DFL)の削除と特定のCPU により、YOLO26はCPU上で最大43%高速な推論を実現し、エッジコンピューティングにおける優れた選択肢となっています。
- ProgLoss + STAL:新たな損失関数が小型物体検出を改善。ドローンやIoTアプリケーションにとって重要な機能である。
理想的なユースケース
- YOLO を選択YOLO :NASの視覚バックボーンにおける有効性を調査する研究者であるYOLO 、またはカスタム検索アーキテクチャを必要とする非常に特殊なハードウェア制約があり、複雑な蒸留パイプラインを管理するリソースを有している場合。
- YOLO11 :速度と精度のバランスが極めて優れた、堅牢な汎用検出器が必要な YOLO11 。追跡機能、カスタムデータでの容易なトレーニング、幅広いプラットフォーム互換性を必要とする商用アプリケーションに最適です。
- YOLO26を選択すべき場合:エッジCPUでの最速推論速度を必要とする場合、またはNMSを除去してデプロイメントスタックを簡素化する必要がある場合。最先端の効率性と汎用性を求める新規プロジェクトには推奨される選択肢です。
結論
YOLO11 YOLO いずれもコンピュータビジョン分野に重要な貢献YOLO11 。YOLO 自動アーキテクチャ探索の可能性YOLO 、YOLO11 実用性とエコシステム支援に焦点を当て、深層学習の実用的な応用をYOLO11
ほとんどの開発者や企業にとって、 Ultralytics エコシステム——中核をなすYOLO11 最先端のYOLO26——が最も直接的な価値実現の道筋を提供します。豊富なドキュメント、活発なコミュニティサポート、Ultralytics などのツールにより、ユーザーは確信とスピードをもって構想からデプロイまで進めることができます。
他のアーキテクチャに関心のある方に向けて、Ultralytics 以下のようなモデルとの比較も提供しています RT-DETR (Real-Time DEtection TRansformer) や YOLOv9などのモデルとの比較も提供しており、ビジョンAIのニーズに最適なツールを選択する際の全体像を把握できるようになっています。