YOLO YOLOX:アンカーフリー物体検出の深層分析
リアルタイム物体検出技術の進化は、複雑なアンカーベースシステムから合理化されたアンカーフリーアーキテクチャへの移行によって特徴づけられてきた。この変遷における二つの重要なマイルストーンは、アリババグループが開発YOLO、Megviiが創出したYOLOXである。両モデルは従来の設計パラダイムに挑戦し、特徴抽出、ラベル割り当て、学習効率化において独自のアプローチを提供している。
この詳細な比較では、両モデルのアーキテクチャ上の革新性、性能指標、および理想的なユースケースを検証し、特定のコンピュータビジョンニーズに最適なモデル選択を支援します。両モデルとも歴史的意義を有しますが、Ultralytics 現代的ソリューションがこれらの進歩をいかに統合し、より堅牢で実運用可能なエコシステムを構築したかについても考察します。
DAMO-YOLO の概要
YOLO(Distillation-Enhanced Neural Architecture Search-basedYOLO)は、ニューラルアーキテクチャ検索(NAS)と高度な学習手法を組み合わせた高性能アプローチである。バックボーン構造とネック構造の設計を自動化することで、速度と精度の限界を押し広げることを目的として設計された。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織:Alibaba Group
- 日付: 2022-11-23
- Arxiv:DAMO-YOLO: リアルタイム物体detectデザインに関するレポート
- GitHub:DAMO-YOLOリポジトリ
DAMO-YYOLOの主な特徴
- MAE-NASバックボーン:手動設計のバックボーンとは異なり、YOLO ニューラルアーキテクチャ検索フレームワーク内でマスキングオートエンコーダ(MAE)アプローチYOLO 。これにより、計算オーバーヘッドを最小限に抑えつつ空間特徴を抽出するために高度に最適化された構造が実現される。
- 効率的なRepGFPN:本モデルは再パラメータ化汎用特徴ピラミッドネットワーク(RepGFPN)を採用する。これにより、異なるスケール間での特徴融合が改善され、様々なサイズの物体検出に不可欠となる一方、デプロイ時の再パラメータ化を通じて推論遅延を低く抑える。
- ZeroHead:検出ヘッドが大幅に簡素化され(「ZeroHead」)、最終的なバウンディングボックス回帰と分類に必要なパラメータ数が削減される。
- AlignedOTA:ダイナミックなラベル割り当て戦略である「Aligned One-to-Many Assignment」は、トレーニング中に正例をより正確に割り当てることで、混雑したシーンにおける曖昧さを解消します。
蒸留強化
YOLO決定的な特徴の一つは、知識蒸留への強い依存である。より大規模な「教師」モデルが、小規模な「生徒」モデルの学習を導く。これにより精度は向上するが、標準的な「フリービーの袋」学習手法と比較して、学習パイプラインが大幅に複雑化する。
YOLOXの概要
YOLOXは、アンカーフリー機構を主流YOLO たらした画期的なリリースでした。予測ヘッドを分離しアンカーボックスを排除することで、設計プロセスを簡素化し、特にアンカー調整の複雑さに慣れた開発者にとって性能を向上させました。
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織:Megvii
- 日付: 2021-07-18
- Arxiv:YOLOX: 2021年にYOLOシリーズを超える
- GitHub:YOLOXリポジトリ
YOLOXの主な特徴
- アンカーフリー設計:事前定義されたアンカーボックスからのオフセットではなく、物体の中心を直接予測することで、YOLOXはカスタムデータセット向けの最適なアンカー形状を決定するためのクラスタリング分析(K-meansなど)を不要とします。
- 分離型ヘッド:YOLOXは分類タスクと位置特定タスクをネットワークヘッドの異なる分岐に分離する。この分離により、物体の分類に必要な特徴と、その正確な境界を決定するために必要な特徴との間の矛盾が解消される。
- SimOTA:分類と回帰の品質を両立させつつ、グローバル最適化コストに基づいて正例を動的に割り当てる、簡略化された最適輸送割り当て戦略。
- 強力なデータ拡張:YOLOXはモザイクとMixUp 多用しており、これらは特定の設定において事前学習済みバックボーンなしで効果的に学習する能力に不可欠であった。
技術比較:性能と速度
これらの2つのアーキテクチャを比較すると、YOLO 精度と遅延のトレードオフにおいてYOLO YOLOXを上回る性能を示す。これは主に、DAMO-YOLOが後発でリリースされ、NAS技術を取り入れているためである。しかし、YOLOXはアーキテクチャの簡潔さとコードの可読性から依然として好まれる選択肢である。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
アーキテクチャとトレーニングの複雑性
YOLOXはその「クリーン」な実装で高く評価されている。PyTorch 、研究目的での修正が容易である。その学習プロセスは標準的なハイパーパラメータ調整を必要とするシンプルなものである。
YOLO逆に、大きな複雑さをもたらす。ニューラルアーキテクチャ探索(NAS)への依存により、バックボーンはResNetやCSPDarknetのような固定された標準構造ではない。さらに、蒸留プロセスでは軽量な生徒モデルを監督するために、まず重い教師モデルを訓練する必要がある。これにより訓練に必要な計算リソースが倍増し、GPU 限られているユーザーがカスタムデータセットで論文の結果を再現することは困難となる。
Ultralytics :研究モデルを超えた価値
YOLO 学術的に貴重な知見を提供するものの、現代の企業開発には単なる生データ以上のものが必要です。開発者には安定性、使いやすさ、そして完全なエコシステムが求められます。この点において、Ultralytics 優れた選択肢として際立っています。
比類なき使いやすさとエコシステム
YOLO トレーニングには、複雑な設定ファイルや多段階の蒸留パイプラインが伴うことがよくあります。これに対し、Ultralytics Python 「ゼロからヒーローへ」の体験を提供します。CLI を使用CLI Pythonを使用CLI 、トレーニングの実行開始は数秒で完了します。
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a dataset with a single command
results = model.train(data="coco8.yaml", epochs=100)
Ultralytics 積極的にメンテナンスされており、PyTorch、CUDA、Apple Metalの最新バージョンとの互換性が保証されています。公開後に活動停止状態になることが多い研究リポジトリとは異なり、Ultralytics 頻繁な更新、バグ修正、パフォーマンス最適化が行われています。
性能バランスと汎用性
YOLO26は効率性の頂点を体現する。エンドツーエンドNMS設計を特徴とし、これは YOLOv10。非最大抑制(NMS)後処理を排除することで、YOLO26は推論遅延のばらつきを低減し、展開ロジックを簡素化。YOLOXとYOLOの両方に存在した主要な課題を解決しています。
さらに、YOLO26はサーバーグレードGPUを超えたハードウェア向けに最適化されています。 CPU 最大43%高速化するため、バッテリー寿命や発熱制限が重要なエッジデバイス、ラズベリーパイ、モバイルアプリケーションに最適な選択肢となります。
YOLOXとYOLO 主に物体YOLO 、Ultralytics は多様なタスクに対してネイティブサポートを提供します:
現実世界のアプリケーション
適切なモデルの選択は、導入環境の具体的な制約に大きく依存します。
YOLOの理想的な使用例
- ハイスループットサーバー:最適化されたRepGFPN構造により、TensorRTハードウェア(NVIDIA やA100など)上で非常に高いFPSを実現し、大規模な動画アーカイブの処理に適しています。
- 混雑したシーン:AlignedOTAラベル割り当ては、密集した群衆内の人数カウントや家畜の監視など、物体の遮蔽率が高いシナリオで役立ちます。
YOLOXの理想的な使用例
- 学術研究:そのクリーンなコードベースにより、NASのオーバーヘッドなしに新しい損失関数やバックボーンの修正をテストしたい研究者にとって優れた基盤となる。
- レガシーモバイルサポート:YOLOX-NanoおよびTinyのバリエーションは、深度方向分離可能畳み込みを利用しており、これは従来より古いAndroid 上で NCNNによって従来から十分にサポートされてきました。
なぜUltralytics 現代の標準なのか
ほぼすべての新規商業・産業プロジェクトにおいて、YOLO26が推奨ソリューションです。
- エッジコンピューティングとIoT:分布焦点損失(DFL)の廃止と新たなProgLoss + STAL機能により、YOLO26は低電力デバイス上で極めて安定した動作を実現。CPU 貴重なロボット工学やドローンナビゲーション分野で特に優れた性能を発揮する。
- 迅速な開発サイクル: Ultralytics との統合により、チームはデータラベリング、モデルトレーニング、 ONNX CoreML などの形式へのデプロイを統一ワークフローCoreML 実行でき、市場投入までの時間を大幅に短縮します。
- 複雑なタスク:パッケージの角度detect (OBB)や作業員の姿勢分析(Pose)など、YOLO26はこうした複雑なタスクを単一のメモリ効率に優れたフレームワーク内で処理します。これは、検出専用に特化したYOLOとは対照的です。
結論
YOLO 物体検出の歴史において重要な役割を果たし、アンカーフリー設計が最先端の結果を達成できることを証明した。しかし、この分野は急速に進化している。
Ultralytics これらの教訓を踏まえ、LLMトレーニングに着想を得たMuSGDオプティマイザーの安定性と、NMSアーキテクチャの簡潔性を組み込んでいます。精度・速度・使いやすさの最適なバランスを求める開発者にとって、YOLO26は活発なコミュニティと包括的なドキュメントに支えられた将来を見据えたソリューションを提供します。
Ultralytics 他のアーキテクチャとどのようにUltralytics についてさらに詳しく知りたい場合は、EfficientDetとの比較をご覧ください。 YOLOv6、および RT-DETRをご覧ください。