YOLOX対YOLO:次世代物体検出アーキテクチャの分析
コンピュータビジョンの急速に進化する分野において、アンカーベース検出器からアンカーフリー検出器への移行は重要な節目となった。この移行を形作った二つの主要YOLO。本比較では、それらのアーキテクチャ上の革新、性能指標、およびトレーニング手法を探り、研究者やエンジニアが特定の物体検出ニーズに適したツールを選択する手助けとする。
パフォーマンスベンチマーク
以下の表は、YOLOXとYOLO 間の主要な性能指標を直接比較したものです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOX: 研究と産業の架け橋
YOLOXYOLO 重要なアップデートとして登場し、アンカーフリー機構への移行と高度な検出技術の導入により、学術研究と産業応用間のパイプラインを効率化しました。
著者:Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
組織:Megvii
日付:2021-07-18
Arxiv:YOLOX: ExceedingYOLO in 2021
GitHub:Megvii-BaseDetection/YOLOX
アーキテクチャとイノベーション
YOLOXは、YOLOv4や YOLOv5から採用されていたアンカーボックスを排除した点にあります。その「分離ヘッド」アーキテクチャは分類と位置特定タスクを分離し、収束速度と精度を大幅に向上させます。
さらに、YOLOXはSimOTAを採用している。これは動的ラベル割り当て戦略であり、学習プロセスを最適輸送問題として捉える。これにより、モデルはグローバル最適化戦略に基づいて正例を真値に自動的に割り当てることが可能となり、経験則に基づくハイパーパラメータ調整の必要性を低減する。
YOLO: 神経アーキテクチャ探索の効率性
YOLO 、ニューラルアーキテクチャ検索(NAS)と大規模な再パラメータ化を活用することで、レイテンシと精度のトレードオフの限界をYOLO 。
著者:許賢哲, 江一琪, 陳偉華, 黄一倫, 張元, 孫秀宇
組織:Alibaba Group
日付:2022-11-23
Arxiv:YOLO: リアルタイム物体検出設計に関する報告
GitHub:YOLO
主要技術
YOLO 、特定の遅延制約下で最適なネットワーク構造を特定するため、多目的進化探索を用いて構築されたMAE-NASバックYOLO 。また、スケールを超えた効果的な特徴融合のためにRepGFPN(効率的な再パラメータ化汎用特徴ピラミッドネットワーク)を活用する。
注目すべき特徴はZeroHeadであり、検出ヘッドを最小限の複雑さに簡素化し、重い処理を背骨と首に依存させる。トレーニングはAlignedOTAによるラベル割り当てと、教師モデルが生徒モデルを導く蒸留段階によって強化され、小型モデルでも高い性能を保証する。
Ultralyticsの利点
YOLOXとYOLO 特定のシナリオに対して堅牢なソリューションYOLO 、Ultralytics 現代のAI開発の複雑性に対処する包括的でユーザーフレンドリーかつ高性能な代替手段を提供します。
シームレスな使いやすさとエコシステム
YOLO のようなモデルの主な課題の一つは、そのトレーニング手順のYOLO 。これらは多段階の知識蒸留や特殊なNAS探索空間を伴うことが多くあります。これに対し、Ultralytics 即時的なアクセシビリティを目的に設計されています。 YOLO11 を使用する場合でも、データセットの読み込みからモデルエクスポートまでの全ワークフローが統一APIで処理されます。
開発Ultralytics を活用し、データセットの管理、実験の可視化、モデルのデプロイをシームレスに行えます。この統合アプローチにより参入障壁が取り除かれ、チームはトレーニングスクリプトのデバッグではなく、ビジネス課題の解決に集中できるようになります。
YOLO26による性能バランス
速度と精度の頂点を求める方にとって、YOLO26は最先端を体現しています。これはYOLOX(アンカーフリー設計)や YOLOv10 (NMS)などのモデルから得られた知見を基盤とし、卓越した性能を実現しています。
YOLO26の革新:エンドツーエンドNMS
YOLO26はネイティブにエンドツーエンドであり、ノン・マキシマム・サプレッション(NMS)後処理が不要です。これにより、特にNMS が遅延のボトルネックとなり得るエッジデバイスにおいて、デプロイメントパイプラインが大幅に簡素化されます。
YOLO26の主な特徴は以下の通りです:
- DFL除去:ディストリビューションフォーカルロスを除去することでモデルグラフが簡素化され、 ONNX や TensorRTへのエクスポートを容易にします。
- MuSGDオプティマイザー: SGD ミューオン(LLMトレーニングに着想を得た)のハイブリッドにより、安定した収束を保証します。
- CPU :エッジコンピューティング向けにアーキテクチャを最適化し、CPU上で最大43%高速な推論を実現。
- ProgLoss + STAL:小物体検出を劇的に改善する高度な損失関数。ドローン画像処理やロボティクスにおける重要な要件。
タスクを横断する汎用性
YOLOXやYOLO主に物体検出に焦点を当てているのとは異なり、Ultralytics 本質的にマルチモーダルです。単一のライブラリが以下をサポートします:
この汎用性により、開発者はフレームワークを切り替えることなく、姿勢推定を用いたスポーツにおけるプレイヤーの動作分析など、複雑なプロジェクトに取り組むことが可能となる。
トレーニング効率とメモリ
Ultralytics リソース効率に優れるよう設計されています。トレーニング時のGPU 、大規模なトランスフォーマーベースモデルと比較して通常少なく済みます。 RT-DETRといった重いトランスフォーマーベースのモデルと比較して、トレーニング中に必要とするGPUメモリが少なくて済みます。この効率性によりAIが民主化され、標準的なコンシューマー向けハードウェア上で強力なモデルのトレーニングが可能になります。
Ultralytics Python を使用して最先端のYOLO26モデルをトレーニングする手順は、以下の通り非常に簡単です:
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
現実世界のアプリケーション
適切なモデルの選択は、多くの場合、導入環境の具体的な制約条件に依存します。
工業品質管理
高速製造ラインにおいては、YOLO GPU 低遅延性により有力な選択肢であり、高速移動するコンベア上の欠陥検出に適している。しかし、NMS設計により決定論的な推論時間を保証し、ロボットアクチュエータの同期を乱す可能性のあるジッタを防止するため、ここではYOLO26がますます好まれる傾向にある。
エッジAIとモバイル
YOLOX-Nanoは、その極めて少ないパラメータ数から、従来モバイルアプリケーションで好まれてきました。今日では、YOLO26n(Nano)が優れた代替案を提供しており、同等のモデルサイズでより高い精度を実現すると同時に、 CPU 43%向上しています。これにより、スマートカメラや農業用センサーなどのバッテリー駆動デバイスに最適です。
自律システム
ロボティクスと自動運転において、様々な物体のスケールに対応する能力は極めて重要である。YOLOXの分離型ヘッドが一定の効果を発揮する一方、YOLO26が 採用するProgLoss + STALの実装は、交通標識や歩行者といった遠方または小さな物体の認識において顕著な向上をもたらし、システムの全体的な安全性を高める。
概要
YOLOXとYOLO ともに物体検出の進歩に大きくYOLO 。YOLOXはアンカーフリーパラダイムを普及させ、YOLO ニューラルアーキテクチャ探索の威YOLO 。
しかし、パフォーマンス、使いやすさ、導入の柔軟性のバランスが取れた、現代的で将来を見据えたソリューションとしては、Ultralytics 際立っています。Ultralytics 統合、複数のタスクへの対応、簡素化されたエクスポートプロセスにより、学術研究からエンタープライズグレードのアプリケーションまで、推奨される選択肢となっています。
Ultralytics アクセスし、トレーニングの旅を今日から始めて、これらのモデルの全可能性を探求してください。