YOLOv10 . YOLOX:リアルタイム物体検出アーキテクチャの徹底比較
コンピュータビジョンの急速に進化する分野において、アンカーフリーアーキテクチャへの移行は重要な転換点となった。 YOLOv10とYOLOXはこの進化における二つの重要な瞬間を表す。2021年に発表されたYOLOXは、検出ヘッドの分離と高度なラベル割り当て戦略の導入によりアンカーフリーパラダイムを普及させた。3年後、YOLOv10 ネイティブにNMS設計を導入し、非最大抑制(NMS)の後処理を完全に不要とすることで、さらなる限界をYOLOv10
この比較では、両モデルのアーキテクチャ上の差異、性能指標、および理想的な導入シナリオを探るとともに、YOLO26のような現代的なソリューションがこれらの進歩を包括的なAIエコシステムに統合する方法を明らかにする。
性能指標の比較
モデルを生産用に選択する際には、推論速度と検出精度のトレードオフを理解することが極めて重要です。以下の表は、これらの2つのモデル群が様々なモデル規模でどのように比較されるかを詳細に示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
図に示すように、 YOLOv10 は、GPU 上で同等の推論レイテンシにおいて、一般的に高い平均精度(mAP)を達成します。例えば、YOLOv10mモデルは 51.mAPを達成する一方、YOLOX-mは46.9%であり、レイテンシ特性は同等です。この効率向上は主にNMS除去によるもので、後処理段階における計算オーバーヘッドを削減しています。
YOLOv10:エンドツーエンドの革新者
YOLOv10 、リアルタイム検出における長年のボトルネックの一つである非最大抑制(NMS)に対処することで、アーキテクチャ上の大きな転換YOLOv10 。従来の検出器は同一物体に対して複数の境界ボックスを予測し、重複をNMS 依存していた。YOLOv10 、トレーニング中の統一的な二重割り当て戦略によってこのステップYOLOv10 。
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織:清華大学
- 日付: 2024年5月23日
- 論文:arXiv:2405.14458
- ソース:GitHubリポジトリ
主要なアーキテクチャ機能
YOLOv10 「全体的な効率性と精度を重視したモデル設計」YOLOv10 。これはダウンサンプリング層や予測ヘッドといった個々の構成要素を最適化し、計算上の冗長性を最小限に抑えることを意味する。本モデルは二重のラベル割り当てを採用している:学習時の豊富な教師情報のための多対一割り当てと、推論時の単対一割り当てである。これによりモデルは対象物ごとに単一の最適なボックスを予測でき、NMS 事実上NMS とする。
このアーキテクチャは、NMS 検出されたオブジェクトの数に依存する)によって引き起こされる遅延変動が問題となるエッジ展開において特に有益である。
YOLOX: アンカーフリーの先駆者
YOLOXは、YOLO アンカーレス検出を初めて成功させた高性能モデルの一つであり、YOLOv3やYOLOv4のアンカーベースのアプローチとは異なる手法を採用した。事前定義されたアンカーボックスを排除することで、YOLOXは学習プロセスを簡素化し、多様な物体形状に対する汎化性能を向上させた。
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織:Megvii
- 日付: 2021年7月18日
- 論文:arXiv:2107.08430
- ソース:GitHubリポジトリ
主要なアーキテクチャ機能
YOLOXは分離型ヘッドを採用し、分類タスクと回帰タスクを別々のブランチに分割する。この設計により収束速度が向上し、精度が向上することが実証された。さらに、高度なラベル割り当て戦略であるSimOTAを導入した。これはコスト関数に基づいて陽性サンプルを動的に割り当て、分類精度と回帰精度のバランスを確保する。
YOLOXは非常に効果的ではあるものの、依然NMS に依存しているため、YOLOv10一貫したレイテンシとは異なり、物体密度が高いシーンでは推論時間が変動する可能性がある。
Ultralyticsの利点
両モデルにはそれぞれ利点がありますが、Ultralytics 統合されたインターフェースを提供し、スタンドアロンのリポジトリと比較して開発ライフサイクルを大幅に簡素化します。YOLOv10 を使用しているYOLOv10 最新のYOLO26を使用しているYOLOv10 、体験は合理化されています。
使いやすさと汎用性
開発者は1行のコードでモデルを切り替えられます。特定の設定ファイルや手順が必要なYOLOXのコードベースとは異なり、Ultralytics 「プラグアンドプレイ」です。Ultralytics 、インスタンスセグメンテーション、姿勢推定、方向性物体検出(OBB)など、より幅広いコンピュータビジョンタスク Ultralytics 、YOLOXにはない汎用性を提供します。
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
トレーニング効率とメモリ
Ultralytics リソース使用の最適化を目的に設計されています。一般的に、Transformerを多用するアーキテクチャと比較して、トレーニング時のCUDA 少なくて済みます。 RT-DETR や旧式コードベースと比較して、トレーニング時のCUDAメモリ使用量が少ない設計です。これにより研究者は一般消費者向けGPUでトレーニングが可能となり、ハイエンドAI開発へのアクセスが民主化されます。Ultralytics 、クラウドベースのトレーニング、データセット管理、ワンクリックモデルエクスポートを提供することで、この利点を強化します。
シームレスなアップグレード
古いアーキテクチャからYOLO26のような最新アーキテクチャへの切り替えは、コードのリファクタリングなしでも即座に性能向上が得られることが多い。Ultralytics 世代を超えて一貫したAPIUltralytics 、コード統合への投資が無駄にならないことを保証します。
YOLO26を選ぶ理由
速度、精度、最新機能の絶妙なバランスを求める開発者には、YOLO26が推奨される選択肢です。2026年初頭にリリースされた本モデルは、YOLOv10 革新性を基盤YOLOv10 安定性と速度をさらに高める改良を加えています。
- ネイティブのエンドツーエンド処理: YOLOv10と同様に、YOLO26はNMSであり、確定的なレイテンシを保証する。
- MuSGDオプティマイザー:LLMトレーニング(特にMoonshot AIのKimi K2)に着想を得たこのハイブリッドオプティマイザーは、収束速度の向上とトレーニングの安定性を保証します。
- エッジ最適化: ディストリビューション焦点損失(DFL)の削除と最適化された損失関数(ProgLoss + STAL)により、YOLO26 CPU 最大43%高速化し、専用GPUを持たないデバイスに最適です。
現実世界のアプリケーション
これらのモデルの選択は、多くの場合、プロジェクトの特定の制約によって異なります。
高密度群衆カウント
スマートシティ監視のようなシナリオでは、1フレーム内に数百人の人物を検出することが一般的である。
- YOLOX:検出されたボックスの数に比例してNMS 時間が増加するため、レイテンシの急上昇が発生する可能性があります。
- YOLOv10 YOLO26:これらのNMS設計により、群衆密度にかかわらず推論時間が安定し、リアルタイム映像配信に不可欠である。
モバイルおよび組込みロボティクス
動的な環境を移動するロボットにとって、1ミリ秒たりとも無駄にできない。
- YOLOX-Nano:軽量ながら強力な候補だが、そのアーキテクチャは古くなっている。
- YOLO26n:同様またはより少ないパラメータ数で優れた精度を提供し、DFL除去の恩恵を受けるため、Raspberry PiやJetson Nanoなどのデバイスに搭載されるCPU上で大幅に高速化される。
産業検査
組立ラインにおける欠陥の検出には高精度が求められる。
- YOLOX:その分離型ヘッドにより優れた位置推定精度を実現し、研究における信頼性の高い基盤を提供します。
- Ultralytics : セグメンテーションタスクへの容易な切り替え機能により、同一システムでdetect だけでなく、その正確な面積を測定可能となり、品質管理のためのより豊富なデータを提供します。
結論
YOLOXは学術界において依然として立派なベースラインであり、アンカーフリー検出を普及させた功績で高く評価されている。 YOLOv10NMS排除することでこの遺産を成功裏に発展させ、エンドツーエンドのリアルタイムシステムの未来を垣間見せてくれた。
しかし、現在の本番環境デプロイにおいては、Ultralytics 比類のない優位性を提供します。トレーニング、検証、デプロイのワークフローを標準化することで、開発者は最先端のパフォーマンスを活用できるようになります。 YOLO26の性能を活用できるようにします。YOLOv10 CPU およびトレーニング安定性を兼ね備えています。これにより、異なるコードベースを管理する複雑さなしに、開発者はその性能を活用できます。
さらに詳しく知りたい場合は、以下のドキュメントを参照してください YOLO11 のドキュメントを確認するか、パフォーマンス指標を深く掘り下げて、ご自身のハードウェア上でこれらのモデルをベンチマークする方法をより深く理解することをお勧めします。