技術的な比較:物体検出におけるYOLOXとYOLOv6-3.0の比較
適切な物体検出モデルを選択することは、コンピュータビジョンプロジェクトにとって非常に重要です。このページでは、人気のある効率的な2つのモデルの技術的な比較を行います:YOLOXと YOLOv6-3.0です。このページでは、YOLOXとYOLOv6-3.0のアーキテクチャの違い、性能ベンチマーク、適切なアプリケーションを紹介し、十分な情報に基づいた決断をお手伝いします。
詳細に入る前に、両方のモデルのパフォーマンスの概要を他のモデルと並べて視覚化してみましょう。
YOLOX:アンカーフリーの卓越性
Megvii(Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun- 2021-07-18)によって紹介されたYOLOXは、従来のYOLO モデルに関連する複雑さを簡素化し、アンカーフリーの設計で際立っている。効率的で正確な物体検出機能により、研究と産業応用のギャップを埋めることを目指している。
アーキテクチャと主な特徴
YOLOXは、アンカーボックスを排除した合理的なアプローチを採用し、学習プロセスを簡素化し、ハイパーパラメータの数を減らしています。主な革新的アーキテクチャは以下の通りです:
- アンカーフリー検出:あらかじめ定義されたアンカーの必要性をなくし、設計の複雑さを軽減し、汎化性を向上させることで、さまざまなオブジェクトのサイズや縦横比に適応します。
- 分離ヘッド:分類とローカリゼーションのタスクを別々のブランチに分離することで、パフォーマンス、特に精度を向上。
- SimOTAラベル割り当て:高度なSimOTAラベル割り当てストラテジーを利用し、予測結果に基づいてターゲットを動的に割り当てることで、トレーニングの効率と精度を高めます。
- 混合精度トレーニング: 混合精度を活用して学習と推論の両方を高速化し、計算効率を最適化。
パフォーマンス指標
YOLOXモデルは、推論速度を維持しながら、リアルタイム物体検出器の中で最先端の精度を達成しています。詳細な測定基準については、以下の比較表を参照してください。
使用例
- 高精度が要求されるアプリケーション 医療画像解析や 衛星画像解析など、重要な対象物を見逃すと重大な結果を招きかねないような、精度が最優先されるシナリオに最適です。
- 研究開発:YOLOXは、その明確で簡素化された構造により、研究目的や物体検出手法のさらなる開発に適しています。
- 多彩な物体検出タスク:堅牢な設計と高精度の恩恵により、学術研究から産業展開まで、幅広い物体検出タスクに適用可能。
強みと弱み
強みだ:
- 高精度:優れたmAPスコアを達成し、正確な物体検出を必要とするアプリケーションに適している。
- アンカーフリー設計:アーキテクチャを簡素化し、ハイパーパラメータを減らし、実装を容易にする。
- 汎用性:さまざまな物体検出タスクに対応。
弱点がある:
- 推論速度:YOLOv6-3.0のような高度に最適化されたモデルよりも、特にエッジデバイスでは若干遅くなるかもしれない。
- モデルサイズ:リソースに制約のあるデプロイメントでは、これは懸念事項かもしれません。
YOLOv6-3.0:スピードと効率の最適化
Meituan社(Chuyi Li、Lulu Li、Yifei Geng、Hongliang Jiang、Meng Cheng、Bo Zhang、Zaidan Ke、Xiaoming Xu、Xiangxiang Chu- 2023-01-13)が開発したYOLOv6-3.0は、高速推論と効率性を追求し、特に産業アプリケーションとエッジ展開をターゲットとしています。バージョン3.0は、スピードと精度の向上に重点を置いた大幅なアップグレードです。
アーキテクチャと主な特徴
YOLOv6-3.0は、精度を大きく損なうことなく、アーキテクチャの最適化により推論速度を優先している。主な特徴は以下の通り:
- 効率的な再パラメータ化バックボーン:コンボリューションレイヤーとバッチ正規化レイヤーを統合し、推論速度を高速化するリパラメータ化バックボーンを採用。
- ハイブリッド・ブロック:精度と効率のバランスをとるハイブリッド・ネットワーク・ブロック設計を採用し、さまざまなハードウェア・プラットフォームでのパフォーマンスを最適化。
- ハードウェア・アウェア・ニューラル・ネットワーク設計: Raspberry Piや NVIDIA Jetsonのようなリソースに制約のあるデバイスへの展開に特に適しています。
- 最適化されたトレーニング戦略:コンバージェンスと全体的なパフォーマンスを向上させるために、洗練されたトレーニング技術を取り入れています。
パフォーマンス指標
YOLOv6-3.0は、推論スピードに優れ、mAPスコアで優位に立ちながら、驚異的なFPS(フレーム/秒)を達成しています。詳細なパフォーマンス指標については、以下の表を参照してください。
使用例
- リアルタイム物体検出: セキュリティアラームシステム、スマート小売店、自律走行車など、低レイテンシーと高速処理が重要なアプリケーションに最適。
- エッジデバイスへの展開:効率的な設計と小さなモデルサイズにより、計算リソースが限られたエッジデバイスへの展開に最適化されています。
- 産業用アプリケーション:製造、監視、オートメーションなど、高速で効率的な物体検出を必要とする実用的な産業用アプリケーション向けに設計されています。
強みと弱み
強みだ:
- 高い推論速度:優れた推論速度により、リアルタイムの物体検出タスクに最適。
- 効率的な設計:小さなモデルサイズと最適化されたアーキテクチャは、リソースが限られたデバイスに最適です。
- 産業用フォーカス:高速で効率的な物体検出を必要とする産業における実用的なアプリケーションのために特別に設計されています。
弱点がある:
- 精度のトレードオフ:特に速度よりも精度が優先される複雑なデータセットでは、YOLOXのようなモデルに比べて精度が若干低くなる可能性がある。
- 柔軟性:より広範な研究用途向けに設計された柔軟性の高いアーキテクチャに比べ、高度に専門化された研究タスクへの適応性が低い可能性がある。
モデル比較表
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
スピード T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
ヨロックスナノ | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
ヨロックス | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
ヨロックス | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
結論
YOLOXとYOLOv6-3.0はどちらも強力な1段式物体検出器で、それぞれ異なる優先順位に対応しています。YOLOXは精度に優れ、構造がシンプルであるため、高精度を必要とする研究やアプリケーションに最適です。YOLOv6-3.0は、スピードと効率を優先しているため、リアルタイムの産業用アプリケーションやエッジ展開に非常に適しています。
他のオプションをお探しのユーザーには、Ultralytics 様々な最先端のモデルを提供しています。ご検討ください Ultralytics YOLOv8パフォーマンスと柔軟性のバランスが取れたYOLOv10、リアルタイム検知の最新版である YOLO11をご検討ください。また、リアルタイム・アプリケーションには RT-DETRは、調査すべき魅力的なアーキテクチャを提示している。