YOLOX 対 YOLOv10:技術比較
最適な物体検出モデルの選択は、コンピュータビジョンプロジェクトにおける精度、速度、および計算需要のバランスを取るために不可欠です。このページでは、物体検出の分野における2つの重要なモデルであるYOLOXとYOLOv10の詳細な技術比較を提供します。アーキテクチャ、パフォーマンス指標、およびニーズに最適な選択を行うのに役立つ理想的なユースケースを分析します。
YOLOX: High-Performance Anchor-Free Detector
YOLOXは、Megvii社が開発したアンカーフリーの物体検出モデルであり、高い性能を達成しつつYOLOの設計を簡素化することを目指しています。2021年に発表され、YOLOファミリーの代替アプローチを提案することで、研究と産業応用の間のギャップを埋めることを目指しました。
技術詳細:
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織: Megvii
- Date: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Docs: https://yolox.readthedocs.io/en/latest/
アーキテクチャと主な機能
YOLOXは、以前のYOLOモデルと比較して、シンプルさとパフォーマンスに焦点を当てたいくつかの重要なアーキテクチャの変更を実装しています。
- Anchor-Free Design: YOLOXは、定義済みのアンカーボックスを排除することで、検出パイプラインを簡素化し、調整が必要なハイパーパラメータの数を減らします。これにより、さまざまなデータセットやオブジェクトサイズでの汎化性能が向上する可能性があります。
- 分離されたヘッド: 分類タスクとローカリゼーションタスクに別々のヘッドを使用します。この分離により、収束速度が向上し、単段階検出器でよく見られる問題である、分類の信頼度とローカリゼーションの精度との間のずれを解消できます。
- 高度なトレーニング戦略: このモデルは、トレーニング中の動的なラベル割り当てのために、SimOTA(Simplified Optimal Transport Assignment)のような高度な手法を組み込んでいます。また、モデルの堅牢性を高めるために、MixUpのような強力なデータ拡張法も活用しています。
長所と短所
長所:
- 高精度: YOLOXは、特にYOLOX-xのような大規模なバリアントにおいて、強力なmAPスコアを達成しており、精度が重要なタスクにとって信頼できる選択肢となります。
- Anchor-Free Simplicity: この設計は、アンカーボックスの構成に関連する複雑さを軽減します。これは、他の検出器のトレーニングにおいて面倒な部分となる可能性があります。
- 確立されたモデル: 2021年から利用可能であるYOLOXには、コミュニティリソース、チュートリアル、および導入事例の成熟した基盤があります。
弱点:
- 推論速度と効率: 当時は効率的でしたが、特に同程度の精度を持つモデルを比較した場合、YOLOv10のような高度に最適化された最新のモデルよりも低速で、計算負荷が高くなる可能性があります。
- 外部エコシステム: YOLOXは、Ultralyticsエコシステムにネイティブに統合されていません。これは、TensorRTなどのツールを使用したデプロイメント、最適化、およびUltralytics HUBなどのプラットフォームとの統合により多くの手作業が必要になる可能性があることを意味します。
- タスクの汎用性: 主に物体検出に重点を置いており、Ultralytics YOLOv8のような、より新しく汎用性の高いフレームワークにあるインスタンスセグメンテーション、姿勢推定、または向きのあるバウンディングボックス検出のような他のビジョンタスクに対する組み込みサポートがありません。
ユースケース
YOLOXは、以下のような用途に適しています。
- 一般的な物体検出: セキュリティシステムや小売分析など、精度と速度のバランスが取れたアプリケーションに必要です。
- 研究のベースライン: そのアンカーフリー設計は、新しい物体検出法を研究する研究者にとって貴重なベースラインとなります。
- 産業用アプリケーション: 高い検出精度が主な要件となる自動品質管理などのタスク。
YOLOv10:最先端のリアルタイムエンドツーエンド検出器
Ultralytics YOLOv10は、清華大学の研究者によって開発され、エンドツーエンドの効率に焦点を当てることで、リアルタイムオブジェクト検出の大きな進歩を代表するものです。ポストプロセッシングのボトルネックに対処し、速度と精度のフロンティアでの優れたパフォーマンスのためにアーキテクチャを最適化します。
技術詳細:
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織: 清華大学
- Date: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- ドキュメント: https://docs.ultralytics.com/models/yolov10/
アーキテクチャと主な機能
YOLOv10は、最先端の効率を実現するために、いくつかの革新を導入しています。
- NMS不要の学習: 学習中に一貫した二重割り当てを採用して、推論時にNon-Maximum Suppression (NMS)の必要性を排除します。このイノベーションにより、推論レイテンシが削減され、デプロイメントパイプラインが簡素化され、真のエンドツーエンド検出器が可能になります。
- 全体的な効率と精度の設計: モデルアーキテクチャは、さまざまなコンポーネントを最適化するための包括的なアプローチで設計されました。これには、軽量な分類ヘッドと空間チャネル分離ダウンサンプリングが含まれており、精度を犠牲にすることなく、計算の冗長性を低減し、モデルの能力を向上させます。
- 軽量かつスケーラブル: YOLOv10は、パラメータとFLOPsの削減に重点を置いており、ハイエンドGPUからリソースに制約のあるエッジデバイスまで、多様なハードウェアに適した高速な推論速度を実現します。
長所と短所
長所:
- 卓越した速度と効率性: YOLOv10はリアルタイムかつ低遅延の推論に最適化されており、高い精度を維持しながら、速度において他の多くのモデルを凌駕します。
- NMS不要の推論: NMSを排除することで、デプロイメントが簡素化され、ポストプロセスが高速化されます。これは、時間に制約のあるアプリケーションにおいて非常に重要な利点となります。
- 最先端のパフォーマンス: パフォーマンスの表に見られるように、精度と効率のトレードオフにおいて新たな基準を打ち立てます。
- Ultralyticsエコシステムとの統合: YOLOv10はUltralyticsエコシステムにシームレスに統合されており、ユーザーフレンドリーなPython API、広範なドキュメント、および活発なメンテナンスから恩恵を受けています。
- 使いやすさ: このモデルは、Ultralyticsモデルに典型的な効率化されたユーザーエクスペリエンスに従っており、トレーニング、検証、およびデプロイが容易です。
- 学習効率: 効率的な学習プロセスを提供し、すぐに利用できる事前学習済みウェイトを備えており、通常、より複雑なアーキテクチャと比較してメモリ要件が低くなります。
弱点:
- 比較的新しい: より新しいモデルであるため、コミュニティが提供する例やサードパーティの統合の幅は、YOLOXのような長年確立されているモデルと比較して、まだ成長段階にある可能性があります。
ユースケース
YOLOv10は、速度と精度の両方が重要な、要求の厳しいリアルタイムアプリケーションに最適です。
- Edge AI: Raspberry PiやNVIDIA Jetsonのようなリソース制約のあるデバイスへのデプロイに最適です。
- リアルタイムシステム: 自動運転車、ロボティクス、高速ビデオ分析、監視などのアプリケーション。
- 高スループット処理: 大量の画像やビデオストリームの迅速な分析を必要とする、産業検査、ロジスティクス、その他のアプリケーション。
性能分析: YOLOX vs. YOLOv10
次の表は、COCOデータセットでベンチマークされた、YOLOXおよびYOLOv10のさまざまなモデルサイズのパフォーマンス指標の詳細な比較を提供します。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
データが明確に示すように、YOLOv10は一貫して精度と効率の間で優れたトレードオフを提供します。
- YOLOv10-sは、YOLOX-mとほぼ同じmAP(46.7%対46.9%)を達成していますが、パラメータが72%少なく(7.2M対25.3M)、FLOPが70%少ない(21.6B対73.8B)です。
- YOLOv10-mは、パラメータと計算の点で大幅に効率的でありながら、YOLOX-lの精度(51.3%対49.7%)を上回っています。
- ハイエンドでは、YOLOv10-xはYOLOX-xよりもはるかに高いmAP(54.4%対51.1%)を達成し、パラメータは43%少なく、FLOPsも43%少なくなっています。
結論
YOLOXとYOLOv10はどちらも強力な物体検出モデルですが、異なる優先順位に対応しています。YOLOXは、高い精度を提供する堅実で確立されたアンカーフリー検出器であり、そのエコシステムがすでに整っているプロジェクトにとって実行可能なオプションとなります。
ただし、速度、精度、および使いやすさの最適なバランスを求めている開発者および研究者にとって、YOLOv10 が明確な勝者です。その革新的な NMS フリーアーキテクチャは、真のエンドツーエンド検出パイプラインを提供し、レイテンシの低下と効率の向上をもたらします。Ultralytics エコシステムへのシームレスな統合により、ワークフローの合理化、広範なドキュメント、および堅牢なコミュニティサポートが提供され、その魅力がさらに高まります。
他の最先端モデルの調査に関心のある方のために、Ultralytics は、非常に汎用性の高いYOLOv8や、セグメンテーション、分類、ポーズ推定のようなマルチタスク機能を提供する最新のYOLO11を含む、さまざまなオプションを提供しています。特定のニーズに最適なモデルを見つけるために、YOLOv10 と YOLOv8のような、より詳細な比較を検討できます。