YOLOv10 vs. YOLOX: 技術的な比較
最適な物体検出モデルの選択は、コンピュータビジョンプロジェクトにおける精度、速度、および計算需要のバランスを取るために不可欠です。このページでは、物体検出の分野における2つの重要なモデルであるYOLOv10とYOLOXの詳細な技術比較を提供します。アーキテクチャ、パフォーマンス指標、およびニーズに最適な選択を行うのに役立つ理想的なユースケースを分析し、Ultralyticsエコシステム内でのYOLOv10の利点を強調します。
YOLOv10:最先端のリアルタイムエンドツーエンド検出器
Ultralytics YOLOv10は、清華大学の研究者によって開発され、エンドツーエンドの効率に焦点を当てることで、リアルタイムオブジェクト検出の大きな進歩を代表するものです。2024年5月に導入され、ポストプロセッシングのボトルネックに対処し、優れた速度とパフォーマンスのためにアーキテクチャを最適化し、開発者にとって最先端の選択肢となっています。
技術詳細:
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織: 清華大学
- Date: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- ドキュメント: https://docs.ultralytics.com/models/yolov10/
アーキテクチャと主な機能
YOLOv10は、効率と性能を向上させるために、いくつかの主要な革新を導入しています。
- NMS不要の学習: コアとなるイノベーションは、推論時にNon-Maximum Suppression (NMS)の必要性を排除するために、一貫した二重割り当てを使用することです。これにより、推論レイテンシが大幅に削減され、デプロイメントパイプラインが簡素化され、真のエンドツーエンドの物体検出が可能になります。
- 全体的な効率と精度の設計: モデルアーキテクチャは、計算の冗長性を低減し、能力を向上させるために包括的に最適化されました。これには、軽量な分類ヘッドと空間チャネル分離ダウンサンプリングが含まれており、計算コストを削減しながら、より効果的に情報を保持します。
- 優れたパフォーマンスバランス: YOLOv10は、速度と精度の優れたトレードオフを実現します。非常に低いレイテンシを維持しながら、高いmAPスコアを提供し、幅広い現実世界の展開シナリオに適しています。
- Ultralyticsエコシステムとの統合: Ultralyticsエコシステムの一部として、YOLOv10は合理化されたユーザーエクスペリエンスの恩恵を受けています。これには、シンプルなPython API、広範なドキュメント、すぐに利用できる事前トレーニング済みの重みを使用した効率的なトレーニングプロセス、および多くの代替手段と比較してより低いメモリ要件が含まれます。
長所と短所
長所:
- 卓越した速度と効率性: リアルタイムかつ低遅延の推論に最適化されており、利用可能な検出器の中で最速の部類に入ります。
- NMS不要の推論: デプロイメントを簡素化し、ポストプロセスを高速化します。これは、本番システムにとって非常に重要な利点です。
- 最先端のパフォーマンス: さまざまなモデルスケール(n、s、m、b、l、x)で優れたmAPスコアを達成し、多くの場合、より少ないパラメータで他のモデルを凌駕します。
- 使いやすさ: Ultralyticsフレームワークにシームレスに統合され、トレーニングからデプロイまでユーザーフレンドリーな体験を提供します。
- 学習効率: 学習プロセスは非常に効率的で、適切にメンテナンスされたコード、事前学習済みのウェイト、および活発なコミュニティサポートによってサポートされています。
弱点:
- 比較的新しい: より新しいモデルであるため、コミュニティが提供する例やサードパーティの統合の幅は、より古く、より確立されたモデルと比較して、まだ成長段階にあります。
ユースケース
YOLOv10は、速度と精度の両方が重要な、要求の厳しいリアルタイムアプリケーションに最適です。
- Edge AI: Raspberry PiやNVIDIA Jetsonのようなリソース制約のあるデバイスへのデプロイに最適です。
- リアルタイムシステム: 自動運転車、ロボティクス、高速ビデオ分析、監視に最適です。
- 高スループット処理: 大量のデータストリームの迅速な分析を必要とする産業検査やその他のアプリケーションに最適です。
YOLOX: High-Performance Anchor-Free Detector
YOLOXは、Megvii社が2021年に開発したアンカーフリーの物体検出モデルです。YOLOファミリーの代替アプローチとして導入され、検出パイプラインを簡素化しつつ、高性能を達成し、研究と産業応用の間のギャップを埋めることを目指しています。
技術詳細:
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織: Megvii
- Date: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Docs: https://yolox.readthedocs.io/en/latest/
アーキテクチャと主な機能
YOLOXは、以前のYOLOモデルと比較して、いくつかの重要なアーキテクチャの変更を実装しています。
- Anchor-Free Design: YOLOXは、定義済みのアンカーボックスを排除することで、検出パイプラインを簡素化し、ハイパーパラメータの数を減らすため、汎化性能が向上する可能性があります。
- 分離されたヘッド: 分類タスクとローカリゼーションタスクに別々のヘッドを使用します。この分離により、一部の以前のモデルで使用されていた結合されたヘッドと比較して、収束速度と精度が向上する可能性があります。
- 高度なトレーニング戦略: YOLOXは、動的なラベル割り当てのためのSimOTA(Simplified Optimal Transport Assignment)のような高度な手法と、MixUpのような強力なデータ拡張法を組み込んでいます。
長所と短所
長所:
- 高精度: 特にYOLOX-xのような大型バリアントで、高いmAPスコアを達成しています。
- Anchor-Free Simplicity: アンカーボックスの構成と調整に関連する複雑さを軽減します。
- 確立されたモデル: 2021年から利用可能であり、コミュニティリソースと導入事例の強固な基盤があります。
弱点:
- 推論が遅い: 当時は効率的でしたが、特に同程度の精度のモデルを比較した場合、YOLOv10のような高度に最適化された最新モデルよりも遅く、計算負荷が高くなる可能性があります。
- 外部エコシステム: Ultralyticsエコシステムにネイティブに統合されていないため、Ultralytics HUBなどのツールを使用したデプロイメント、トレーニング、および統合には、より多くの労力がかかる可能性があります。
- タスクの多様性: YOLOXは主に物体検出に重点を置いており、Ultralyticsのより新しい多用途モデルにあるセグメンテーションや姿勢推定のような他のビジョンタスクに対する組み込みサポートがありません。
ユースケース
YOLOXは、以下のような用途に適しています。
- 一般的な物体検出: セキュリティシステムなど、精度と速度のバランスが取れたアプリケーションに必要です。
- 研究: 新しいアンカーフリー検出法を研究・開発するための強力なベースラインとなります。
- 産業用アプリケーション: 高精度が主な要件となる品質管理などのタスク。
性能分析:YOLOv10 vs. YOLOX
次の表は、COCOデータセットでベンチマークされた、YOLOv10およびYOLOXのさまざまなモデルサイズのパフォーマンス指標の詳細な比較を提供します。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
データから、YOLOv10はほぼすべての指標においてYOLOXを一貫して上回っていることが明らかです。
- 精度と効率: YOLOv10モデルは、パラメータ数とFLOPsを大幅に削減しながら、より高いmAPスコアを達成します。たとえば、YOLOv10-mはわずか15.4Mのパラメータで51.3 mAPに達し、YOLOX-l(54.2Mのパラメータで49.7 mAP)を上回り、YOLOX-x(99.1Mのパラメータで51.1 mAP)と同等でありながら、はるかに効率的です。
- 推論速度: YOLOv10は優れた速度を発揮します。YOLOv10-xは、NVIDIA T4 GPU上でYOLOX-xより32%高速でありながら、より高精度です。この効率性の高さは、リアルタイムアプリケーションにとって非常に重要です。
- モデルサイズ: YOLOv10のパラメータ効率は驚くべきものです。最大のYOLOv10xモデルは、YOLOX-xのほぼ半分のパラメータしか持たないため、メモリ制約のあるシステムへのデプロイが容易になります。
結論と推奨事項
YOLOXは有能で歴史的に重要なアンカーフリー検出器ですが、YOLOv10は新しいプロジェクト、特に高いパフォーマンスと効率を必要とするプロジェクトにとって、明確な勝者です。その革新的なNMSフリー設計と全体的なアーキテクチャ最適化は、YOLOXが匹敵できない速度と精度の最先端のバランスを実現します。
開発者や研究者にとって、YOLOv10は魅力的な利点を提供します。
- 優れた性能: より高速な速度とより低い計算コストで、より優れた精度を実現します。
- デプロイメントの簡素化: NMSフリーのアプローチにより、一般的なポストプロセッシングのボトルネックが解消されます。
- 堅牢なエコシステム: Ultralyticsエコシステムとの統合により、広範なドキュメント、活発なメンテナンス、およびトレーニングから本番環境までの合理化されたワークフローへのアクセスが提供されます。
他の最先端モデルの検討にご興味のある方には、Ultralyticsは、汎用性の高いYOLOv8、効率的なYOLOv9、最新のYOLO11など、さまざまなオプションを提供しています。YOLOv10 vs. YOLOv8などの比較は、特定のニーズに最適なモデルを選択するのに役立ちます。