モデル比較:物体検出におけるYOLOv8とYOLOv10の比較
適切な物体検出モデルの選択は、あらゆるコンピュータビジョンプロジェクトの成功にとって非常に重要です。このページでは、この分野の2つの最先端モデルであるUltralytics YOLOv8とYOLOv10の詳細な技術比較を提供します。特定のニーズに合わせて情報に基づいた意思決定を行うのに役立つように、アーキテクチャのニュアンス、パフォーマンス指標、トレーニング方法論、および理想的なアプリケーションを分析します。
Ultralytics YOLOv8:多用途性と成熟度
著者: Glenn Jocher, Ayush Chaurasia, and Jing Qiu
所属: Ultralytics
日付: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
ドキュメント: https://docs.ultralytics.com/models/yolov8/
Ultralyticsによって2023年1月に発表されたUltralytics YOLOv8は、成熟した汎用性の高いモデルであり、YOLOの前身の強みを基盤としています。速度、精度、そして幅広いビジョンAIタスクにわたる使いやすさのために設計されており、物体検出、インスタンスセグメンテーション、画像分類、ポーズ推定、向き付きバウンディングボックス(OBB)などが含まれます。
アーキテクチャと主な機能
YOLOv8は、YOLOシリーズの大きな進化を代表するものであり、アンカーフリーの検出アプローチを採用することで、モデルアーキテクチャを簡素化し、さまざまなデータセットにわたる汎化能力を向上させています。柔軟なバックボーンと最適化された損失関数が、精度の向上とより安定したトレーニングに貢献しています。YOLOv8の主な利点は、スケーラビリティであり、Nano(n)からExtra-large(x)までの範囲のモデルサイズを提供し、多様な計算能力と精度の要件に対応できます。この汎用性により、オブジェクト検出だけでなく、単一の統合フレームワーク内で複数のタスクをサポートするため、より多くの機能を必要とするプロジェクトにとって最適な選択肢となります。
性能と強み
YOLOv8は、強力なパフォーマンスバランスを提供し、リアルタイムアプリケーションに適した高速な推論速度を維持しながら、高いmAPスコアを達成します。たとえば、YOLOv8xはCOCOデータセットで53.9% mAPval 50-95に達します。その効率的な設計により、特にRT-DETRのようなトランスフォーマーベースのモデルと比較して、トレーニングおよび推論中のメモリ要件が低くなります。
- 成熟しており、ドキュメントが充実: YOLOv8 は、広範なドキュメント、大規模なコミュニティ、およびすぐに利用できるリソースから恩恵を受け、シンプルな Python および CLI インターフェースを介して非常にユーザーフレンドリーで実装が容易になっています。
- 多用途かつマルチタスク: 幅広いビジョンタスクをサポートしていることが、より専門的なモデルに対する重要な利点であり、複雑なプロジェクト要件に比類のない柔軟性を提供します。
- 優れたメンテナンス体制: このモデルは、トレーニングからデプロイメントまでのワークフローを効率化するプラットフォームであるUltralytics HUBとシームレスに統合されています。Ultralyticsによる活発な開発と頻繁なアップデートによって支えられています。
- パフォーマンスのバランス: 速度、精度、モデルサイズのバランスが優れており、幅広い現実世界の展開シナリオに適しています。
- Training Efficiency: YOLOv8 は効率的なトレーニングプロセスとすぐに利用できる事前学習済みウェイトを提供し、開発サイクルを大幅に加速します。
弱点
非常に効率的ですが、YOLOv8は、生の速度やパラメータ数を最優先するYOLOv10のような新しいモデルによって、特定の、非常に制約の厳しいベンチマークにおいて、わずかに性能で劣る可能性があります。ただし、YOLOv8は、使いやすさ、汎用性、およびサポートにおいて、より優れた全体的なパッケージを提供することがよくあります。
理想的なユースケース
YOLOv8の汎用性と使いやすさにより、幅広いアプリケーションに最適です。
- セキュリティシステム: セキュリティアラームシステムにおけるリアルタイムの物体検出に最適です。
- 小売分析: スマートリテールにおいて、顧客行動と在庫管理の理解に役立ちます。
- 産業品質管理: 製造業における自動外観検査に適用できます。
- マルチタスクプロジェクト: 単一のモデルから検出、セグメンテーション、およびポーズ推定を同時に必要とするプロジェクトに最適です。
YOLOv10:効率性の限界を押し広げる
Authors: Ao Wang, Hui Chen, Lihao Liu, et al.
Organization: Tsinghua University
Date: 2024-05-23
Arxiv: https://arxiv.org/abs/2405.14458
GitHub: https://github.com/THU-MIG/yolov10
Docs: https://docs.ultralytics.com/models/yolov10/
YOLOv10は、2024年5月に発表され、競争力のある精度を維持しながら、効率と速度を最大化することに重点を置いています。特にリアルタイムおよびエッジアプリケーションを対象としています。主なイノベーションは、Non-Maximum Suppression (NMS)の必要性を排除するトレーニングアプローチであり、これにより後処理の遅延を削減し、真のエンドツーエンドの物体検出を可能にします。
アーキテクチャと主な機能
YOLOv10は、全体的な効率と精度を重視したモデル設計を特徴としています。計算の冗長性を減らし、検出能力を高めるために、さまざまなコンポーネントを最適化しています。トレーニングに一貫したデュアルアサインメントを使用することで、NMSステップを削除し、デプロイメントパイプラインを簡素化しています。これは大きな進歩ですが、YOLOv10は主に物体検出に焦点を当てており、YOLOv8のような組み込みのマルチタスクの汎用性がないことに注意することが重要です。
パフォーマンス分析
YOLOv10は、最先端の効率性を示し、従来の多くのYOLOバージョンと比較して、より高速な推論速度とより小さなモデルサイズを提供します。例えば、YOLOv10-Sは、わずか7.2Mのパラメータで46.7%のmAPval 50-95を達成します。以下の表は、特定の精度レベルにおいて、YOLOv10モデルがYOLOv8モデルよりも少ないパラメータと低いFLOPsであることが多いことを示しています。ただし、YOLOv8は非常に競争力のある速度を維持しており、特にCPUにおいては高度に最適化されています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
長所と短所
- 効率性の向上: 多くの比較において、より高速な推論速度とより小さなモデルサイズを提供し、リソースが限られた環境に有益です。
- NMS不要の学習: NMSポストプロセスステップを排除することで、デプロイメントパイプラインを簡素化し、レイテンシを削減します。
- 最先端のパフォーマンス: 特にレイテンシ駆動のベンチマークで優れたパフォーマンスを達成します。
ただし、YOLOv10にはいくつかの制限もあります。
- Newer Model: より新しいモデルであるため、確立されたYOLOv8と比較して、コミュニティが小さく、すぐに利用できるリソースやサードパーティの統合が少なくなっています。
- エコシステムとの統合: Ultralyticsライブラリに統合されていますが、包括的なUltralyticsエコシステムにネイティブなYOLOv8などのモデルと比較して、確立されたMLOpsワークフローに適合させるには、より多くの労力が必要になる場合があります。
- タスクの特化: 主に物体検出に焦点が当てられており、YOLOv8が提供するセグメンテーション、分類、姿勢推定のための組み込みの汎用性がありません。
理想的なユースケース
YOLOv10は、リアルタイム性能とリソース効率が最優先事項であるアプリケーションに特に適しています。
- エッジデバイス: 携帯電話や組み込みシステムのような計算能力が限られたデバイスでの展開に最適です。
- 高速処理: 自律型ドローンやロボティクスなど、非常に低いレイテンシを必要とするアプリケーションに適しています。
- リアルタイム分析:交通管理など、即時のオブジェクト検出を必要とするペースの速い環境に最適です。
結論
Ultralytics YOLOv8とYOLOv10はいずれも強力かつ効果的な物体検出モデルです。どちらを選択するかは、プロジェクト固有の優先順位に大きく依存します。
Ultralytics YOLOv8は、ほとんどの開発者と研究者にとって推奨される選択肢です。その卓越した汎用性、使いやすさ、堅牢なエコシステム、そして速度と精度の優れたバランスが際立っています。そのマルチタスク機能により、セグメンテーション、ポーズ推定、またはその他のビジョンタスクを含むように進化する可能性のあるプロジェクトにとって、将来性のあるソリューションとなります。
YOLOv10は、特殊な、レイテンシが重要なアプリケーションに対して、魅力的な効率向上を提供します。プロジェクトの主な制約が、低電力エッジデバイスへのデプロイ、または単一タスクで可能な限り低い推論時間を達成することである場合、YOLOv10は強力な候補となります。
他の最先端モデルの検討にご興味のある方には、Ultralyticsは、高く評価されているYOLOv5、革新的なYOLOv9、最新のYOLO11など、さまざまなオプションを提供しています。YOLOv9 vs YOLOv8やYOLOv5 vs YOLOv8などの比較は、ニーズに最適なモデルを選択するのに役立ちます。