YOLOv10 vs YOLO11:オブジェクト検出に関する技術比較
最適な物体検出モデルの選択は、精度、速度、デプロイメントの制約のバランスを取る上で重要な決定です。このページでは、エンドツーエンドの効率に重点を置いたモデルであるYOLOv10と、その汎用性、パフォーマンス、使いやすさで知られるUltralyticsの最新の最先端モデルであるUltralytics YOLO11の包括的な技術比較を提供します。アーキテクチャの違い、パフォーマンスベンチマーク、および情報に基づいた選択を行うのに役立つ理想的なアプリケーションについて詳しく説明します。
YOLOv10:効率性の限界を押し広げる
Authors: Ao Wang, Hui Chen, Lihao Liu, et al.
Organization: Tsinghua University
Date: 2024-05-23
Arxiv: https://arxiv.org/abs/2405.14458
GitHub: https://github.com/THU-MIG/yolov10
Docs: https://docs.ultralytics.com/models/yolov10/
2024年5月に発表されたYOLOv10は、リアルタイムのエンドツーエンドパフォーマンスを優先する物体検出モデルです。その主な革新は、従来推論レイテンシを増加させていたポストプロセッシング中のNon-Maximum Suppression (NMS)の排除です。これは、一貫性のあるデュアル割り当てと呼ばれる新しいトレーニング戦略によって実現されます。
アーキテクチャと主な機能
YOLOv10の設計は、効率と精度に対する包括的なアプローチによって推進されています。計算の冗長性を減らし、モデルの能力を向上させるために、いくつかのアーキテクチャ最適化が導入されています。主な機能には、軽量な分類ヘッドと、情報をより効果的に保持するための空間チャネル分離ダウンサンプリング戦略が含まれます。NMSステップを削除することで、YOLOv10はデプロイメントパイプラインを簡素化し、レイテンシを削減し、真のエンドツーエンド検出器を目指しています。
長所
- 効率性の向上: 特にリソースが限られた環境において、レイテンシと精度、およびサイズと精度のトレードオフにおいて、目覚ましいパフォーマンスを示します。
- NMSフリー設計: NMSポストプロセッシングステップを排除することで、デプロイメントが簡素化され、エンドツーエンドの推論時間が短縮されます。
- 最先端の研究: ポストプロセッシングのボトルネックに対処することにより、リアルタイムオブジェクト検出への重要な学術的貢献を表しています。
弱点
- 新しいモデル: 大学の研究チームからの最近のリリースであるため、コミュニティは小さく、十分に確立されたUltralyticsのエコシステムと比較して、サードパーティの統合は少なくなっています。
- タスクの特化: YOLOv10は主に物体検出に焦点が当てられています。セグメンテーション、分類、姿勢推定のような他のビジョンタスクに対する組み込みの汎用性がありません。これらのタスクはYOLO11にネイティブに備わっています。
- エコシステムとの統合: Ultralyticsフレームワーク上に構築されていますが、Ultralyticsが直接開発および保守しているモデルと比較して、包括的なMLOpsワークフローに統合するには、追加の労力が必要になる場合があります。
理想的なユースケース
YOLOv10は、低レイテンシと計算効率が最優先されるアプリケーションに特に適しています。
- エッジAI:NVIDIA JetsonやRaspberry Pi上の携帯電話や組み込みシステムなど、計算能力が限られたデバイスへの展開に最適です。
- 高速処理: 自律型ドローンやロボティクスなど、非常に高速な推論を必要とするアプリケーションに適しています。
- リアルタイム分析: 交通管理など、即時のオブジェクト検出を必要とするペースの速い環境に最適です。
Ultralytics YOLO11:汎用性とパフォーマンスの最前線
著者: Glenn Jocher、Jing Qiu
所属: Ultralytics
日付: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
ドキュメント: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11は、UltralyticsのYOLOシリーズの最新の進化であり、YOLOv8などの非常に人気のあるモデルの成功に基づいています。最先端の精度と優れたパフォーマンスバランスを提供するように設計されており、信じられないほど使いやすく、統合も簡単です。YOLO11は単なるオブジェクト検出器ではありません。包括的なビジョンAIフレームワークです。
アーキテクチャと主な機能
YOLO11は、高度に最適化されたアーキテクチャを特徴とし、高度な特徴抽出と効率化されたネットワーク設計を備えています。これにより、多くの場合、前モデルと比較してパラメータ数を削減しながら、より高い精度を実現します。YOLO11の主な利点は、その汎用性です。物体検出、インスタンスセグメンテーション、画像分類、ポーズ推定、および傾斜バウンディングボックス(OBB)を含む、幅広いタスクをネイティブにサポートしています。
この多様性は、適切にメンテナンスされたエコシステムによって支えられています。Ultralyticsは、シンプルなPython APIとCLI、広範なドキュメント、およびノーコードトレーニングとデプロイメントのためのUltralytics HUBのようなツールとのシームレスな統合により、効率化されたユーザーエクスペリエンスを提供します。このモデルは、効率的なトレーニングプロセス、すぐに利用できる事前トレーニング済みの重み、活発な開発、強力なコミュニティサポートの恩恵を受けています。さらに、YOLO11モデルは効率性を重視して設計されており、特にTransformerベースのモデルと比較して、トレーニングおよび推論中のメモリ消費量が少なくなります。
長所
- 最先端のパフォーマンス: 速度と精度の優れたバランスで、トップレベルのmAPスコアを達成します。
- 多用途かつマルチタスク: 単一のモデルフレームワークで、検出、セグメンテーション、分類、ポーズ、OBBを処理でき、複雑なプロジェクトに比類のない柔軟性を提供します。
- 使いやすさ: シンプルで直感的なAPIと包括的なドキュメントにより、初心者と専門家の両方がアクセスできます。
- 堅牢なエコシステム: 活発な開発、頻繁なアップデート、強力なコミュニティサポート、およびUltralytics HUBのようなMLOpsツールとのシームレスな統合から恩恵を受けます。
- Training and Deployment Efficiency: 効率的なトレーニングワークフロー、より低いメモリ要件を提供し、エッジデバイスからクラウドサーバーまで、幅広いハードウェア向けに最適化されています。
弱点
- ワンステージ検出器として、一部の特殊なツーステージ検出器と比較して、極端に小さいオブジェクトに対して課題が生じる可能性があります。
- 大型モデルは、高精度である一方、トレーニングとデプロイメントにかなりの計算リソースを必要とします。
理想的なユースケース
YOLO11は、高い性能、汎用性、使いやすさを兼ね備えているため、幅広い現実世界のアプリケーションに最適です。
- 産業オートメーション: 製造業における高精度品質管理およびプロセス監視。
- Healthcare: 腫瘍検出や細胞セグメンテーションなどのタスクのための医療画像解析。
- セキュリティと監視: リアルタイムの脅威検出と追跡を備えた高度なセキュリティシステムを強化します。
- 小売分析: 在庫管理の改善と顧客行動の分析。
- マルチタスクプロジェクト: 高度な運転支援システムなど、オブジェクト検出、セグメンテーション、およびポーズ推定を同時に必要とするアプリケーションに最適です。
性能の直接対決:YOLOv10 vs. YOLO11
モデルを直接比較すると、明確なトレードオフが見られます。YOLOv10モデル、特に小型のバリアントは、極めて高い効率を実現するように設計されており、パラメータ数とFLOPsが少ないことがよくあります。そのため、レイテンシが重要なタスクに適しています。
しかし、YOLO11は、より堅牢でバランスの取れたパフォーマンスプロファイルを示しています。ほとんどのモデルサイズでわずかに高いmAPを達成し、CPUとGPU(T4 TensorRT)の両方で大幅に高速な推論速度を示しています。この優れた速度と精度のバランスは、マルチタスク機能と成熟したエコシステムと相まって、YOLO11をほとんどの開発およびデプロイメントシナリオにおいて、より実用的で強力な選択肢としています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
結論: どのモデルを選ぶべきか?
YOLOv10とYOLO11はいずれも、物体検出の限界を押し広げる強力なモデルです。
YOLOv10は、特殊な、遅延が重要なアプリケーションに焦点を当てている研究者や開発者にとって優れた選択肢であり、NMSフリーのアーキテクチャが明確な利点を提供します。その無駄のない設計は、高度に制約されたエッジデバイスへの展開に最適です。
しかし、圧倒的多数の開発者、研究者、商用アプリケーションにとって、Ultralytics YOLO11 が推奨される選択肢です。精度がわずかに高く、推論速度が優れているため、全体的なパフォーマンスのバランスが向上します。さらに重要なことに、YOLO11 の複数のビジョンタスクにわたる比類のない汎用性と、使いやすさと堅牢で適切にメンテナンスされた Ultralytics エコシステムとの組み合わせにより、開発が大幅に加速され、デプロイメントが簡素化されます。活発なコミュニティ、広範なドキュメント、Ultralytics HUB のようなツールとのシームレスな統合により、YOLO11 は単なるモデルではなく、高度なビジョン AI アプリケーションを構築するための完全なソリューションとなっています。
他のモデルを検討されている場合は、YOLOv9 vs YOLO11またはYOLOv8 vs YOLO11の比較を見て、進化を理解し、プロジェクトに最適なものを見つけることをご検討ください。