YOLO11 vs YOLOv6-3.0:詳細なモデル比較
適切なコンピュータビジョンモデルの選択は、物体検出タスクで最適なパフォーマンスを達成するために非常に重要です。このページでは、Ultralytics YOLO11とYOLOv6-3.0の技術的な比較を提供し、アーキテクチャ、パフォーマンス指標、トレーニング方法論、および理想的なユースケースに焦点を当てて、プロジェクトに最適なモデルを選択できるようにします。どちらも強力な検出器ですが、YOLO11は、包括的で積極的にメンテナンスされているエコシステムに統合された、より汎用性が高く、効率的で、ユーザーフレンドリーなソリューションとして際立っています。
Ultralytics YOLO11
著者: Glenn Jocher, Jing Qiu
所属: Ultralytics
日付: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
ドキュメント: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11は、Ultralyticsの最新の最先端モデルであり、YOLOシリーズにおける最新の進化を代表します。2024年9月にリリースされ、YOLOv8のような以前のバージョンを基に、速度と精度の両方を向上させることを目的としたアーキテクチャの改良が施されています。YOLO11は、物体検出、インスタンスセグメンテーション、画像分類、ポーズ推定、および傾斜バウンディングボックス(OBB)を含む、幅広いコンピュータビジョンタスクにおいて、優れたパフォーマンスと効率を実現するように設計されています。
アーキテクチャと主な機能
YOLO11は、モデルサイズ、推論速度、および精度の間で洗練されたバランスを実現する最適化されたアーキテクチャを特徴としています。主な改善点には、強化された特徴抽出レイヤーと効率化されたネットワーク構造が含まれており、計算オーバーヘッドを最小限に抑えます。この設計により、エッジデバイスからクラウドサーバーまで、多様なハードウェアで効率的なパフォーマンスが保証されます。アンカーフリー検出器として、YOLO11は検出プロセスを簡素化し、多くの場合、一般化を改善し、よりモダンで効果的な選択肢となります。
長所
- 優れたパフォーマンスバランス: 多くの競合製品と比較して、より少ないパラメータでより高いmAPスコアを達成し、下のパフォーマンス表に見られるように、速度と精度の優れたトレードオフを提供します。
- 多様性: 単一の統合フレームワーク内で複数のビジョンタスクをサポートし、単純な物体検出をはるかに超える包括的なソリューションを提供します。これは、YOLOv6のようなシングルタスクモデルに対する大きな利点です。
- 使いやすさ: シンプルなPython API、充実したドキュメント、およびすぐに利用できる事前学習済みの重みを備えた、効率化されたUltralyticsエコシステムの恩恵を受けています。
- 優れたエコシステム: Ultralyticsによって活発に開発およびサポートされており、頻繁なアップデート、GitHubやDiscordを介した強力なコミュニティの支援、およびノーコードでのトレーニングとデプロイメントのためのUltralytics HUBとのシームレスな統合が提供されます。
- 学習効率: 非常に効率的な学習プロセスを提供し、多くの場合、Transformerベースのモデルのような他のアーキテクチャと比較して、より少ないメモリを必要とします。Transformerベースのモデルは、学習に時間がかかり、より多くのリソースを消費します。
弱点
- New Model: 最新のリリースであるため、コミュニティのチュートリアルやサードパーティ製ツールの量は、YOLOv5のような確立されたモデルと比較して、まだ増加しています。
- 小物体検出: ほとんどのOne-Stage検出器と同様に、特化したTwo-Stage検出器と比較して、極めて小さい物体に対して課題が生じる可能性がありますが、ほとんどのシナリオで堅牢に機能します。
理想的なユースケース
YOLO11は、その精度、速度、汎用性の組み合わせにより、現代の幅広いアプリケーションに最適です。
- 高精度が要求されるリアルタイムアプリケーション(自律システム、ロボティクスなど)。
- 高度なセキュリティシステムなど、検出、セグメンテーション、および姿勢推定を同時に必要とするマルチタスクシナリオ。
- リソースに制約のあるエッジデバイス(NVIDIA Jetson、Raspberry Pi)から強力なクラウドインフラストラクチャまで、さまざまなプラットフォームにわたるデプロイメント。
- セキュリティ、小売、ヘルスケア、製造におけるアプリケーション。
YOLOv6-3.0
著者: Chuyi Li、Lulu Li、Yifei Geng、Hongliang Jiang、Meng Cheng、Bo Zhang、Zaidan Ke、Xiaoming Xu、Xiangxiang Chu
所属: Meituan
日付: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
ドキュメント: https://docs.ultralytics.com/models/yolov6/
YOLOv6-3.0はMeituanによって開発された、主に産業用アプリケーション向けに設計された物体検出フレームワークです。2023年初頭にリリースされ、当時の現実世界の展開シナリオに適した速度と精度のバランスを提供することを目指していました。
アーキテクチャと主な機能
YOLOv6は、効率的なバックボーンやネックデザインなどのアーキテクチャの変更を導入しました。バージョン3.0では、これらの要素がさらに洗練され、パフォーマンスを向上させるためにトレーニング中の自己蒸留などの手法が組み込まれました。また、モバイル展開に最適化された特定のモデル(YOLOv6Lite)も提供しており、ハードウェア固有の最適化に重点を置いていることを示しています。
長所
- 優れた速度と精度のトレードオフ:特に速度が主な懸念事項である産業用物体検出タスクにおいて、競争力のあるパフォーマンスを提供します。
- 量子化サポート: リソースが限られたハードウェアへの展開に役立つモデル量子化のためのツールとチュートリアルを提供します。
- モバイル最適化:モバイルまたはCPUベースの推論用に特別に設計されたYOLOv6Liteバリアントが含まれています。
弱点
- 限定的なタスクの多様性: 主に物体検出に焦点が当てられており、包括的なUltralytics YOLO11フレームワークにある、セグメンテーション、分類、またはポーズ推定のネイティブサポートがありません。これにより、最新の多面的なAIプロジェクトでの適用性が制限されます。
- エコシステムとメンテナンス: オープンソースですが、エコシステムはUltralyticsプラットフォームほど包括的または活発にメンテナンスされていません。これにより、アップデートが遅くなり、統合が少なくなり、開発者向けのコミュニティサポートが少なくなる可能性があります。
- 高いリソース使用率: 以下の表に示すように、より大きな YOLOv6 モデルは、同様の mAP に対して YOLO11 相当のモデルよりもパラメータと FLOPs が大幅に多くなる可能性があり、トレーニングとデプロイメントにより多くの計算リソースが必要になる可能性があります。
理想的なユースケース
YOLOv6-3.0は以下に適しています。
- 物体検出の速度が最も重要な要素である産業用アプリケーション。
- 量子化を活用する、またはレガシーシステム向けにモバイル最適化されたモデルを必要とするデプロイメントシナリオ。
- 物体検出に特化しており、マルチタスク機能を必要としないプロジェクト。
性能比較:YOLO11 vs. YOLOv6-3.0
以下の表は、COCOデータセットにおけるYOLO11とYOLOv6-3.0モデルの詳細な性能比較を示しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
データは、YOLO11モデルが同様のスケールでYOLOv6-3.0モデルよりも一貫して高いmAPスコアを達成していることを明確に示しており、その一方で、使用するパラメータとFLOPは大幅に少なくなっています。たとえば、YOLO11mは、YOLOv6-3.0mよりも精度が高く(51.5対50.0 mAP)、パラメータはほぼ半分です(20.1M対34.9M)。この優れた効率性により、YOLO11は、デプロイメントのためのより強力で費用対効果の高いソリューションとなっています。YOLOv6-3.0nは非常に高速なGPU推論を示していますが、YOLO11は、精度、モデルサイズ、および汎用性の全体的なバランスがはるかに優れています。
結論と推奨事項
YOLOv6-3.0 はオブジェクト検出の分野に大きく貢献しましたが、Ultralytics YOLO11 は、最先端で汎用性が高く、効率的なコンピュータビジョンソリューションを求める開発者および研究者にとって、明らかな勝者です。
YOLO11は、より少ない計算リソースでより高い精度を実現するだけでなく、セグメンテーション、分類、姿勢推定など、幅広いタスクにその機能を拡張し、単一の使いやすいフレームワーク内で実現します。広範なドキュメント、コミュニティサポート、およびUltralytics HUBのようなツールを備えた、堅牢で積極的にメンテナンスされているUltralyticsエコシステムは、スムーズな開発とデプロイメントのエクスペリエンスを保証します。
新規プロジェクトには、YOLO11が推奨される選択肢です。他の最新アーキテクチャに関心のある方は、YOLOv10やRT-DETRなどのモデルとの比較を検討することで、貴重な洞察が得られるでしょう。