YOLOv6-3.0 vs YOLO11:詳細なモデル比較
適切なコンピュータビジョンモデルの選択は、物体検出タスクで最適なパフォーマンスを達成するために非常に重要です。このページでは、YOLOv6-3.0とUltralytics YOLO11の技術的な比較を提供し、アーキテクチャ、パフォーマンス指標、トレーニング方法論、および理想的なユースケースに焦点を当てて、プロジェクトに最適なモデルを選択できるようにします。どちらも強力なモデルですが、YOLO11は、最先端の効率と汎用性を表しています。
YOLOv6-3.0
著者: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, Xiangxiang Chu
所属: Meituan
日付: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
ドキュメント: https://docs.ultralytics.com/models/yolov6/
YOLOv6-3.0はMeituanによって開発された、主に産業用アプリケーション向けに設計された物体検出フレームワークです。2023年初頭にリリースされ、リアルタイム推論が優先される現実世界の展開シナリオに適した速度と精度のバランスを提供することを目指していました。
アーキテクチャと主な機能
YOLOv6は、ハードウェアを意識した効率的なバックボーンやネックデザインなどのアーキテクチャの変更を導入しました。バージョン3.0では、これらの要素がさらに洗練され、パフォーマンスを向上させるためにトレーニング中の自己蒸留などの手法が組み込まれました。また、モバイル展開に最適化された特定のモデル(YOLOv6Lite)も提供しており、エッジコンピューティングに重点を置いていることを示しています。
長所
- 優れた速度と精度のトレードオフ:特に産業用の物体検出タスクにおいて、競争力のあるパフォーマンスを提供します。
- 量子化サポート: リソースが限られたハードウェアへの展開に役立つモデル量子化のためのツールとチュートリアルを提供します。
- モバイル最適化:モバイルまたはCPUベースの推論用に特別に設計されたYOLOv6Liteバリアントが含まれています。
弱点
- 限定的なタスクの多様性: 主に物体検出に焦点が当てられており、Ultralytics YOLO11にある、インスタンスセグメンテーション、画像分類、またはポーズ推定のネイティブサポートがありません。
- エコシステムとメンテナンス: オープンソースですが、エコシステムはUltralyticsプラットフォームほど包括的または活発にメンテナンスされていません。そのため、アップデートが遅れたり、コミュニティサポートが少なくなる可能性があります。
- 高いリソース使用率: より大きな YOLOv6 モデルは、同様の mAP に対して YOLO11 相当のモデルよりもパラメータと FLOPs が大幅に多くなる可能性があり、以下の表に示すように、より多くの計算リソースが必要になる可能性があります。
理想的なユースケース
YOLOv6-3.0は以下のような用途に適しています。
- 品質管理のための製造業など、物体検出の速度が重要な産業用アプリケーション。
- 量子化を活用する、またはモバイル向けに最適化されたモデルを必要とするデプロイメントシナリオ。
- マルチタスク機能を必要とせず、物体検出のみに焦点を当てたプロジェクト。
Ultralytics YOLO11
著者: Glenn Jocher, Jing Qiu
所属: Ultralytics
日付: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
ドキュメント: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11は、Ultralyticsの最新の最先端モデルであり、YOLOシリーズにおける最新の進化を代表します。2024年9月にリリースされ、YOLOv8のような以前のバージョンを基に、速度と精度の両方を向上させることを目的としたアーキテクチャの改良が施されています。YOLO11は、幅広いコンピュータビジョンタスクにおいて、優れたパフォーマンスと効率を実現するように設計されています。
アーキテクチャと主な機能
YOLO11は、モデルサイズ、推論速度、および精度の間で洗練されたバランスを実現する最適化されたアーキテクチャを特徴としています。主な改善点には、強化された特徴抽出レイヤーと効率化されたネットワーク構造が含まれており、計算オーバーヘッドを最小限に抑えます。この設計により、NVIDIA Jetsonのようなエッジデバイスから強力なクラウドサーバーまで、多様なハードウェアで効率的なパフォーマンスが保証されます。アンカーフリー検出器として、YOLO11は検出プロセスを簡素化し、多くの場合、一般化を改善します。
長所
- 優れたパフォーマンスバランス: 競合製品と比較して、より少ないパラメータとFLOPでより高いmAPスコアを達成し、速度と精度の優れたトレードオフを提供します。
- 多様性: 検出、インスタンスセグメンテーション、分類、ポーズ推定、傾斜バウンディングボックス(OBB)など、単一のフレームワーク内で複数のビジョンタスクをサポートし、包括的なソリューションを提供します。
- 使いやすさ: シンプルなPython API、充実したドキュメント、およびすぐに利用できる事前学習済みの重みを備えた、効率化されたUltralyticsエコシステムの恩恵を受けています。
- 適切に管理されたエコシステム:Ultralyticsによって活発に開発およびサポートされており、頻繁なアップデート、GitHubおよびDiscordを介した強力なコミュニティの支援、およびシームレスなトレーニングとデプロイメントのためのUltralytics HUBとの統合があります。
- Training Efficiency: 効率的なトレーニングプロセスを提供し、多くの場合、トランスフォーマーのような他のモデルタイプと比較して必要なメモリが少なくなります。
弱点
- New Model: 最新のリリースであるため、コミュニティのチュートリアルやサードパーティ製ツールの量は、YOLOv5のような確立されたモデルと比較して、まだ増加しています。
- 小さいオブジェクトの検出: ほとんどのOne-Stage検出器と同様に、特殊なTwo-Stage検出器と比較して、非常に小さいオブジェクトで課題に直面する可能性があります。
理想的なユースケース
YOLO11は、精度、速度、汎用性のバランスが取れているため、以下のような用途に最適です。
- 自律システムやロボティクスなど、高精度を必要とするリアルタイムアプリケーション。
- 検出、セグメンテーション、姿勢推定を同時に必要とするマルチタスクシナリオ。
- Raspberry Piのようなリソース制約のあるデバイスから、強力なクラウドインフラストラクチャまで、さまざまなプラットフォームにわたるデプロイメント。
- セキュリティ、小売、ヘルスケア、ロジスティクスにおけるアプリケーション。
パフォーマンス比較
COCOデータセットで評価された以下の性能ベンチマークは、YOLO11の利点を明確に示しています。同等の精度のレベルでは、YOLO11モデルは著しく効率的です。例えば、YOLO11lはわずか25.3Mのパラメーターと86.9BのFLOPsで53.4という高いmAPvalを達成していますが、YOLOv6-3.0lは2倍以上のパラメーター(59.6M)とFLOPs(150.7B)を必要とするにもかかわらず、わずか52.8のmAPvalにしか達していません。この優れた効率性により、YOLO11はよりスケーラブルで費用対効果の高いデプロイメントの選択肢となります。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
学習方法論
どちらのモデルも、標準的な深層学習トレーニングプラクティスを利用しています。YOLOv6-3.0は、パフォーマンスを向上させるために自己蒸留などの技術を採用しています。ただし、Ultralytics YOLO11は、包括的なUltralyticsエコシステム内での深い統合から恩恵を受けており、大幅に合理化されたユーザーフレンドリーなエクスペリエンスを提供します。
YOLO11 を用いたトレーニングは、python パッケージとUltralytics HUBを通じて簡素化されており、これらは簡単なハイパーパラメータ調整、効率的なデータローディング、およびTensorBoardやWeights & Biasesのようなプラットフォームでの自動ロギングのためのツールを提供します。さらに、YOLO11 のアーキテクチャはトレーニング効率のために最適化されており、多くの場合、より少ないメモリと時間しか必要としません。両方のモデルは、転移学習を容易にするために、COCO データセットで事前トレーニングされた重みを提供します。
結論
YOLOv6-3.0 は特定の産業用ユースケースに対して堅実なパフォーマンスを提供しますが、Ultralytics YOLO11 はほとんどの開発者および研究者にとって優れた選択肢として登場しました。 YOLO11 は、最先端の精度、優れた効率(より高い mAP のためのより少ないパラメータと FLOP)、および複数のビジョンタスクにわたる卓越した汎用性を提供します。その最大の利点は、堅牢で十分に文書化され、積極的にメンテナンスされている Ultralytics エコシステムに支えられた、比類のない使いやすさにあります。この強力なパフォーマンスバランスにより、エッジからクラウドまで、より広範なアプリケーションおよびデプロイ環境に適しています。
代替手段を検討しているユーザーのために、Ultralyticsは、YOLOv10、YOLOv9、YOLOv8のような他の高性能モデルも提供しています。Ultralyticsのドキュメント内で、RT-DETR、YOLOX、YOLOv7などのモデルとの比較をさらに見つけることができます。