YOLOv6.0とYOLO-YOLO:物体検出の技術比較
適切なコンピュータ・ビジョン・アーキテクチャを選択することは、エンジニアや研究者にとって極めて重要な決断です。物体検出の世界は競争が激しく、業界大手は常にスピードと精度の限界に挑戦しています。このページでは、Meituanのハードウェア効率に優れたモデルであるYOLOv6.0と、Alibaba Groupの技術満載のアーキテクチャであるYOLO-YOLOの包括的な技術比較を行います。
YOLOv6.0の概要
YOLOv6.0は、産業用アプリケーションに特化した堅牢なフレームワークである。MeituanのVision AI部門によってリリースされたこのフレームワークは、実世界の効率を優先し、製造業やオートメーションで見られる標準的なハードウェアの制約下で高いパフォーマンスを実現することを目指している。
- 著者: Chuyi Li、Lulu Li、Yifei Geng、Hongliang Jiang、Meng Cheng、Bo Zhang、Zaidan Ke、Xiaoming Xu、Xiangxiang Chu
- 組織美団
- Date: 2023-01-13
- Arxiv:YOLOv6 v3.0:フルスケール・リローディング
- ギットハブYOLOv6
- ドキュメントUltralytics YOLOv6 ドキュメント
アーキテクチャと主要なイノベーション
YOLOv6.0は、再パラメータ化に焦点を当て、シングルステージ検出器のパラダイムを改良した。この手法により、学習時には複雑な構造を持つモデルが、推論時にはよりシンプルで高速な構造へと変化します。
- EfficientRepバックボーン:バックボーンは、モデルサイズごとに異なるブロックを利用し(小さなモデルにはEfficientRep、大きなモデルにはCSPStackRep)、GPU ハードウェアの能力を最適に利用します。
- Rep-PANネック:ネックはRep-PANトポロジーを採用し、高速推論を維持しながら特徴融合を強化している。
- 自己蒸留:モデルがそれ自身の予測(具体的には、同じネットワーク内の教師ブランチ)から学習し、展開中に別の教師モデルの計算コストをかけずに精度を向上させる、主要な学習手法。
産業最適化
YOLOv6 6は量子化を念頭に置いて設計されている。そのアーキテクチャは、Post-Training Quantization (PTQ)やQuantization-Aware Training (QAT)に適しており、INT8精度がスピードのために好まれるエッジデバイスへの展開に有力な候補となる。
DAMO-YOLO の概要
アリババ・グループによって開発されたYOLO-YOLOは、パフォーマンスとレイテンシーのトレードオフを最適化する一連の新しいテクノロジーを導入している。DAMO-YOLOは、ニューラル・アーキテクチャー・サーチ(NAS)と高度な特徴フュージョン技術を取り入れることで差別化を図っている。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織アリババグループ
- Date: 2022-11-23
- Arxiv:YOLO: リアルタイム物体検出設計の報告
- GitHubYOLO
- ドキュメントYOLO GitHub README
アーキテクチャと主要なイノベーション
DAMO-YOLO 、純粋に手作業で作られたアーキテクチャから脱却し、効率的な構造を見つけるための自動化された検索戦略に部分的に依存している。
- NASを利用したバックボーン(MazeNet):バックボーンはMAE-NAS(ニューラル・アーキテクチャ・サーチ)を用いて生成され、その結果、さまざまな計算バジェットに対して高度に最適化されたMazeNetと呼ばれる構造が得られる。
- 効率的なRepGFPN:一般化特徴ピラミッドネットワーク(GFPN)を再パラメータ化と組み合わせて利用する。これにより、様々な大きさの物体を検出するために重要な、豊富なマルチスケール特徴の融合が可能になります。
- ZeroHead:ネットワークの最終段階におけるパラメータ数と計算の複雑さを軽減する簡素化された検出ヘッド設計。
- AlignedOTA: 学習過程における分類タスクと回帰タスクの間のずれを解決する動的ラベル割り当て戦略。
アドバンスド・フィーチャー・フュージョン
DAMO-YOLO RepGFPNネックは、オブジェクトが重なり合う複雑なシーンの処理に特に有効である。異なるスケールレベルにまたがるスキップ接続を可能にすることで、標準的なFPN構造よりも意味情報を保持する。
性能分析:速度 vs. 精度
以下の比較では、COCO val2017データセットのデータを用いている。メトリクスは、異なるスケールにわたる2つのモデル間のトレードオフを強調している。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
主なポイント
- レイテンシー・リーダー:YOLOv6.0nは、T4GPU1.17 msを記録し、この比較で最速のモデルです。このため、リアルタイム推論シナリオにおける高FPS要件に非常に適しています。
- 精度のピーク:YOLOv6.0lはmAPで最高の精度を達成した。 mAP52.8を達成し、YOLO-YOLOと比較してパラメータとFLOPsが高くなるものの、重いバックボーンと自己蒸留戦略の有効性を実証しました。
- 効率性のスイートスポット:DAMO-YOLOsは、YOLOv6.0sよりも少ないパラメーター数(16.3M対18.5M)でありながら、精度(46.0対45.0mAP)においてYOLOv6.0sを上回る。これは、小モデル領域におけるNAS探索バックボーンの効率性を浮き彫りにしています。
- パラメータ効率:一般的に、DAMO-YOLO モデルは、中規模から大規模の範囲において、同等の精度に対してより低いFLOPとパラメータ数を示し、ZeroHead設計の有効性を検証している。
Ultralytics 優位性
YOLOv6.0とYOLO -YOLOは特定のニッチ向けに魅力的な機能を提供している、 Ultralytics YOLO11は、最新のAI開発のより総合的なソリューションを提供します。Ultralytics モデルを選択することで、機械学習のライフサイクル全体を効率化するように設計された包括的なエコシステムが解放されます。
なぜUltralytics YOLO選ぶのか?
- 比類のない使いやすさ: 複雑な環境のセットアップやカスタムC++演算子のコンパイルが必要なことが多い研究用リポジトリとは異なり、Ultralytics モデルはシンプルな
pip install ultralytics.直感的な Python API を使えば、わずか数行のコードでモデルをトレーニングし、デプロイすることができる。 - パフォーマンス・バランス: YOLO11 、推論速度と精度の最適なバランスを提供するように設計されており、学習時のメモリ要件を低く抑えながら、実世界のベンチマークで競合他社を上回るパフォーマンスを発揮することが多い。
- タスクの多様性: YOLOv6 YOLO -YOLOが主にオブジェクト検出であるのに対し、Ultralytics YOLO インスタンス分割、ポーズ推定、分類、OBB(Oriented Bounding Box)検出など、幅広いタスクをネイティブにサポートしています。
- 整備されたエコシステム: Ultralytics 、頻繁なアップデート、豊富なドキュメント、DiscordやGitHubを通じたコミュニティサポートなど、生きたエコシステムを提供します。これにより、お客様のプロジェクトが将来にわたって最新のハードウェアやソフトウェアライブラリと互換性を保つことを保証します。
- 展開の柔軟性:学習したモデルを以下のような様々な形式に簡単にエクスポートできます。 ONNXTensorRT、CoreML、OpenVINO 、さまざまな形式に簡単にエクスポートできます。
例YOLO11物体検出の実行
Ultralytics使えば、最先端の検出を驚くほど簡単に始めることができます:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
結論
YOLOv6.0と YOLO-YOLOは共に、物体検出の進化における重要なマイルストーンである。YOLOv6.0は、生のスピードと量子化サポートが最重要である産業環境、特にNanoバリエーションで優れている。DAMOYOLO YOLOは、ニューラル・アーキテクチャー・サーチと革新的なフィーチャー・フュージョンの威力を発揮し、小~中型モデルで高い効率と精度を提供します。
しかし、最先端のパフォーマンスと汎用性、使いやすさを兼ね備えた本番用ソリューションを求める開発者にとっては、Ultralyticsは非常に便利なソリューションです、 Ultralytics YOLO11をお勧めします。その堅牢なエコシステム、マルチタスク機能、最新のMLOpsワークフローへのシームレスな統合は、プロジェクトの成功を確実にするための明確なアドバンテージを提供します。
その他のモデルを見る
物体検出の状況について理解を深めるために、これらの関連モデルの比較を検討してみてください: