YOLOv7 vs DAMO-YOLO:詳細な技術比較
最適な物体検出アーキテクチャを選択することは、推論レイテンシ、精度、および計算リソース割り当ての競合する要求のバランスをとる、コンピュータビジョン開発における極めて重要な決定である。この技術分析では、2022年後半にリリースされ、リアルタイム検出の限界を押し広げた2つの影響力のあるモデル、YOLOv7 DAMO-YOLO対比する。独自のアーキテクチャ革新、ベンチマーク性能、さまざまな展開シナリオへの適合性を検証し、選択プロセスをナビゲートします。
YOLOv7:リアルタイムの精度を高めるトレーニングの最適化
YOLOv7 、YOLO ファミリーに大きな進化をもたらし、推論コストを増加させることなく性能を向上させるために、アーキテクチャの効率と高度な学習戦略を優先させた。Scaled-YOLOv4のオリジナル作者によって開発されたYOLOv7は、トレーニング段階でネットワークがより効果的に学習する手法を導入した。
著者Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organization:Institute of Information Science, Academia Sinica, Taiwan
Date:2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
建築イノベーション
YOLOv7 7の中核は、拡張効率的レイヤ集約ネットワーク(E-ELAN)を特徴としている。このアーキテクチャにより、モデルは最短および最長の勾配パスを制御することで多様な特徴を学習し、既存の勾配の流れを乱すことなく収束を改善することができる。さらに、YOLOv7 、「訓練可能なbag-of-freebies」を採用している。これは、訓練データ処理中に適用される最適化技術のセットであり、展開時にはモデルの構造に影響を与えない。これには、モデルの再パラメータ化や深層監視のための補助ヘッドが含まれ、バックボーンがロバストな特徴を捉えることを保証します。
福袋
bag-of-freebies」とは、精度を向上させるためにトレーニングの複雑さを増加させるが、リアルタイムの推論ではコストがゼロになる手法を指す。この哲学は、最終的にエクスポートされるモデルが軽量であることを保証します。
長所と短所
YOLOv7 、MSCOCOベンチマークで優れたバランスを誇り、そのサイズの割に高い平均精度(mAP)を提供する。その主な強みは、精度が最も重要な高解像度タスクにあります。しかし、アーキテクチャが複雑なため、カスタム研究のために変更するのは困難です。さらに、推論は効率的ですが、学習プロセスはリソース集約的で、新しいアーキテクチャと比較してかなりのGPU メモリを必要とします。
DAMO-YOLO:エッジを探すニューラル・アーキテクチャ
アリババの研究チームから生まれたDAMO-YOLO、ニューラル・アーキテクチャ・サーチ(NAS)を活用することで、低遅延環境に合わせた効率的なネットワーク構造を自動的に発見するという、異なるアプローチを取っている。
著者Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHubYOLO
建築イノベーション
DAMO-YOLO 、特定のレイテンシ制約下でスループットを最大化するGiraffeNetと呼ばれるバックボーンを生成する手法、MAE-NASを導入している。これを補完するのがZeroHeadと呼ばれる軽量な検出ヘッドで、分類と回帰のタスクを切り離すと同時に重いパラメーターを除去し、モデルサイズを大幅に縮小する。このアーキテクチャはまた、マルチスケール特徴フュージョンのためにRepGFPN(一般化特徴ピラミッドネットワーク)として知られる効率的なネックを利用し、ラベル割り当てのためにAlignedOTAを使用して分類スコアとローカライズ精度を整合させる。
長所と短所
DAMO-YOLO エッジAIのシナリオに優れています。その小型のバリエーション(Tiny/Small)は驚異的な速度を提供し、モバイル機器やIoTアプリケーションに適している。NASを使用することで、アーキテクチャが数学的に最適化され、効率が向上している。逆に、最大のYOLO -YOLOモデルは、純粋な精度で最高レベルのYOLOv7 モデルに後れを取ることがある。さらに、研究中心のプロジェクトであるため、より広範なフレームワークに見られる広範なエコシステムとツールのサポートがない。
パフォーマンス指標の比較
次の表は、性能のトレードオフを強調したものです。YOLOv7 一般に、高い計算量(FLOPs)を犠牲にして高い精度mAP)を達成する一方、DAMO-YOLO 、特に小型構成において、速度とパラメータ効率を優先する。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
現実世界のアプリケーション
これらのモデルのどちらを選択するかは、多くの場合、導入ハードウェアと必要とされる特定のコンピュータビジョンタスクに依存する。
- ハイエンド・セキュリティ&アナリティクス(YOLOv7): セキュリティ・アラーム・システムや詳細な交通管理など、何パーセントの精度も重要な、強力なサーバー上で実行されるアプリケーションには、YOLOv7 有力な候補となります。YOLOv7は細かいディテールを解像する能力があるため、高解像度のビデオストリームから小さな物体を検出するのに適しています。
- エッジデバイス&ロボティクス(YOLO-YOLO): 自律型ロボットやモバイル・アプリなど、レイテンシ予算が厳しいシナリオでは、DAMO-YOLO軽量アーキテクチャが輝きます。パラメータ数が少ないため、メモリ帯域幅のプレッシャーが軽減され、これは物体検出を行うバッテリー駆動のデバイスにとって非常に重要です。
Ultralytics 優位性なぜモダナイズするのか?
YOLOv7 YOLO -YOLOは有能なモデルだが、AIの状況は急速に進歩している。将来性があり、効率的で、ユーザーフレンドリーなソリューションを求める開発者や研究者は、Ultralytics エコシステム、特に以下を検討すべきである。 YOLO11.最新のUltralytics モデルへのアップグレードには、いくつかの明確な利点があります:
1.合理化された使いやすさ
Ultralytics モデルは、開発者の体験を優先しています。複雑な環境のセットアップや手動でのスクリプト実行を必要とすることが多いリサーチリポジトリとは異なり、Ultralytics 統一されたPython APIと CLI提供します。わずか数行のコードでモデルのトレーニング、検証、デプロイが可能です。
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
2.総合的な多用途性
YOLOv7 YOLO -YOLOは、主にバウンディングボックス検出のために設計されている。対照的に、YOLO11 11は、インスタンスのセグメンテーション、ポーズ推定、オリエンテッドオブジェクト検出(OBB)、画像分類など、さまざまなタスクを同じフレームワーク内でネイティブにサポートしている。これにより、スポーツにおける人間の姿勢解析のような複雑な問題に、ライブラリを切り替えることなく取り組むことができます。
3.優れた性能と効率
YOLO11 、長年の研究開発を基に、計算オーバーヘッドを大幅に削減しながら、最先端の精度を実現します。アンカーフリーの検出ヘッドと最適化されたバックエンド演算を採用し、旧バージョンのYOLO 、以下のような変換器ベースのモデルと比較して、学習時と推論時のメモリ使用量が少なくなっている。 RT-DETR.この効率性は、クラウドコンピューティングのコスト削減とエッジハードウェアでの高速処理につながります。
4.強固なエコシステムとサポート
Ultralytics モデルを採用することで、メンテナンスの行き届いたエコシステムにつながります。頻繁なアップデート、豊富なドキュメント、活発なコミュニティチャンネルにより、サポートされていないコードをデバッグする必要がなくなります。さらに、Ultralytics HUBのようなツールとのシームレスな統合により、モデルのデプロイとデータセットの管理が容易になります。
結論
YOLOv7 YOLO -YOLOはともに、2022年の物体検出分野に大きく貢献した。YOLOv7 、訓練可能な最適化技術がいかに精度を高めるかを実証し、DAMO-YOLO 、効率的でエッジ対応のモデルを作成するためのニューラル・アーキテクチャ・サーチの力を紹介した。
しかし、今日の生産環境では YOLO11はビジョンAI技術の最高峰である。DAMO-YOLOスピード、YOLOv77の精度、Ultralytics フレームワークの比類のない使いやすさを組み合わせることで、YOLO11 開発サイクルを加速し、アプリケーションのパフォーマンスを向上させる多用途のソリューションを提供します。スマートシティインフラの構築でも、製造品質管理の最適化でも、Ultralytics モデルは成功に必要な信頼性と効率性を提供します。
その他のモデルを見る
コンピュータ・ビジョンの分野で他の選択肢を探すことに興味があるなら、これらのモデルを検討してみてください:
- Ultralytics YOLOv8:YOLO11前身で、その堅牢性と幅広い業界への採用で知られている。
- YOLOv10:レイテンシを低減するためにNMSトレーニングに焦点を当てたリアルタイム検出器。
- YOLOv9:プログラム可能な勾配情報(PGI)を導入し、ディープネットワークにおける情報損失を低減。
- RT-DETR:変圧器ベースの検出器で、精度は高いが、一般的にGPU メモリを多く必要とする。
- YOLOv6:産業用途に最適化された、もうひとつの効率重視モデル。