DAMO-YOLOとYOLO11:技術比較
急速に進化するコンピュータビジョンにおいて、適切な物体検出モデルを選択することは、アプリケーションの成功に不可欠である。この包括的な比較では、2つの重要なアーキテクチャを分析する:アリババ・グループが開発したYOLO-YOLOとUltralytics YOLO11Ultralytics社の最新の最先端モデルである。どちらのモデルもスピードと精度のトレードオフを最適化することを目的としているが、主な目的は異なり、展開シナリオによって異なる利点を提供する。
このガイドでは、開発者や研究者が十分な情報を得た上で決断できるよう、それらのアーキテクチャ、性能指標、理想的な使用例について詳しく説明する。
DAMO-YOLO
著者Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
DocsYOLO
DAMO-YOLO 、複数の最先端技術を統合して高性能を実現した物体検出フレームワークです。DAMO-YOLOは、アリババの研究によって推進された一連のアーキテクチャ革新を通じて、競争力のある精度を維持しながら待ち時間を短縮することに重点を置いている。
建築とイノベーション
DAMO-YOLO "Distill-and-Select "アプローチを導入し、以下の主要コンポーネントを組み込んでいる:
- MAE-NASバックボーン: ニューラルアーキテクチャ探索(NAS)を利用し、バックボーンを特定の制約条件の下で最適化することで、効率的な特徴抽出を実現する。
- 効率的なRepGFPN:一般化特徴ピラミッドネットワーク(GFPN)は、推論時に大きな計算コストをかけることなく、異なるスケール間の特徴融合を改善するために、再パラメータ化メカニズムを多用する。
- ZeroHead:この軽量な検出ヘッドは、分類と回帰のタスクを切り離し、推論スピードを最大化することを目的としている。
- AlignedOTA:分類ターゲットと回帰ターゲットの間のずれを解決し、学習中の収束を高めるラベル割り当て戦略。
DAMO-YOLO 理論的には素晴らしい進歩を示しているが、主に物体検出に焦点を当てた研究指向のフレームワークである。通常、より包括的なエコシステムに見られるネイティブなマルチタスク・サポートが欠けている。
Ultralytics YOLO11
著者Glenn Jocher, Jing Qiu
組織:Ultralytics
日付:2024-09-27
GitHubultralytics
Docsyolo11
Ultralytics YOLO11 、リアルタイムコンピュータービジョンの最高峰であり、アーキテクチャ、効率性、使いやすさを大幅に改善し、YOLO シリーズの遺産を洗練させました。YOLO11は、単なるモデルとしてではなく、多様なハードウェア環境での実用的な実世界展開のための多用途ツールとして設計されています。
建築とエコシステム
YOLO11 、洗練されたアンカー・フリー・アーキテクチャにより、これまでの成功をさらに発展させた。優れた特徴抽出のための改良されたバックボーンと、様々なスケールでの情報の流れを向上させる改良されたネックデザインが特徴である。
Ultralytics YOLO11 フレームワークの主な利点は以下の通り:
- 汎用性:多くの競合他社とは異なり、YOLO11 、オブジェクト検出、インスタンス分割、ポーズ推定、画像分類、オリエンテッドバウンディングボックス(OBB)など、幅広いタスクをネイティブにサポートしています。
- 使いやすさ:このモデルは、ユーザーフレンドリーなPython APIとCLIでラップされており、初心者から上級者までアクセス可能です。
- トレーニングの効率化: YOLO11 収束を早めるために最適化され、効率的なデータ増強と損失関数を利用しているため、ユーザーは以下のようなデータセットでカスタムモデルをトレーニングすることができます。 COCOのようなデータセット上でカスタムモデルをより少ないリソースオーバーヘッドで学習することができます。
- 整備されたエコシステム:ウルトラリティクスの UltralyticsUltralytics チームによって支えられているため、ユーザーは頻繁なアップデート、豊富なドキュメント、Ultralytics HUBのようなMLOpsツールとのシームレスな統合を利用することができます。
ご存知でしたか?
YOLO11 11は、エッジAIデバイス上で非常に効率的に動作するように設計されています。その最適化されたアーキテクチャは、NVIDIA JetsonやRaspberry Piのようなハードウェア上で低メモリ使用と高速推論を保証し、より重いトランスフォーマーベースのモデルと比較して、組み込みアプリケーションのための優れた選択肢となっています。
パフォーマンス比較
以下のチャートと表は、YOLO -YOLOとYOLO11性能の違いを示しています。Ultralytics YOLO11 、特にDAMOYOLO YOLOに公式ベンチマークがないCPU ハードウェア上で、一貫して優れた精度mAP)と有利な推論速度を示しています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
結果の分析
- 精度: YOLO11 、比較可能なDAMO-YOLO モデルを大幅に上回っている。例えば、YOLO11mは 51.5mAP達成し、より少ないパラメータ(20.1M対28.2M)にもかかわらず、DAMO-YOLOmの49.2mAP明らかに高い。
- 推論速度: GPU TensorRT)では、YOLO11 11は非常に競争力のあるレイテンシを提供します。YOLO11nは 1.5ミリ秒と信じられないほど高速で、超低レイテンシのアプリケーションに適しています。
- CPU パフォーマンス: Ultralytics モデルの大きな利点は、CPU パフォーマンスに関する透明性である。YOLO11 ONNXとOpenVINOCPU推論に最適化されているのに対し、YOLO -YOLOはGPU重点を置いており、多くの場合、CPU デプロイメント・パフォーマンスは未定義のままです。
- モデル効率: YOLO11 、パラメータとパフォーマンスのバランスが改善されています。アーキテクチャの効率化により、モデルファイルのサイズが小さくなり、ダウンロードの高速化とエッジデバイスのストレージ要件の低減につながります。
主な差別化要因とユースケース
Ultralytics YOLO11強み
デベロッパー Ultralytics YOLO11を利用する開発者は、堅牢なプロダクショングレードの環境にアクセスできます。
- パフォーマンスのバランス:モデル・アーキテクチャは、リアルタイムのビデオ解析に不可欠な推論速度と精度の最適なトレードオフを提供するよう、綿密に調整されています。
- マルチタスク機能:プロジェクトのスコープが検出からトラッキングやセグメンテーションに拡大しても、YOLO11 11は同じコードベース内でシームレスに処理します。
- 使いやすさ: The
ultralyticsパッケージはパイプライン全体を簡素化します。モデルのロード、予測の実行、CoreML、TFLite、TensorRT ようなフォーマットへのエクスポートは、わずか数行のコードで行うことができます。 - より少ないメモリ要件:トランスフォーマーベースの検出器や最適化されていないアーキテクチャと比較して、YOLO11 11は通常、トレーニング時に必要なCUDA メモリが少ないため、研究者はコンシューマーグレードのGPUでトレーニングを行うことができる。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
DAMO-YOLO強み
DAMO-YOLO 学術研究界では有力な候補である。
- 研究革新:MAE-NASやZeroHeadのような機能は、ニューラル・アーキテクチャーの探索やヘッド・デカップリングに関する興味深い洞察を提供する。
- GPU スループット:DAMO-YOLO 、サポートされているGPUのみで実行される特定の産業用アプリケーションに対して、高いスループットを提供しますが、純粋な精度/パラメータ効率ではYOLO11 遅れをとることがよくあります。
結論
DAMO-YOLO アリババの研究チームによる斬新なコンセプトを紹介している、 Ultralytics YOLO11は、大多数の開発者や企業にとって優れた選択肢として際立っている。その優位性は mAPスコアや推論の速さだけでなく、それをサポートする包括的なエコシステムによって定義される。
YOLO11 、使いやすさと汎用性から、整備されたコードベースと活発なコミュニティ・サポートに至るまで、高度なAIソリューションを作成するための参入障壁を低くします。クラウドサーバー上であれ、リソースに制約のあるエッジデバイス上であれ、YOLO11 11は最新のコンピュータビジョンアプリケーションに必要な信頼性とパフォーマンスを提供します。
その他のモデル比較
Ultralytics モデルと他のアーキテクチャとの比較をよりよく理解するには、詳細な比較ページをご覧ください: