DAMO-YOLO 対 YOLO11: 包括的な技術比較
次回のコンピュータビジョンプロジェクトでリアルタイム物体検出アーキテクチャを選択する際、主要モデル間の微妙な差異を理解することが極めて重要です。本総合ガイドでは、YOLO Ultralytics YOLO11比較する詳細な技術分析を提供し、両モデルのアーキテクチャ、性能指標、トレーニング手法、および理想的な実環境展開シナリオを探求します。
DAMO-YOLO詳細:
著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
組織: Alibaba Group
日付: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO
Docs: DAMO-YOLOドキュメント
YOLO11の詳細:
著者: Glenn Jocher および Jing Qiu
組織: Ultralytics
日付: 2024-09-27
GitHub: ultralytics/ultralytics
ドキュメント: YOLO11ドキュメント
建築設計思想
物体検出モデルの基盤となるアーキテクチャは、その推論速度、精度、および様々なハードウェア環境における適応性を決定する。
DAMO-YOLOは、バックボーンを自動的に設計するためにニューラルアーキテクチャ探索(NAS)に大きく依存するなど、いくつかの学術的な革新を導入しています。特徴融合を強化するために効率的なRepGFPN(Reparameterized Generalized Feature Pyramid Network)と、以前のアーキテクチャでよく見られた重い予測ヘッドを大幅に縮小するZeroHead設計を利用しています。このNAS駆動型アプローチにより、DAMO-YOLOは選択されたGPUで特定の効率を達成できますが、結果として得られるアーキテクチャは、多様なエッジデバイス間でシームレスに汎化するために必要な柔軟性に欠けることがあります。
対照的に、 YOLO11 は、長年にわたる基礎研究を基盤として構築され、高度に最適化された手作業によるアーキテクチャを実現しています。合理化されたバックボーンと、冗長な計算を削減する高効率なネックに焦点を当てています。YOLO11 主な利点の一つは、洗練されたパラメータYOLO11 。Transformerベースのモデル(例: RT-DETRのようなトランスフォーマーベースのモデルに典型的な重いVRAM要件なしに高い特徴表現を実現します。YOLO11 汎用性YOLO11 、コンシューマー向けGPU、モバイルデバイス、専用エッジアクセラレータ上でスムーズに動作します。
パフォーマンスとメトリクス
パフォーマンスを評価するには、最高の精度だけでなく、速度、モデルサイズ、計算負荷(FLOPs)のバランスを考慮する必要があります。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
表が示すように、YOLO11は非常に優れたパフォーマンスバランスを達成しています。 YOLO11s 例えば、バリアントは DAMO-YOLOs 精度を維持しながら、パラメータのフットプリントを大幅に縮小します。このメモリ要件の削減は、直接的にデプロイメントコストの低減とエッジデバイス上でのより俊敏なパフォーマンスにつながります。
トレーニング方法論とユーザビリティ
トレーニングパイプラインは開発者が大半の時間を費やす場所であり、トレーニング効率は最重要課題である。
DAMO-YOLOは、知識蒸留に大きく依存する多段階トレーニングプロセスを採用しています。ラベル割り当てにはAlignedOTA (Optimal Transport Assignment) を利用し、より小さな「学生」モデルに知識を蒸留するために、より大きな「教師」モデルをトレーニングする必要があることがよくあります。この手法は、最適な収束を達成するために必要なCUDA memoryフットプリントと全体の計算時間を大幅に増加させます。
対照的に、Ultralyticsエコシステムは、モデルトレーニングの複雑さを抽象化します。YOLO11は、合理化されたPython APIと包括的なCLIインターフェースを備え、エンジニアが単一のコマンドでカスタムデータセットでのトレーニングを開始できるように設計されており、非常に使いやすいです。トレーニングパイプラインは本質的にリソース効率が高く、メモリの急増を最小限に抑えるため、より大きなモデルでも標準的なハードウェアでトレーニングできます。
Ultralyticsによる効率化されたトレーニング
Ultralytics トレーニングには、一切の定型コードが不要です。組み込みのデータ読み込み、拡張、損失計算のパイプラインは、最初から完全に最適化されています。
Ultralytics トレーニングとデプロイがいかに簡単かを示す簡単な例を以下に示します:
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the trained model to ONNX for seamless deployment
model.export(format="onnx")
実世界での応用と汎用性
これらのアーキテクチャの選択は、多くの場合、導入環境で必要とされるタスクの幅によって決まります。
DAMO-YOLOの適合性
DAMO-YOLOは厳密にはobject detectionフレームワークです。再パラメータ化を探索しているチームや、特定のニューラルアーキテクチャ探索実験を再現している学術研究環境で優れた性能を発揮します。また、NASによって生成されたバックボーンに完全に適合する非常に特定のGPUアクセラレータがある、厳しく制約された産業環境でもデプロイできます。
Ultralyticsの利点
Ultralytics (YOLO11を含むUltralytics 、比類のない汎用性と整備されたエコシステムにより、実世界の商用アプリケーションで真価を発揮します。YOLOとは異なり、Ultralytics マルチモーダルタスクをネイティブにサポートします。医療画像におけるインスタンスセグメンテーションから、スポーツ分野のバイオメカニクス解析のための姿勢推定まで、単一の統合コードベースで全てを処理します。
YOLO11 を活用している産業にはYOLO11 :
- スマート農業: オブジェクトdetectを活用して、作物の健康状態を監視し、収穫機械を自動化します。
- Retail Analytics: スマート監視を実装し、顧客トラフィックを分析し、在庫管理を自動化します。
- ロジスティクスとサプライチェーン: 高速で移動するコンベアベルト上での、Oriented Bounding Boxes (OBB) を使用した高速なバーコードおよびパッケージのdetect。
ユースケースと推奨事項
DAMO-YOLOとYOLO11のどちらを選択するかは、特定のプロジェクト要件、デプロイ制約、およびエコシステムの好みに依存します。
DAMO-YOLOを選択するタイミング
DAMO-YOLOは以下のような場合に強力な選択肢となります。
- 高スループットビデオ分析: バッチ1スループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェアにおける厳格なGPUレイテンシー制約があるシナリオです。
- ニューラルアーキテクチャ探索研究: 自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化されたバックボーンがdetect性能に与える影響を研究しています。
YOLO11を選択すべき時
YOLO11 以下に推奨YOLO11 :
- 本番エッジデプロイ: Raspberry PiやNVIDIA Jetsonのようなデバイス上での商用アプリケーションにおいて、信頼性と継続的なメンテナンスが最重要となります。
- マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内で、detect、segment、姿勢推定、およびOBBを必要とするプロジェクト。
- 迅速なプロトタイピングとデプロイ: 合理化されたUltralytics Python APIを使用して、データ収集から本番環境へ迅速に移行する必要があるチーム向け。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
次世代:YOLO26のご紹介
YOLO11 強力で信頼性の高い選択肢ですが、コンピュータビジョンの分野は急速に進化しています。新規プロジェクトを開始する開発者にとって、最新の YOLO26 モデルが新たな最先端技術を表しています。
2026年1月にリリースされたYOLO26は、いくつかの画期的な進歩をもたらします:
- エンドツーエンドのNMSフリー設計: 非最大抑制後処理を排除することで、YOLO26はより高速で決定論的な推論時間を保証し、デプロイパイプラインを劇的に簡素化します。
- 最大43%高速なCPU推論: Distribution Focal Loss (DFL) の除去により、このモデルは専用GPUを持たないエッジデバイスや低電力デバイスに非常に適しています。
- MuSGDオプティマイザ: LLMトレーニングの革新(Moonshot AIに着想を得た)を統合したこのハイブリッドオプティマイザは、トレーニング中の安定した迅速な収束を保証します。
- Advanced Loss Functions: ProgLoss + STALを利用することで、YOLO26は小さなオブジェクトの認識において目覚ましい改善を示し、航空画像処理やロボティクスにとって不可欠です。
結論
DAMO-YOLOとYOLO11はどちらも、高速かつ高精度なコンピュータビジョンの進歩に大きく貢献しました。DAMO-YOLOがアーキテクチャ探索と蒸留に関する興味深い学術的洞察を提供する一方で、Ultralytics YOLO11(および画期的なYOLO26)は、優れた開発者エクスペリエンスを提供します。
メモリ要件の低さ、充実したドキュメント、マルチタスク機能、そして強力なUltralytics との統合により、Ultralytics 堅牢でスケーラブルなAIソリューション構築を目指す研究者や企業エンジニアにとって、依然として最上位の推奨選択肢です。他の先進的アーキテクチャを検討している方にとって、YOLO26とRT-DETR比較は、トランスフォーマーベースの代替案に関するさらなる知見を提供します。