Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO vs YOLO11: 包括的な技術比較#

次回のコンピュータビジョンプロジェクトでリアルタイム物体検出アーキテクチャを選択する際、主要モデル間の違いを理解することは不可欠です。本ガイドでは、DAMO-YOLOとUltralytics YOLO11の技術的な詳細を比較分析し、それぞれのアーキテクチャ、パフォーマンス指標、学習手法、そして現実世界における理想的なデプロイメントシナリオを検証します。

DAMO-YOLOの詳細: 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun 組織: Alibaba Group 日付: 2022-11-23 Arxiv: 2211.15444v2 GitHub: tinyvision/DAMO-YOLO ドキュメント: DAMO-YOLO Documentation

YOLO11の詳細: 著者: Glenn Jocher, Jing Qiu 組織: Ultralytics 日付: 2024-09-27 GitHub: ultralytics/ultralytics ドキュメント: YOLO11 Documentation

Link to this sectionアーキテクチャの設計思想#

物体検出モデルの基盤となるアーキテクチャによって、推論速度、精度、そして様々なハードウェア環境への適合性が決まります。

DAMO-YOLOは、バックボーンの自動設計にNeural Architecture Search (NAS)を多用するなど、学術的な革新を取り入れています。効率的なRepGFPN (Reparameterized Generalized Feature Pyramid Network) を活用して特徴融合を強化し、従来のアーキテクチャで見られた肥大化した予測ヘッドを大幅に縮小するZeroHead設計を採用しています。このNAS主導のアプローチにより、特定のGPU環境下で効率性を発揮しますが、結果として生成されるアーキテクチャは、多様なエッジデバイス間でシームレスに汎用性を発揮するための柔軟性に欠ける場合があります。

対照的に、YOLO11は長年の基礎研究の成果に基づき、高度に最適化された手作業によるアーキテクチャを提供します。無駄な計算を削減するストリームライン化されたバックボーンと、非常に効率的なネックに注力しています。YOLO11の主な利点の一つは、洗練されたパラメータ効率にあります。TransformerベースのRT-DETRのように大量のVRAMを必要とすることなく、高い特徴表現能力を実現します。これにより、YOLO11は極めて汎用性が高く、民生用GPU、モバイルデバイス、そして特殊なエッジアクセラレータ上でスムーズに動作します。

Link to this sectionパフォーマンスとメトリクス#

パフォーマンスを評価する際は、トップラインの精度だけでなく、速度、モデルサイズ、計算負荷 (FLOPs) のバランスを考慮する必要があります。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

表が示す通り、YOLO11は非常に優れたパフォーマンスバランスを実現しています。例えば YOLO11s バリアントは、DAMO-YOLOs よりも高い精度を維持しつつ、パラメータフットプリントは大幅に小さくなっています。このメモリ要件の削減は、デプロイメントコストの低下と、エッジデバイス上でのより俊敏なパフォーマンスに直結します。

YOLO11の詳細はこちら

Link to this sectionトレーニング手法と使いやすさ#

学習パイプラインは開発者が最も多くの時間を費やす部分であり、学習効率は非常に重要です。

DAMO-YOLOは、知識蒸留に大きく依存した多段階の学習プロセスを採用しています。ラベル割り当てにはAlignedOTA (Optimal Transport Assignment) を利用し、多くの場合、より大きな「教師」モデルを学習させて、その知識を小さな「生徒」モデルに蒸留させる必要があります。この手法は、CUDA memory のフットプリントと、最適な収束に要する全体の計算時間を大幅に増大させます。

一方で、Ultralyticsエコシステムはモデル学習の複雑さを抽象化します。YOLO11は卓越した使いやすさを念頭に設計されており、効率的なPython APIと包括的な CLI interfaces を備えているため、エンジニアは単一のコマンドでカスタムデータセットの学習を開始できます。学習パイプラインは本質的にリソース効率が高く、メモリの急増を最小限に抑えるため、標準的なハードウェアでも大規模なモデルを学習させることが可能です。

Ultralyticsによる効率化された学習

Ultralyticsモデルの学習には、定型コードが一切不要です。組み込みのデータ読み込み、拡張、損失計算パイプラインは、初期状態で完全に最適化されています。

以下は、Ultralyticsモデルを学習・デプロイする際の簡便さを示すクイックサンプルです。

from ultralytics import YOLO

# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Export the trained model to ONNX for seamless deployment
model.export(format="onnx")

YOLO11の詳細はこちら

Link to this section現実世界のアプリケーションと汎用性#

これらのアーキテクチャの選択は、デプロイ先環境で必要とされるタスクの幅に左右されることがよくあります。

Link to this sectionDAMO-YOLOの適性#

DAMO-YOLOは純粋な物体検出フレームワークです。再パラメータ化の研究や、特定のNeural Architecture Search実験の再現などを行う学術研究環境において真価を発揮します。また、NASによって生成されたバックボーンと完全に一致する特定のGPUアクセラレータを搭載した、厳格に制限された産業環境にもデプロイ可能です。

Link to this sectionUltralyticsの利点#

YOLO11を含むUltralyticsモデルは、その比類のない汎用性と十分に管理されたエコシステムにより、現実の商用アプリケーションで際立った性能を発揮します。DAMO-YOLOとは異なり、Ultralyticsフレームワークはマルチモーダルタスクをネイティブでサポートしています。医療画像における Instance Segmentation から、スポーツのバイオメカニクス解析のための Pose Estimation に至るまで、単一の統合されたコードベースで全て対応可能です。

YOLO11を活用する業界は以下の通りです。

  • スマート農業: 物体検出を活用して作物の健康状態を監視し、収穫機械の自動化を実現します。
  • 小売分析: smart surveillance を導入して顧客の動線を分析し、在庫管理を自動化します。
  • 物流およびサプライチェーン: 高速で動くベルトコンベア上での Oriented Bounding Boxes (OBB) を用いた高速バーコードおよびパッケージ検出。

Link to this sectionユースケースと推奨事項#

DAMO-YOLOとYOLO11のどちらを選択するかは、特定のプロジェクト要件、デプロイメントの制約、エコシステムの好みによって決まります。

Link to this sectionDAMO-YOLOを選択すべきケース#

DAMO-YOLOは以下のような場合に強力な選択肢となります。

  • 高スループットビデオ解析: バッチサイズ1でのスループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上での厳格なGPUレイテンシ制約があるシナリオ。
  • Neural Architecture Searchの研究: 自動化されたアーキテクチャ探索 (MAE-NAS) や効率的な再パラメータ化バックボーンが検出パフォーマンスに与える影響の研究。

Link to this sectionYOLO11を選択すべき時#

YOLO11は以下のような場合に推奨されます。

  • 本番環境へのエッジ展開: Raspberry PiNVIDIA Jetsonなどのデバイス上で動作する商業アプリケーションで、信頼性と継続的なメンテナンスが最優先される場合。
  • マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内でdetectionsegmentationpose estimationOBBが必要なプロジェクト。
  • 迅速なプロトタイピングと展開: 効率化されたUltralytics Python APIを使用して、データ収集から本番運用まで素早く移行する必要があるチーム。

Link to this sectionUltralytics (YOLO26) を選択すべき時#

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。

  • NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
  • 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this section次世代: YOLO26の導入#

YOLO11は依然として強力で信頼できる選択肢ですが、コンピュータビジョンの状況は急速に進化しています。新規プロジェクトを開始する開発者にとって、最新の YOLO26 モデルが新しい最先端(state-of-the-art)となります。

2026年1月にリリースされたYOLO26は、いくつかの画期的な進歩をもたらします。

  • エンドツーエンドのNMSフリー設計: Non-Maximum Suppressionの後処理を排除することで、YOLO26はより高速で決定論的な推論時間を確保し、デプロイメントパイプラインを劇的に簡素化します。
  • CPU推論が最大43%高速化: Distribution Focal Loss (DFL) の削除により、このモデルは専用GPUを搭載していないエッジデバイスや低電力デバイスに適しています。
  • MuSGDオプティマイザ: Moonshot AIから着想を得たLLM学習の革新を取り入れたこのハイブリッドオプティマイザにより、学習中の安定的かつ迅速な収束が保証されます。
  • 高度な損失関数: ProgLoss + STALを活用することで、YOLO26は空中画像やロボティクスにおいて重要な、小物体認識において顕著な改善を示しています。

YOLO26の詳細はこちら

Link to this section結論#

DAMO-YOLOとYOLO11の双方は、高速かつ高精度なコンピュータビジョンの進歩に多大な貢献をしてきました。DAMO-YOLOはアーキテクチャ探索や蒸留に関する興味深い学術的知見を提供しますが、Ultralytics YOLO11 (および画期的な YOLO26) は、より優れた開発者体験を提供します。

より低いメモリ要件、充実したドキュメント、マルチタスク対応能力、そして強力な Ultralytics Platform との統合により、Ultralyticsモデルは、堅牢でスケーラブルなAIソリューションを構築しようとする研究者やエンタープライズエンジニアにとって最も推奨される選択肢であり続けています。他の高度なアーキテクチャを検討している方には、YOLO26 vs RT-DETR の比較が、Transformerベースの代替手法に関するさらなる知見を提供します。

コメント