Link to this sectionDAMO-YOLOとYOLOXの比較#
リアルタイムコンピュータビジョンの分野は常に進化しています。この歩みにおける2つの重要なマイルストーンが DAMO-YOLO と YOLOX であり、どちらも高速かつ高精度な物体検出という課題に対して独自のイノベーションをもたらしました。両モデルともオープンソースコミュニティに大きく貢献してきましたが、機械学習エンジニアにとっては、そのアーキテクチャの違い、学習手法、そして最適なデプロイ環境を理解することが重要です。
この包括的なガイドでは、両モデルの技術的なニュアンスを深掘りし、Ultralytics YOLO26 プラットフォームのような現代的な代替手段が、今日のプロダクション環境においてなぜ優れたパフォーマンスと使いやすさを提供するのかを解説します。
Link to this sectionモデルの概要#
Link to this sectionDAMO-YOLOの詳細#
Alibaba Groupの研究者チームによって開発されたDAMO-YOLOは、自動アーキテクチャ探索を活用した非常に効率的な物体検出手法として発表されました。
著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
組織: Alibaba Group
日付: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
ドキュメント: DAMO-YOLO Documentation
Link to this sectionYOLOX の詳細#
Megviiの研究者によって作成されたYOLOXは、YOLOシリーズをアンカーフリー設計に切り替えることで研究と産業界のギャップを埋めることを目指し、当時としてはアーキテクチャを劇的に簡素化しながらも優れたパフォーマンスを実現しました。
著者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
組織: Megvii
日付: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
ドキュメント: YOLOX Documentation
Link to this sectionアーキテクチャ分析#
Link to this sectionDAMO-YOLOのアーキテクチャ#
DAMO-YOLOはニューラルアーキテクチャ探索(NAS)に大きく依存しています。その主要コンポーネントは以下の通りです。
- MAE-NASバックボーン: 多目的進化探索アルゴリズムを使用して、推論速度と精度の最適なバランスを提供するバックボーンを探索します。
- Efficient RepGFPN: 特徴融合に適応させたヘビーネック設計であり、モデルがさまざまなオブジェクトスケールに対して高い精度を維持するのに役立ちます。
- ZeroHead: 最終的な予測レイヤーにおける計算オーバーヘッドを削減する、簡素化された軽量な検出ヘッドです。
Link to this sectionYOLOXアーキテクチャ#
YOLOXは異なるアプローチを採用し、構造の単純さとアンカーフリー設計に焦点を当てました。
- アンカーフリーメカニズム: 事前定義されたアンカーなしでバウンディングボックスの座標を直接予測することで、設計パラメータの数やヒューリスティックな調整の必要性を低減します。
- デカップルドヘッド: 分類タスクと回帰タスクを異なる特徴ブランチに分離し、収束速度と全体の精度を向上させます。
- SimOTAラベル割り当て: 正解データに対してポジティブサンプルを動的に割り当てる高度なラベル割り当て戦略であり、学習効率を向上させます。
DAMO-YOLOが厳しい制約下で最適なアーキテクチャを見つけるためにマシン主導のNAS探索を利用するのに対し、YOLOXは(アンカーフリーヘッドのような)人間が設計した洗練された簡素化を活用して物体検出パイプラインを合理化しています。
Link to this sectionパフォーマンスの比較#
これらのモデルを評価するには、平均精度(mAP)、推論速度、パラメータ数を調べる必要があります。以下は、両アーキテクチャの標準バリアントと軽量バリアントの詳細な比較表です。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLOXxは51.1という最高レベルの絶対mAPを達成していますが、DAMO-YOLOlは半分以下のパラメータ(42.1M対99.1M)で50.8 mAPという非常に競争力のある精度を実現し、TensorRTの実行速度も大幅に高速です。
Link to this section学習手法#
Link to this sectionDAMO-YOLOの学習#
DAMO-YOLOは学習中に複雑な蒸留強化(Distillation Enhancement)を活用します。多くの場合、まず大規模な「教師」モデルを学習させ、その知識をより小さな「学生」モデルに蒸留します。また、動的ラベル割り当てのためにAlignedOTAを採用しています。非常に効果的ですが、この多段階学習プロセスはGPUコンピューティングの時間とメモリオーバーヘッドを劇的に増加させます。
Link to this sectionYOLOXの学習#
YOLOXはMixUpやMosaicといった強力なデータ拡張戦略に依存しています。しかし、開発チームは最終的な15エポックでこれらの強力な拡張をオフにすることで、モデルの現実世界とのギャップを埋め、最終的な精度指標を大幅に向上させることができることを発見しました。
Link to this section理想的なユースケース#
- DAMO-YOLO: サーバーサイドの蒸留パイプラインをサポートでき、対象ハードウェア(特定のNVIDIA GPUなど)がヘビーネックNASアーキテクチャから直接恩恵を受けられるような、重要度の高い産業用デプロイメントに最適です。
- YOLOX: 純粋なアンカーフリーのアプローチを求める開発者に最適です。非常に軽量な
YOLOXnanoは、レガシーなAndroidデバイス、エッジコンピューティング、およびパラメータ数が絶対的なボトルネックとなる非常に制約の厳しいIoTセンサーに適しています。
Link to this sectionUltralyticsの利点: YOLO26の登場#
DAMO-YOLOとYOLOXは優れたマイルストーンですが、今日の開発者はより包括的で汎用性が高く、使いやすいソリューションを求めています。ここでUltralytics Platformと新しくリリースされた Ultralytics YOLO26 が輝きます。
2026年1月にリリースされたYOLO26は、すべてのコンピュータビジョンタスクにおいて究極の推奨モデルです。古いアーキテクチャを超える一連のブレークスルーが導入されています。
- エンドツーエンドのNMSフリー設計: YOLO26はNMS(Non-Maximum Suppression)後処理をネイティブで排除しています。これにより、従来の検出ヘッドに固有のレイテンシボトルネックを回避し、大幅にシンプルで高速なデプロイが可能になります。
- CPU推論速度が最大43%向上: DFL(Distribution Focal Loss)を戦略的に削除し、レイヤーを最適化することで、YOLO26はCPUおよびエッジハードウェア上で比類のない速度を提供します。
- MuSGDオプティマイザ: 大規模言語モデル(LLM)の学習手法に触発され、YOLO26はMuSGDオプティマイザ(SGDとMuonのハイブリッド)を導入しました。これにより、YOLOXの従来のセットアップと比較して、学習が非常に安定し、収束も大幅に高速化します。
- ProgLoss + STAL: これらの高度な損失関数は小物体認識において顕著な改善をもたらし、ドローン映像やロボティクスにおいてYOLO26を極めて強力なものにします。
- 汎用性: 物体検出専用であるDAMO-YOLOとは異なり、YOLO26は同一のメンテナンスされたエコシステム内で、インスタンスセグメンテーション、姿勢推定、分類、および傾きバウンディングボックス(OBB)をシームレスにネイティブで処理できます。
Link to this sectionUltralyticsによる使いやすさ#
Ultralytics Python APIは開発者のエクスペリエンスを合理化します。最先端のYOLO26モデルの学習には、定型コードが大幅に少なくて済み、DAMO-YOLOの複雑な蒸留パイプラインも不要です。さらに、Ultralyticsモデルは、重いTransformerベースのモデルと比較して、学習中のCUDAメモリ要件が極めて低いのが特徴です。
from ultralytics import YOLO
# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")Ultralytics Platformを使用すると、データのバージョニングとクラウドGPUのプロビジョニングがすべて自動で行われるため、モデルのアノテーション、学習、エッジへのデプロイを自動化できます。
Link to this section結論#
DAMO-YOLOとYOLOXのどちらを選ぶかは、特定の制約に依存します。DAMO-YOLOはNASを通じて特定のGPU上で優れた速度対精度比を提供し、YOLOXは軽量なエッジシナリオに理想的なクリーンなアンカーフリー設計を提供します。
しかし、活発なコミュニティを持ち、将来を見据えたモダンなソリューションを求めるチームにとって、Ultralytics YOLO26 アーキテクチャは決定的な選択肢です。そのNMSフリー設計、高速なCPU推論、そして検出、セグメンテーション、姿勢推定のための統合APIは、研究段階から実世界の強固なプロダクションへ円滑に移行する上で比類のないものです。
他のモダンなアーキテクチャの探索に興味がある開発者の方には、包括的なUltralyticsドキュメントで利用可能な Ultralytics YOLO11 や、RT-DETR のようなTransformerベースのモデルもチェックすることをお勧めします。