Link to this sectionYOLOv6-3.0 vs DAMO-YOLO: リアルタイム物体検出における技術的対決#
コンピュータビジョンの領域は絶えず進化しており、新しいアーキテクチャがリアルタイム物体検出の可能性を広げています。この分野における2つの注目すべき候補が、YOLOv6-3.0とDAMO-YOLOです。どちらのモデルも、産業用ハードウェアでのパフォーマンスを最大化するために設計された独自のアーキテクチャ上の革新を導入しています。本ガイドでは、これら2つのモデルの技術的な包括的比較を行い、そのアーキテクチャ、学習手法、理想的なユースケースを検討するとともに、YOLO26のようなUltralyticsモデルの次世代の利点を紹介します。
Link to this sectionモデルプロファイル#
Link to this sectionYOLOv6-3.0: 産業グレードのスループット#
MeituanのVision AI部門によって開発されたYOLOv6-3.0は、高スループットな産業用アプリケーション向けに特別に設計されています。NVIDIA GPUのようなハードウェアアクセラレータでのパフォーマンスを最大化することに重点を置いています。
- 著者: Chuyi Li, Lulu Li, Yifei Geng, 他
- 組織: Meituan
- 日付: 2023-01-13
- Arxiv: 2301.05586
- GitHub: meituan/YOLOv6
- ドキュメント: Ultralytics YOLOv6 ドキュメント
YOLOv6-3.0は、特徴融合を改善するための双方向連結(BiC)モジュールを導入し、Anchor-Aided Training (AAT) 戦略を活用しています。この戦略は、学習時にアンカーベースとアンカーフリー検出器の両方の利点を組み合わせる一方、推論は厳密にアンカーフリーに保ちます。そのEfficientRepバックボーンにより、GPUバッチ処理において非常にハードウェアフレンドリーであり、膨大な動画理解データの処理に最適です。
Link to this sectionDAMO-YOLO: NASによる高速かつ高精度な検出#
Alibaba Groupによって作成されたDAMO-YOLOは、Neural Architecture Search (NAS) を活用して、リアルタイム推論に最も効率的なバックボーン構造を自動的に発見します。
- 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, 他
- 組織: Alibaba Group
- 日付: 2022-11-23
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
DAMO-YOLOは、効率的なマルチスケール特徴融合のためのRepGFPN(Reparameterized Generalized Feature Pyramid Network)と、検出ヘッドの計算オーバーヘッドを大幅に削減するZeroHead設計で際立っています。また、モデルのパラメータ数を増やすことなく精度を向上させるために、AlignedOTAラベル割り当てと堅牢な知識蒸留技術を組み込んでいます。
DAMO-YOLOは優れた精度を達成しますが、学習中に知識蒸留に大きく依存するため、はるかに大きな「教師」モデルを必要とします。これにより、より単純なアーキテクチャと比較して、学習段階で必要なCUDAメモリが大幅に増加します。
Link to this sectionパフォーマンスの比較#
物体検出モデルを評価する際、平均適合率 (mAP) と推論速度のバランスが重要になります。以下は、異なるモデルスケールにおけるYOLOv6-3.0とDAMO-YOLOの比較詳細です。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv6-3.0は、TensorRT最適化を活用したNVIDIA GPU上で、特にnanoおよびsmallバリアントにおいて卓越した速度を示します。一方、DAMO-YOLOのNAS最適化バックボーンは、mediumおよびlargeスケールにおいて少ないFLOPsで済む傾向があり、大規模なデプロイメントにおいてわずかな遅延の優位性をもたらします。
Link to this sectionUltralyticsの利点: YOLO26の登場#
YOLOv6-3.0とDAMO-YOLOは強力なツールですが、開発者は複雑なデプロイメントパイプライン、学習時の高いメモリ要件、そして柔軟性に欠ける単一タスク用アーキテクチャといった課題に直面することがよくあります。Ultralyticsエコシステムは、開発者に対してより洗練されたエクスペリエンスを提供します。
YOLO26のリリースにより、Ultralyticsは最先端のビジョンAIを再定義しました。2026年1月にリリースされたUltralytics YOLO26は、効率性と汎用性の限界を押し広げます。
Link to this sectionYOLO26 における主な革新#
- エンドツーエンドのNMSフリー設計: YOLOv10で開拓されたコンセプトに基づいて、YOLO26は非最大値抑制(NMS)後処理をネイティブに排除します。これにより、遅延のばらつきが大幅に減少し、CoreMLやTFLiteを通じたエッジデバイスへのデプロイメントが簡素化されます。
- DFLの削除: Distribution Focal Lossを削除することで、YOLO26はエクスポートプロセスを簡素化し、低電力のマイクロコントローラやエッジハードウェアとの互換性を大幅に強化します。
- CPU推論が最大43%高速化: 専用のGPUハードウェアがないアプリケーションにおいて、YOLO26のCPU最適化は比類のない速度を実現し、YOLOv6のようなGPU依存度の高いモデルを凌駕します。
- MuSGDオプティマイザ: Moonshot AIのKimi K2のようなLLM学習手法に触発され、YOLO26はMuSGDオプティマイザ(SGDとMuonのハイブリッド)を採用して、安定した学習と急速な収束を保証します。
- ProgLoss + STAL: 高度な損失関数が小物体認識を劇的に改善し、ドローン運用や遠方のターゲット追跡に最適です。
- マルチタスクの汎用性: 単なる検出器であるDAMO-YOLOとは異なり、YOLO26は単一の統合API内で、インスタンスセグメンテーション、姿勢推定(Residual Log-Likelihood Estimationを使用)、および傾き付きバウンディングボックス (OBB)を標準でサポートします。
RT-DETRのような複雑なTransformerアーキテクチャや、DAMO-YOLOの蒸留を多用するパイプラインとは異なり、UltralyticsモデルはVRAMフットプリントが小さいことで知られています。コンシューマーグレードのハードウェアでもYOLO26モデルを容易に学習させることができます。
Link to this section洗練されたPythonワークフロー#
最先端モデルの学習やデプロイに、何百行ものボイラープレートコードは必要ありません。UltralyticsのPythonパッケージは、機械学習のライフサイクルを簡素化します。
from ultralytics import YOLO
# Load the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model effortlessly with built-in data handling
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run ultra-fast inference and display results
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export seamlessly to ONNX or TensorRT
model.export(format="onnx")Link to this section理想的なユースケース#
適切なアーキテクチャの選択は、完全にデプロイ環境の制約に依存します。
Link to this sectionYOLOv6-3.0の用途#
- 高バッチ動画分析: TensorRTをフル活用できるエンタープライズGPUサーバーでの高密度動画ストリーム処理に最適です。
- 産業オートメーション: 品質管理の欠陥検出を行う高速製造ライン。
Link to this sectionDAMO-YOLOの用途#
- カスタムシリコン: 特定の独自のNPUハードウェア向けのNeural Architecture Searchマッピングの研究。
- 学術研究: リアルタイムネットワーク向けの新しい知識蒸留技術のベンチマーク。
Link to this sectionUltralytics YOLO26の用途#
- エッジおよびモバイルデプロイメント: NMSフリー設計、DFL削除、そして43%のCPU高速化により、iOS、Android、Raspberry Pi統合において間違いなくチャンピオンです。
- ラピッドプロトタイピングから本番環境まで: Ultralytics Platformとのシームレスな統合により、チームはデータセットのアノテーションからグローバルなクラウドデプロイメントまでを、数ヶ月ではなく数日で完了できます。
- 複雑なビジョンパイプライン: バウンディングボックスと人体姿勢のキーポイント、そして正確なセグメンテーションマスクを同時に検出する必要があるプロジェクト。
Link to this section結論#
YOLOv6-3.0とDAMO-YOLOはどちらも、リアルタイム物体検出の科学に大きく貢献してきました。YOLOv6はGPUの最大化を洗練させ、DAMO-YOLOは自動化されたアーキテクチャ探索の力を実証しました。
しかし、精度、推論速度、そしてエコシステムの維持容易性の究極の融合を求める開発者にとって、Ultralytics YOLOファミリーは依然として最高の選択肢です。YOLO26で導入された画期的な最適化により、エンタープライズグレードのコンピュータビジョンアプリケーションを作成するための参入障壁はかつてないほど低くなっています。
さらなる探求として、ドキュメント内の他のアーキテクチャ(YOLO11や、RT-DETRのようなTransformerベースのアプローチなど)と比較することにも興味があるかもしれません。