YOLOv10 vs DAMO-YOLO:リアルタイム物体検出器の技術比較
モダンなコンピュータビジョンパイプラインを構築する際、適切なリアルタイム物体検出アーキテクチャを選択することは極めて重要です。本稿では、YOLOv10とDAMO-YOLOのアーキテクチャ、性能指標、そして理想的なユースケースについて、包括的な技術分析を行います。両モデルとも物体検出機能において大きな飛躍を遂げていますが、目標達成のためのアーキテクチャのアプローチはそれぞれ異なります。
プロジェクトが制約のあるエッジAIハードウェアへのデプロイを必要とするか、あるいはクラウドGPUでの最大精度を要求するかに関わらず、これらのアーキテクチャのニュアンスを理解することで、より確かな意思決定が可能になります。
YOLOv10の探求
清華大学の研究者によって発表されたYOLOv10は、ネイティブなエンドツーエンドのアプローチを採用することでYOLOファミリーに革命をもたらし、後処理における非最大値抑制(NMS)の必要性を実質的に排除しました。
YOLOv10の詳細:
- 著者: Ao Wang, Hui Chen, Lihao Liu, 他
- 組織: 清華大学
- 日付: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- ドキュメント: https://docs.ultralytics.com/models/yolov10/
主要なアーキテクチャの特長
YOLOv10の主な革新は、NMS不要の学習を実現するConsistent Dual Assignments戦略にあります。従来の物体検出器は、重なり合うバウンディングボックスをフィルタリングするためにNMSに大きく依存しており、これが自動運転車や高速ロボティクスのようなリアルタイムアプリケーションにおいて、予測不可能なレイテンシと大きなボトルネックを生じさせていました。YOLOv10は、オブジェクトごとに最適なバウンディングボックスを直接1つ予測することで、予測可能で超低遅延な推論を実現しています。
さらに、本モデルはHolistic Efficiency-Accuracy Driven Designを採用しています。軽量な分類ヘッドや空間・チャネル分離ダウンサンプリングを含む各コンポーネントがアーキテクチャ全体で最適化されており、計算の冗長性が大幅に削減されています。その結果、平均精度(mAP)で高い競争力を維持しつつ、パラメータ数とFLOPsを削減したアーキテクチャが実現されました。
使用例
YOLOv10はUltralyticsエコシステムに深く統合されており、Ultralytics Pythonパッケージを通じて非常に簡単に利用できます。
from ultralytics import YOLO
# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Export the model to TensorRT format
model.export(format="engine", half=True)DAMO-YOLOの探求
Alibaba Groupによって開発されたDAMO-YOLOは、自動化されたニューラルアーキテクチャ探索(NAS)を通じて高効率なネットワーク構造を発見することに焦点を当てており、速度と精度のパレートフロンティアを押し上げることを目指しています。
DAMO-YOLOの詳細:
- 著者:Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 組織:Alibaba Group
- 日付:2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
主要なアーキテクチャの特長
DAMO-YOLOは、産業用アプリケーション向けに調整されたいくつかの新しい技術を導入しています。モデルの基盤は、多目的進化探索によって生成されたMAE-NAS Backboneです。この自動プロセスにより、事前に定義された計算予算を厳守するバックボーン構造が発見され、精度と推論レイテンシの間で優れたバランスが取られています。
さらに、このアーキテクチャはEfficient RepGFPNネックを利用しています。このフィーチャピラミッドネットワークは、異なるスケール間での特徴融合を改善するように設計されており、オブジェクトのサイズが大幅に異なる航空画像解析のような複雑なタスクにおいて重要です。これを補完するために、DAMO-YOLOはZeroHeadを実装しており、これは最終的な予測レイヤーの複雑さを劇的に減らし、推論時の計算時間を節約するミニマリストな検出ヘッドです。
パフォーマンスの比較
物体検出アーキテクチャを評価する際、推論速度、パラメータ効率、および検出精度の適切なトレードオフを見つけることが最も重要です。以下の表は、YOLOv10とDAMO-YOLOのそれぞれのモデルサイズにおける性能を比較したものです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
ベンチマークで確認できるように、YOLOv10はTensorRT上で一貫して優れたレイテンシプロファイルを提供しており、特にnanoバリアントではDAMO-YOLOの同等モデルと比較してパラメータ数とFLOPsが大幅に少なくなっています。DAMO-YOLOのtinyバリアントは高いmAPを提供しますが、YOLOv10ファミリーのパラメータ効率と推論レイテンシは、制約のあるデプロイメント環境において明らかな利点を提供します。
ユースケースと推奨事項
YOLOv10とDAMO-YOLOのどちらを選択するかは、特定のプロジェクトの要件、デプロイメントの制約、およびエコシステムの好みに依存します。
YOLOv10を選ぶべき場合
YOLOv10は以下の用途に強力な選択肢です:
- NMSフリーのリアルタイム検出: Non-Maximum Suppressionなしでエンドツーエンドの検出を行い、デプロイの複雑さを軽減できるアプリケーション。
- バランスの取れた速度と精度のトレードオフ: さまざまなモデルスケール全体で、推論速度と検出精度の強力なバランスが求められるプロジェクト。
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
DAMO-YOLOを選択すべきとき
DAMO-YOLOは以下の場合に推奨されます。
- 高スループットビデオ分析: バッチ1のスループットが主要な指標となる、固定されたNVIDIA GPUインフラストラクチャ上で高FPSビデオストリームを処理する場合。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上で厳しいGPUレイテンシ制約があるシナリオ。
- ニューラルアーキテクチャ探索の研究: 検出性能に対する自動アーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンの影響を研究する場合。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
Ultralyticsの利点
両モデルとも技術的に優れていますが、本番環境向けのアーキテクチャを選択する際には、単なる指標を超えた視点が必要です。Ultralyticsエコシステムによってネイティブにサポートされているモデルを使用することは、開発者や研究者の双方にとって比類のない利点をもたらします。
使いやすさと維持管理されたエコシステム
放置されることの多い単独のアカデミックリポジトリとは異なり、Ultralyticsは堅牢で積極的に維持管理されているエコシステムを提供します。NASパイプラインに大きく依存するモデルのために複雑な環境を構築することは非常に困難な場合があります。対照的に、Ultralyticsは、広範なドキュメントに裏打ちされた、標準化された直感的なPython APIと強力なCLIを提供しており、独自のビジョンソリューションの市場投入までの時間を劇的に短縮します。
トレーニング効率とメモリ要件
大規模なモデルの学習は計算コストがすぐに増大する可能性があります。Ultralytics YOLOアーキテクチャは、従来から学習および推論時のCUDAメモリフットプリントが小さいことで知られています。この効率性により、開発者はRT-DETRのようなTransformerベースのモデルで頻発するメモリ不足エラーに悩まされることなく、コンシューマー向けのハードウェアや費用対効果の高いクラウドインスタンスでモデルを学習できます。
Ultralyticsは、主要なMLOpsツールとネイティブに統合されています。Weights & Biases、Comet、またはClearMLとの統合を使用して、ボイラープレートコードを追加することなく、モデルの学習進捗を簡単に追跡できます。
タスクの汎用性
A significant limitation of many specialized detection models is their narrow focus. Within the Ultralytics ecosystem, you are not limited to just object detection. The tools seamlessly extend to multiple computer vision tasks, including instance segmentation, image classification, pose estimation, and oriented bounding box (OBB) detection.
展望:YOLO26の進化
YOLOv10がNMSフリーの推論を先駆的に開拓し、DAMO-YOLOがNASの力を実証した一方で、コンピュータビジョンの分野は急速に動いています。究極の最先端ソリューションを求める開発者には、Ultralytics YOLO26をチェックすることをお勧めします。
YOLO11の決定的な後継としてリリースされたYOLO26は、YOLOv10が打ち立てたNMSフリーの基盤を構築しつつ、さらに大幅な進化を遂げました。
YOLO26の主な進歩は以下の通りです:
- 最大43%のCPU推論高速化: エッジコンピューティングや低電力デバイス向けに特別に最適化されています。
- DFLの削除: Distribution Focal Lossが削除され、よりシンプルなエクスポートと多様なデプロイ先との互換性向上を実現しました。
- MuSGDオプティマイザ: SGDとMuonのハイブリッドで、高度なLLM学習の安定性と高速な収束をコンピュータビジョンに直接取り入れています。
- ProgLoss + STAL: Drastically improved loss functions that offer notable enhancements in small-object recognition, which is essential for use cases like agriculture and remote sensing.
新しく刷新されたUltralytics Platformを利用することで、開発者はわずか数クリックでYOLO26のような次世代モデルのアノテーション、学習、デプロイをシームレスに行うことができ、コンピュータビジョンパイプラインを最先端かつ将来にわたって保証されるものにできます。