Link to this sectionYOLOv10 対 DAMO-YOLO#
最新の computer vision パイプラインを構築する際、適切なリアルタイム物体検出アーキテクチャを選択することは非常に重要です。この包括的な技術分析では、YOLOv10 と DAMO-YOLO のアーキテクチャ、パフォーマンスメトリクス、および理想的なユースケースを調査します。どちらのモデルも物体検出能力において大きな飛躍を遂げていますが、その目標を達成するために異なるアーキテクチャの道を歩んでいます。
プロジェクトが制約のある edge AI ハードウェアへのデプロイを必要とする場合でも、クラウド GPU での最大限の精度を要求する場合でも、これらのアーキテクチャのニュアンスを理解することで、情報に基づいた決定を下すことができます。
Link to this sectionYOLOv10 の探索#
清華大学の研究者によって導入された YOLOv10 は、ネイティブなエンドツーエンドのアプローチを導入することで YOLO ファミリーに革命をもたらし、後処理中の Non-Maximum Suppression (NMS) の必要性を効果的に排除しました。
YOLOv10の詳細:
- 著者:Ao Wang, Hui Chen, Lihao Liu 他
- 組織:清華大学
- 日付:2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- ドキュメント: https://docs.ultralytics.com/models/yolov10/
Link to this section主要なアーキテクチャの特徴#
YOLOv10 の主な革新は、NMS フリー学習のための Consistent Dual Assignments 戦略です。従来の物体検出器は、重なり合う BBox をフィルタリングするために NMS に大きく依存しており、これが autonomous vehicles や高速ロボティクスなどのリアルタイムアプリケーションにとって重要なボトルネックとなる予測不可能なレイテンシを引き起こします。YOLOv10 は、オブジェクトごとに最適な BBox を直接 1 つだけ予測することで、予測可能で超低レイテンシの推論を実現しています。
さらに、このモデルは Holistic Efficiency-Accuracy Driven Design を採用しています。アーキテクチャは、軽量な分類ヘッドや空間チャネル結合解除ダウンサンプリングなど、さまざまなコンポーネントを最適化しており、計算の冗長性を大幅に削減します。その結果、mean Average Precision (mAP) で競争力を維持しながら、より少ないパラメータ数と FLOPs を誇るアーキテクチャが実現しました。
Link to this section使用例#
YOLOv10 は Ultralytics エコシステムに深く統合されており、Ultralytics Python package を通じて非常に簡単に使用できます。
from ultralytics import YOLO
# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Export the model to TensorRT format
model.export(format="engine", quantize=16)Link to this sectionDAMO-YOLO の探索#
Alibaba Group によって開発された DAMO-YOLO は、自動化された Neural Architecture Search (NAS) を通じて効率の高いネットワーク構造を発見することに焦点を当てており、速度と精度のパレートフロンティアを押し広げることを目指しています。
DAMO-YOLO の詳細:
- 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
- 組織: Alibaba Group
- 日付: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
Link to this section主要なアーキテクチャの特徴#
DAMO-YOLO は、産業用アプリケーション向けに調整されたいくつかの新しい技術を導入しています。モデルの基礎は、マルチオブジェクト進化的探索によって生成された MAE-NAS Backbone です。この自動化されたプロセスは、事前に定義された計算予算を厳密に遵守するバックボーン構造を発見し、精度と推論レイテンシの間の微細なバランスを取ります。
さらに、このアーキテクチャは Efficient RepGFPN ネックを利用しています。この特徴ピラミッドネットワークは、オブジェクトのサイズが大幅に異なる aerial imagery analysis のような複雑なタスクに不可欠な、異なるスケール間での特徴融合を改善するように設計されています。これを補完するために、DAMO-YOLO は、最終的な予測レイヤーの複雑さを大幅に軽減し、推論中の貴重な計算時間を節約するミニマリストの検出ヘッドである ZeroHead を実装しています。
Link to this sectionパフォーマンスの比較#
物体検出アーキテクチャを評価する際、推論速度、パラメータ効率、および検出精度の間の適切なトレードオフを見つけることが最も重要です。以下の表は、各モデルサイズにおける YOLOv10 と DAMO-YOLO のパフォーマンスを比較しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
ベンチマークで観察されるように、YOLOv10 は TensorRT 上で一貫して優れたレイテンシプロファイルを提供し、特にナノバリアントでは DAMO-YOLO の同等のモデルよりも大幅に少ないパラメータと FLOPs しか必要としません。DAMO-YOLO は Tiny バリアントで高い mAP を提供しますが、YOLOv10 ファミリーのパラメータ効率と推論レイテンシは、制約のあるデプロイメント環境において明確な利点を提供します。
Link to this sectionユースケースと推奨事項#
YOLOv10 と DAMO-YOLO のどちらを選択するかは、特定のプロジェクトの要件、デプロイメントの制約、およびエコシステムの好みによって異なります。
Link to this sectionYOLOv10を選択すべき場合#
YOLOv10は以下の用途に最適です。
- NMSフリーのリアルタイム検出: Non-Maximum Suppression(NMS)を使用しないエンドツーエンド検出のメリットを享受し、デプロイの複雑さを軽減できるアプリケーション。
- バランスの取れた速度と精度のトレードオフ: さまざまなモデルスケール全体で、推論速度と検出精度の強力なバランスを必要とするプロジェクト。
- 一貫したレイテンシが求められるアプリケーション: roboticsや自律システムなど、予測可能な推論時間が不可欠なデプロイ環境。
Link to this sectionDAMO-YOLOを選択すべきケース#
DAMO-YOLOは以下の場合に推奨されます:
- 高スループットビデオ解析: バッチサイズ1でのスループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上での厳格なGPUレイテンシ制約があるシナリオ。
- Neural Architecture Searchの研究: 自動化されたアーキテクチャ探索 (MAE-NAS) や効率的な再パラメータ化バックボーンが検出パフォーマンスに与える影響の研究。
Link to this sectionUltralytics (YOLO26) を選択すべき時#
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。
- NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
- 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。
Link to this sectionUltralyticsの利点#
両モデルとも技術的に優れていますが、本番環境向けのアーキテクチャを選択するには、生のメトリクス以上のものを見る必要があります。Ultralytics ecosystem によってネイティブにサポートされているモデルで構築することは、開発者と研究者の両方にとって比類のない利点をもたらします。
Link to this section使いやすさと十分にメンテナンスされたエコシステム#
多くの場合放棄されるスタンドアロンの学術リポジトリとは異なり、Ultralytics は堅牢で積極的にメンテナンスされているエコシステムを提供します。NAS パイプラインに大きく依存するモデルのために複雑な環境を設定することは困難な場合があります。対照的に、Ultralytics は標準化された直感的な Python API と強力な CLI を提供し、広範な documentation に支えられています。これにより、カスタムビジョンソリューションの市場投入までの時間が劇的に短縮されます。
Link to this sectionトレーニングの効率とメモリ要件#
大規模なモデルのトレーニングは、すぐに計算コストが高くなる可能性があります。Ultralytics YOLO アーキテクチャは、歴史的にトレーニング中および推論中の CUDA メモリフットプリントが低いことで知られています。この効率性により、開発者は RT-DETR のような Transformer ベースのモデルを扱う際に一般的なメモリ不足エラーに遭遇することなく、コンシューマーグレードのハードウェアやコスト効率の高いクラウドインスタンスでモデルをトレーニングできます。
Ultralytics は主要な MLOps ツールとネイティブに統合されています。Weights & Biases、Comet、または ClearML との統合を使用して、追加のボイラープレートコードなしでモデルのトレーニング進行状況を簡単に追跡できます。
Link to this sectionタスク間での汎用性#
A significant limitation of many specialized detection models is their narrow focus. Within the Ultralytics ecosystem, you are not limited to just object detection. The tools seamlessly extend to multiple computer vision tasks, including instance segmentation, image classification, pose estimation, and oriented bounding box (OBB) detection.
Link to this section今後の展望: YOLO26 の進化#
YOLOv10 は NMS フリーの推論を開拓し、DAMO-YOLO は NAS の力を示しましたが、コンピュータビジョンの分野は急速に動いています。究極の最先端ソリューションを探している開発者には、Ultralytics YOLO26 をチェックすることをお勧めします。
YOLO11 の決定的な後継としてリリースされた YOLO26 は、YOLOv10 によって設定された NMS フリーの基盤の上に構築されていますが、それをさらに前進させています。
YOLO26 の主な進歩は次のとおりです:
- 最大 43% 高速な CPU 推論: エッジコンピューティングおよび低電力デバイス向けに特別に最適化されています。
- DFL 削除: Distribution Focal Loss が削除され、よりシンプルなエクスポートと多様なデプロイメントターゲットとの互換性が向上しました。
- MuSGD オプティマイザー: SGD と Muon のハイブリッドであり、高度な LLM トレーニングの安定性と高速な収束をコンピュータビジョンに直接もたらします。
- ProgLoss + STAL: agriculture やリモートセンシングなどのユースケースに不可欠な、小さな物体の認識において顕著な強化を提供する大幅に改善された損失関数です。
新しく刷新された Ultralytics Platform を利用することで、開発者は数回クリックするだけで YOLO26 のような次世代モデルのアノテーション、トレーニング、デプロイをシームレスに行うことができ、コンピュータビジョンパイプラインが最先端であり、将来も保証されることを確実にします。