YOLOv10 YOLO: リアルタイム物体検出器の技術的比較
現代的なコンピュータビジョンパイプラインを構築する際、適切なリアルタイム物体検出アーキテクチャの選択が極めて重要です。この包括的な技術分析では、 YOLOv10YOLO、アーキテクチャ、性能指標、および理想的なユースケースを探ります。両モデルは物体検出能力において大きな飛躍を遂げていますが、目標達成のために異なるアーキテクチャの道筋を取っています。
プロジェクトが制約のあるエッジAIハードウェアへのデプロイを必要とする場合でも、クラウドGPUでの最高精度を求める場合でも、これらのアーキテクチャの微妙な違いを理解することで、情報に基づいた判断が可能になります。
YOLOv10の探索
清華大学の研究者によって発表された YOLOv10 は、ネイティブのエンドツーエンドアプローチを導入することでYOLO に革命をもたらし、後処理における非最大抑制(NMS)の必要性を効果的に排除した。
YOLOv10 :
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織:清華大学
- 日付: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub:https://github.com/THU-MIG/yolov10
- ドキュメント: https://docs.ultralytics.com/models/yolov10/
主要なアーキテクチャ機能
YOLOv10主な革新点は、NMS学習を実現する一貫性のある二重割り当て戦略である。従来の物体検出器は、重複する境界ボックスNMS 大きく依存しており、これが予測不可能な遅延を引き起こす。これは自動運転車や高速ロボット工学などのリアルタイムアプリケーションにとって重大なボトルネックとなる。YOLOv10 、物体ごとに単一の最適な境界ボックスを直接予測することで、予測可能な超低遅延推論YOLOv10 。
さらに、本モデルは総合的な効率性と精度を重視した設計を採用している。軽量な分類ヘッドや空間チャネル分離型ダウンサンプリングなど、様々な構成要素を最適化したアーキテクチャにより、計算上の冗長性が大幅に削減された。その結果、競合可能な平均精度(mAP)を維持しつつ、パラメータ数とFLOPsを低減したアーキテクチャを実現している。
生産向け効率化された輸出
YOLOv10は推論グラフからNMS操作を削除しているため、ONNXやTensorRTのような形式へのモデルのエクスポートが大幅に簡素化され、エッジデプロイメントに非常に適しています。
使用例
Ultralytics 深くYOLOv10 、Ultralytics Python を通じて非常に簡単に利用できます。
from ultralytics import YOLO
# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Export the model to TensorRT format
model.export(format="engine", half=True)
DAMO-YOLOの探索
Alibaba Groupによって開発されたDAMO-YOLOは、自動ニューラルアーキテクチャ探索(NAS)を通じて高効率なネットワーク構造を発見することに焦点を当て、速度と精度のパレートフロンティアを押し上げることを目指しています。
DAMO-YOLOの詳細:
- 著者:徐賢哲、江一琪、陳偉華、黄一倫、張元、孫秀宇
- 組織:アリババグループ
- 日付: 2022年11月23日
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub:YOLO
主要なアーキテクチャ機能
DAMO-YOLOは、産業用途に特化したいくつかの新しい技術を導入しています。モデルの基盤となるのは、多目的進化的探索によって生成されたMAE-NAS Backboneです。この自動化されたプロセスは、事前に定義された計算予算に厳密に準拠し、精度と推論レイテンシーの間の絶妙なバランスを取るバックボーン構造を発見します。
さらに、このアーキテクチャはEfficient RepGFPNネックを利用しています。この特徴ピラミッドネットワークは、異なるスケール間での特徴融合を改善するように設計されており、オブジェクトのサイズが大幅に異なる航空画像解析のような複雑なタスクにとって重要です。これを補完するために、DAMO-YOLOはZeroHeadを実装しています。これは、最終予測層の複雑さを大幅に軽減し、推論中に貴重な計算時間を節約するミニマリストな検出ヘッドです。
パフォーマンス比較
物体検出アーキテクチャを評価する際には、推論速度、パラメータ効率、検出精度間の適切なトレードオフを見出すことが極めて重要である。下表は、YOLO 各モデルYOLO 性能を比較したものである。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
ベンチマークで観察されているように、YOLOv10はTensorRTにおいて一貫して優れた遅延プロファイルを提供し、特にナノバリアントでは、DAMO-YOLOの同等モデルよりも大幅に少ないパラメータとFLOPsを必要とします。DAMO-YOLOがそのタイニーバリアントで強力なmAPを提供する一方で、YOLOv10ファミリーのパラメータ効率と推論遅延は、制約のある展開環境にとって明確な利点を提供します。
ユースケースと推奨事項
YOLOv10とDAMO-YOLOの選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステムへの適合性によって決まります。
YOLOv10を選択すべき時
YOLOv10 以下に最適YOLOv10 :
- NMSフリーのリアルタイムdetect: Non-Maximum Suppressionなしのエンドツーエンドのdetectから恩恵を受け、デプロイの複雑さを軽減するアプリケーション。
- 速度と精度のバランスの取れたトレードオフ: さまざまなモデルスケールにおいて、推論速度と検出精度の強力なバランスを必要とするプロジェクト。
- 一貫したレイテンシが求められるアプリケーション: ロボット工学や自律システムなど、予測可能な推論時間が重要となるデプロイメントシナリオ。
DAMO-YOLOを選択するタイミング
DAMO-YOLOは以下のような用途に推奨されます。
- 高スループットビデオ分析: バッチ1スループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェアにおける厳格なGPUレイテンシー制約があるシナリオです。
- ニューラルアーキテクチャ探索研究: 自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化されたバックボーンがdetect性能に与える影響を研究しています。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
Ultralyticsの利点
両モデルとも技術的には優れていますが、本番環境向けのアーキテクチャを選択する際には、単純な指標以上の要素を考慮する必要があります。Ultralytics がネイティブにサポートするモデルで構築することは、開発者と研究者の双方にとって比類のない利点をもたらします。
使いやすさとよく維持されたエコシステム
単独の学術リポジトリが放棄されるケースが多いのとは異なり、Ultralytics 堅牢で積極的に維持管理されるエコシステムUltralytics 。NASパイプラインに大きく依存するモデルの複雑な環境構築は困難を伴います。これに対しUltralytics 、標準化された直感的なPython 強力なCLI Ultralytics 、豊富なドキュメントでサポートされています。これによりカスタムビジョンソリューションの市場投入までの時間を大幅に短縮します。
トレーニング効率とメモリ要件
大規模モデルのトレーニングは、計算コストが急速に高くなる傾向があります。Ultralytics YOLO 、トレーニング時およびCUDA 使用量が少ないことで知られています。この効率性により、開発者はコンシューマー向けハードウェアやコスト効率の良いクラウドインスタンス上でモデルをトレーニングでき、Transformerベースのモデル(例: RT-DETRなどのトランスフォーマーベースのモデルでよくあるメモリ不足エラーに遭遇することなく、モデルをトレーニングできます。
実験追跡
Ultralytics 主要なMLOpsツールとUltralytics 連携します。以下のツールとの連携により、モデルトレーニングtrack 進捗track 簡単にtrack できます。 Weights & Biases、 Comet、または ClearML を追加の定型コードを一切追加せずに実装できます。
タスクを横断する汎用性
多くの特化型 detect モデルの大きな限界は、その狭い焦点です。Ultralyticsエコシステム内では、物体 detect に限定されません。ツールは、複数のコンピュータービジョンタスクにシームレスに拡張され、これにはインスタンス segment、画像分類、姿勢推定、およびoriented bounding box (OBB) detectが含まれます。
展望:YOLO26の進化
YOLOv10 NMS推論YOLOv10 、YOLO NASのYOLO 一方で、コンピュータビジョン分野は急速に進化しています。究極の最先端ソリューションを求める開発者には、Ultralytics 導入を検討されることをお勧めします。
決定版の後継機としてリリースされた YOLO11としてリリースされたYOLO26は、YOLOv10 が築いたNMS基盤をYOLOv10 発展させYOLOv10 大幅な進化を遂げている。
YOLO26の主な進歩は以下の通りです:
- 最大43%高速なCPU推論: エッジコンピューティングおよび低電力デバイス向けに特化して最適化されています。
- DFLの削除: Distribution Focal Lossが削除されたことで、よりシンプルなエクスポートと多様なデプロイターゲットとの互換性が強化されます。
- MuSGDオプティマイザ: SGDとMuonのハイブリッドであり、高度なLLMトレーニングの安定性と高速な収束をコンピュータービジョンに直接もたらします。
- ProgLoss + STAL: 大幅に改善された損失関数は、小オブジェクト認識において顕著な強化をもたらし、農業やリモートセンシングのようなユースケースに不可欠です。
新しく刷新されたUltralytics Platformを利用することで、開発者は、YOLO26のような次世代モデルを数クリックでシームレスにアノテーション、トレーニング、展開でき、これにより、コンピュータービジョンパイプラインが最先端かつ将来性のあるものになります。