YOLOv10 YOLO: リアルタイム物体検出器の技術的比較
現代的なコンピュータビジョンパイプラインを構築する際、適切なリアルタイム物体検出アーキテクチャの選択が極めて重要です。この包括的な技術分析では、 YOLOv10YOLO、アーキテクチャ、性能指標、および理想的なユースケースを探ります。両モデルは物体検出能力において大きな飛躍を遂げていますが、目標達成のために異なるアーキテクチャの道筋を取っています。
プロジェクトが制約のあるエッジAIハードウェアへのデプロイを必要とする場合でも、クラウドGPUでの最高精度を求める場合でも、これらのアーキテクチャの微妙な違いを理解することで、情報に基づいた判断が可能になります。
YOLOv10を探る
清華大学の研究者によって発表された YOLOv10 は、ネイティブのエンドツーエンドアプローチを導入することでYOLO に革命をもたらし、後処理における非最大抑制(NMS)の必要性を効果的に排除した。
YOLOv10 :
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織:清華大学
- 日付: 2024-05-23
- Arxiv:https://arxiv.org/abs/2405.14458
- GitHub:https://github.com/THU-MIG/yolov10
- ドキュメント:ultralytics
主要なアーキテクチャ機能
YOLOv10主な革新点は、NMS学習を実現する一貫性のある二重割り当て戦略である。従来の物体検出器は、重複する境界ボックスNMS 大きく依存しており、これが予測不可能な遅延を引き起こす。これは自動運転車や高速ロボット工学などのリアルタイムアプリケーションにとって重大なボトルネックとなる。YOLOv10 、物体ごとに単一の最適な境界ボックスを直接予測することで、予測可能な超低遅延推論YOLOv10 。
さらに、本モデルは総合的な効率性と精度を重視した設計を採用している。軽量な分類ヘッドや空間チャネル分離型ダウンサンプリングなど、様々な構成要素を最適化したアーキテクチャにより、計算上の冗長性が大幅に削減された。その結果、競合可能な平均精度(mAP)を維持しつつ、パラメータ数とFLOPsを低減したアーキテクチャを実現している。
生産向け効率化された輸出
YOLOv10 推論グラフからNMS YOLOv10 するため、モデルをONNXなどの形式にエクスポートする際には ONNX や TensorRT へのエクスポートが大幅に簡素化され、エッジデプロイメントに極めて適しています。
使用例
Ultralytics 深くYOLOv10 、Ultralytics Python を通じて非常に簡単に利用できます。
from ultralytics import YOLO
# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Export the model to TensorRT format
model.export(format="engine", half=True)
DYOLO-YOLOの探求
アリババグループが開発したYOLO 、自動化されたニューラルアーキテクチャ検索(NAS)を通じて高効率なネットワーク構造の発見にYOLO 、速度と精度のパレートフロンティアを推進することを目指している。
DAMO-YOLOの詳細:
- 著者:徐賢哲、江一琪、陳偉華、黄一倫、張元、孫秀宇
- 組織:アリババグループ
- 日付: 2022年11月23日
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:YOLO
主要なアーキテクチャ機能
YOLO 産業用途向けに特化した複数の新規YOLO 。本モデルの基盤となるのは、多目的進化探索により生成されたMAE-NASバックボーンである。この自動化プロセスは、事前定義された計算リソース制限を厳密に遵守しつつ、精度と推論遅延の微妙なバランスを実現するバックボーン構造を発見する。
さらに、このアーキテクチャは効率的なRepGFPNネックを採用している。この特徴ピラミッドネットワークは、異なるスケール間での特徴融合を改善するよう設計されており、物体のサイズが劇的に異なる航空画像解析のような複雑なタスクにおいて極めて重要である。これを補完するため、YOLO はZeroHeadYOLO 。これは最小限の検出ヘッドであり、最終予測層の複雑さを大幅に削減し、推論時の貴重な計算時間を節約する。
パフォーマンス比較
物体検出アーキテクチャを評価する際には、推論速度、パラメータ効率、検出精度間の適切なトレードオフを見出すことが極めて重要である。下表は、YOLO 各モデルYOLO 性能を比較したものである。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
ベンチマークで確認されたように、TensorRT YOLOv10 優れたレイテンシ特性を示し、特にnanoバリアントYOLOと比較してパラメータ数とFLOPsを大幅に削減しています。mAP YOLO 、YOLOv10 パラメータ効率と推論レイテンシは、制約のあるデプロイ環境において明確な優位性を提供します。
ユースケースと推奨事項
YOLO YOLOv10 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムの選YOLO 。
YOLOv10を選択すべき時
YOLOv10 以下に最適YOLOv10 :
- NMSリアルタイム検出:ノンマキシマム抑制なしのエンドツーエンド検出により、導入の複雑さを軽減するアプリケーション。
- 速度と精度のバランスの取れたトレードオフ:様々なモデル規模において、推論速度と検出精度との強力なバランスを必要とするプロジェクト。
- 一貫したレイテンシを必要とするアプリケーション:予測可能な推論時間が極めて重要な展開シナリオ(例:ロボティクスや自律システム)。
DAMO-YOLOを選択するタイミング
YOLO 以下の方におすすめYOLO :
- 高スループット動画解析:固定NVIDIA GPU 上で高FPS動画ストリームを処理し、バッチ1スループットを主要指標とする。
- 産業用製造ライン:専用ハードウェア上でGPU 厳しい制約があるシナリオ。例:組立ラインにおけるリアルタイム品質検査。
- ニューラルアーキテクチャ探索研究:自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンが検出性能に及ぼす影響の検討。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
Ultralyticsの利点
両モデルとも技術的には優れていますが、本番環境向けのアーキテクチャを選択する際には、単純な指標以上の要素を考慮する必要があります。Ultralytics がネイティブにサポートするモデルで構築することは、開発者と研究者の双方にとって比類のない利点をもたらします。
使いやすさと整備されたエコシステム
単独の学術リポジトリが放棄されるケースが多いのとは異なり、Ultralytics 堅牢で積極的に維持管理されるエコシステムUltralytics 。NASパイプラインに大きく依存するモデルの複雑な環境構築は困難を伴います。これに対しUltralytics 、標準化された直感的なPython 強力なCLI Ultralytics 、豊富なドキュメントでサポートされています。これによりカスタムビジョンソリューションの市場投入までの時間を大幅に短縮します。
トレーニング効率とメモリ要件
大規模モデルのトレーニングは、計算コストが急速に高くなる傾向があります。Ultralytics YOLO 、トレーニング時およびCUDA 使用量が少ないことで知られています。この効率性により、開発者はコンシューマー向けハードウェアやコスト効率の良いクラウドインスタンス上でモデルをトレーニングでき、Transformerベースのモデル(例: RT-DETRなどのトランスフォーマーベースのモデルでよくあるメモリ不足エラーに遭遇することなく、モデルをトレーニングできます。
実験追跡
Ultralytics 主要なMLOpsツールとUltralytics 連携します。以下のツールとの連携により、モデルトレーニングtrack 進捗track 簡単にtrack できます。 Weights & Biases、 Comet、または ClearML を追加の定型コードを一切追加せずに実装できます。
タスクを横断する汎用性
多くの特化型検出モデルの大きな制約は、その焦点が狭く限定されている点です。Ultralytics 内では、単なる物体検出に限定されることはありません。これらのツールはシームレスに複数のコンピュータビジョンタスクへ拡張され、インスタンスセグメンテーション、画像分類、姿勢推定、方向付き境界ボックス(OBB)検出などを含みます。
展望:YOLO26の進化
YOLOv10 NMS推論YOLOv10 、YOLO NASのYOLO 一方で、コンピュータビジョン分野は急速に進化しています。究極の最先端ソリューションを求める開発者には、Ultralytics 導入を検討されることをお勧めします。
決定版の後継機としてリリースされた YOLO11としてリリースされたYOLO26は、YOLOv10 が築いたNMS基盤をYOLOv10 発展させYOLOv10 大幅な進化を遂げている。
YOLO26の主な進歩は以下の通りです:
- 最大43%CPU :エッジコンピューティングと低消費電力デバイス向けに特別に最適化されています。
- DFLの削除:ディストリビューション・フォーカル・ロス(Distribution Focal Loss)が削除され、エクスポートの簡素化と多様なデプロイ先との互換性向上が図られました。
- MuSGDオプティマイザー: SGD ミューオンのハイブリッド手法。高度なLLMトレーニングの安定性と高速収束を、コンピュータビジョンに直接導入します。
- ProgLoss + STAL:損失関数を大幅に改良し、農業やリモートセンシングなどのユースケースに不可欠な微小物体認識において顕著な性能向上を実現。
刷新Ultralytics を活用することで、開発者はわずか数クリックでYOLO26のような次世代モデルの注釈付け、トレーニング、デプロイをシームレスに行え、コンピュータビジョンパイプラインが最先端かつ将来性のある状態を維持します。