コンテンツにスキップ

YOLOv10:リアルタイムエンドツーエンド物体検出

YOLOv10は Ultralytics清華大学の研究者によるPython パッケージ上に構築されたYOLO 10は、リアルタイムの物体検出に新しいアプローチを導入し、以前のYOLO バージョンに見られた後処理とモデル・アーキテクチャの両方の欠陥に対処しています。非最大抑制(NMS)を排除し、様々なモデル・コンポーネントを最適化することで、YOLOv10は、計算オーバーヘッドを大幅に削減しながら、最先端の性能を達成している。広範な実験により、複数のモデルスケールにわたって、その優れた精度とレイテンシーのトレードオフが実証されています。

NMSフリー学習のためのYOLOv10の一貫したデュアル割り当て



見る: Ultralyticsを使用してSKU-110kデータセットでYOLOv10をトレーニングする方法 | 小売データセット

概要

リアルタイム物体検出は、低遅延で画像内の物体のカテゴリと位置を正確に予測することを目的としています。YOLOシリーズは、性能と効率のバランスにより、この研究の最前線に立ってきました。しかし、NMSへの依存とアーキテクチャの非効率性が、最適な性能を妨げてきました。YOLOv10は、NMSフリーのトレーニングのための一貫性のあるデュアル割り当てと、全体的な効率と精度を重視したモデル設計戦略を導入することで、これらの問題に対処します。

アーキテクチャ

YOLOv10のアーキテクチャは、以前のYOLOモデルの強みを基盤として構築されており、いくつかの重要なイノベーションが導入されています。モデルアーキテクチャは、次のコンポーネントで構成されています。

  1. Backbone: 特徴抽出を担うバックボーンとして、YOLOv10ではCSPNet(Cross Stage Partial Network)の改良版を使用し、勾配の流れを改善し、計算の冗長性を低減します。
  2. ネック: ネックは、さまざまなスケールの特徴を集約し、ヘッドに渡すように設計されています。効果的なマルチスケール特徴融合のために、PAN(Path Aggregation Network)レイヤーが含まれています。
  3. One-to-Many Head: トレーニング中にオブジェクトごとに複数の予測を生成し、豊富な教師信号を提供し、学習精度を向上させます。
  4. One-to-One Head: 推論中にオブジェクトごとに単一の最適な予測を生成し、NMSの必要性を排除することで、レイテンシを削減し、効率を向上させます。

主な特徴

  1. NMSフリー学習: 一貫したデュアル割り当てを利用してNMSの必要性を排除し、推論レイテンシを削減します。
  2. 包括的なモデル設計: 軽量な分類ヘッド、空間チャネル分離ダウンサンプリング、ランクガイド付きブロック設計など、効率と精度の両方の観点からさまざまなコンポーネントを包括的に最適化。
  3. 強化されたモデル機能: 大きなカーネル畳み込みと部分的な自己注意モジュールを組み込むことで、計算コストを大幅に増加させることなくパフォーマンスを向上させます。

モデルのバリエーション

YOLOv10は、さまざまなアプリケーションのニーズに応えるために、多様なモデルスケールで提供されます。

  • YOLOv10n: 極めてリソースが限られた環境向けのナノバージョン。
  • YOLOv10s: 速度と精度のバランスを取った小型バージョン。
  • YOLOv10m: 汎用的な使用のためのミディアムバージョン。
  • YOLOv10b: より高い精度を実現するために幅を広げたバランスの取れたバージョン。
  • YOLOv10l: 計算リソースの増加を犠牲にして、より高い精度を実現する大規模バージョン。
  • YOLOv10x: 最大限の精度とパフォーマンスのための特大バージョン。

パフォーマンス

YOLOv10は、精度と効率の点で、以前のYOLOバージョンや他の最先端モデルを上回っています。たとえば、YOLOv10sは、COCOデータセットで同様のAPを持つRT-DETR-R18よりも1.8倍高速であり、YOLOv10bは、同じパフォーマンスでYOLOv9-Cよりも46%少ないレイテンシと25%少ないパラメータを備えています。

パフォーマンス

T4 GPU上でTensorRT FP16を使用して測定されたレイテンシ。

モデル入力サイズAPvalFLOPs (G)レイテンシ(ms)
YOLOv10n64038.56.71.84
YOLOv10s64046.321.62.49
YOLOv10m64051.159.14.74
YOLOv10b64052.592.05.74
YOLOv10l64053.2120.37.28
YOLOv10x64054.4160.410.70

方法論

NMSフリー学習のための一貫した二重割り当て

YOLOv10は、トレーニング中に1対多および1対1の戦略を組み合わせたデュアルラベル割り当てを採用し、豊富なスーパービジョンと効率的なエンドツーエンドのデプロイメントを保証します。一貫したマッチングメトリックは、両方の戦略間のスーパービジョンを調整し、推論中の予測の品質を向上させます。

全体的な効率-精度重視のモデル設計

効率の向上

  1. 軽量分類ヘッド: Depth-wise separable convolutionを使用することにより、分類ヘッドの計算オーバーヘッドを削減します。
  2. 空間チャネル分離ダウンサンプリング: 空間的な縮小とチャネル変調を分離して、情報の損失と計算コストを最小限に抑えます。
  3. ランクガイド付きブロック設計: 固有のステージ冗長性に基づいてブロック設計を調整し、最適なパラメーター利用を保証します。

精度向上

  1. 大規模カーネル畳み込み受容野を拡大し、特徴抽出能力を強化します。
  2. Partial Self-Attention (PSA): 最小限のオーバーヘッドでグローバルな表現学習を改善するために、self-attentionモジュールを組み込みます。

実験と結果

YOLOv10は、COCOなどの標準的なベンチマークで広範なテストが行われており、優れたパフォーマンスと効率を発揮しています。このモデルは、さまざまなバリアントで最先端の結果を達成し、以前のバージョンや他の現代的な検出器と比較して、レイテンシと精度が大幅に向上しています。

比較

YOLOv10とSOTAオブジェクト検出器との比較

他の最先端の検出器と比較して:

  • YOLOv10s / xは、RT-DETR-R18 / R101よりも精度が同程度であるにもかかわらず、1.8× / 1.3×高速です。
  • YOLOv10bは、同じ精度でYOLOv9-Cよりもパラメータが25%少なく、レイテンシが46%低くなっています。
  • YOLOv10l / xは、YOLOv8l / xよりもパラメータが1.8× / 2.3×少ないにもかかわらず、0.3 AP / 0.5 APだけ性能が優れています。

パフォーマンス

YOLOv10のバリアントと他の最先端モデルとの詳細な比較を以下に示します。

モデルParams
(M)
FLOPs
(G)
mAPval
50-95
レイテンシ
(ms)
レイテンシ-順方向
(ms)
YOLOv6-3.0-N4.711.437.02.691.76
Gold-YOLO-N5.612.139.62.921.82
YOLOv8n3.28.737.36.161.77
YOLOv10n2.36.739.51.841.79
YOLOv6-3.0-S18.545.344.33.422.35
Gold-YOLO-S21.546.045.43.822.73
YOLOv8s11.228.644.97.072.33
YOLOv10s7.221.646.82.492.39
RT-DETR-R1820.060.046.54.584.49
YOLOv6-3.0-M34.985.849.15.634.56
Gold-YOLO-M41.387.549.86.385.45
YOLOv8m25.978.950.69.505.09
YOLOv10m15.459.151.34.744.63
YOLOv6-3.0-L59.6150.751.89.027.90
Gold-YOLO-L75.1151.751.810.659.78
YOLOv8l43.7165.252.912.398.06
RT-DETR-R5042.0136.053.19.209.07
YOLOv10l24.4120.353.47.287.21
YOLOv8x68.2257.853.916.8612.83
RT-DETR-R10176.0259.054.313.7113.58
YOLOv10x29.5160.454.410.7010.60

使用例

YOLOv10で新しい画像を予測するには:

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform object detection on an image
results = model("image.jpg")

# Display the results
results[0].show()
# Load a COCO-pretrained YOLOv10n model and run inference on the 'bus.jpg' image
yolo detect predict model=yolov10n.pt source=path/to/bus.jpg

カスタムデータセットでYOLOv10をトレーニングするには:

from ultralytics import YOLO

# Load YOLOv10n model from scratch
model = YOLO("yolov10n.yaml")

# Train the model
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Build a YOLOv10n model from scratch and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolov10n.yaml data=coco8.yaml epochs=100 imgsz=640

# Build a YOLOv10n model from scratch and run inference on the 'bus.jpg' image
yolo predict model=yolov10n.yaml source=path/to/bus.jpg

サポートされているタスクとモード

YOLOv10モデルシリーズは、高性能物体検出用に最適化された様々なモデルを取り揃えています。これらのモデルは、さまざまな計算ニーズや精度要件に対応し、幅広いアプリケーションに対応します。

モデルファイル名タスク推論検証学習エクスポート
YOLOv10yolov10n.pt yolov10s.pt yolov10m.pt yolov10l.pt yolov10x.pt物体検出

YOLOv10のエクスポート

YOLOv10で導入された新しいオペレーションにより、Ultralyticsが提供するすべてのエクスポート形式が現在サポートされているわけではありません。次の表は、YOLOv10でUltralyticsを使用して正常に変換された形式の概要を示しています。YOLOv10の追加形式のエクスポートサポートを追加するためのコントリビューションの変更をプルリクエストで自由に提案してください。

エクスポート形式エクスポートのサポートエクスポートされたモデルの推論注記
TorchScript標準的なPyTorchモデル形式。
ONNXデプロイメントで広くサポートされています。
OpenVINOIntelハードウェア向けに最適化されています。
TensorRTNVIDIA GPU向けに最適化されています。
CoreMLApple デバイスに限定されます。
TF SavedModelTensorFlow の標準モデル形式。
TF GraphDef従来の TensorFlow 形式。
TF Liteモバイルおよび組み込み向けに最適化されています。
TF Edge TPUGoogleのEdge TPUデバイスに特有。
TF.jsブラウザで使用するための JavaScript 環境。
PaddlePaddle中国で人気があります。グローバルサポートは少なめです。
NCNNレイヤー torch.topk 存在しないか、登録されていません

結論

YOLOv10は、以前のYOLOバージョンの欠点に対処し、革新的な設計戦略を組み込むことで、リアルタイム物体検出の新しい標準を打ち立てます。低い計算コストで高い精度を実現できるため、製造小売自動運転車などの幅広い現実世界のアプリケーションに最適です。

引用と謝辞

清華大学の YOLOv10 の著者の方々の、Ultralytics フレームワークへの広範な研究と多大な貢献に感謝いたします。

@article{THU-MIGyolov10,
  title={YOLOv10: Real-Time End-to-End Object Detection},
  author={Ao Wang, Hui Chen, Lihao Liu, et al.},
  journal={arXiv preprint arXiv:2405.14458},
  year={2024},
  institution={Tsinghua University},
  license = {AGPL-3.0}
}

詳細な実装、アーキテクチャの革新、および実験結果については、Tsinghua UniversityチームによるYOLOv10の研究論文およびGitHubリポジトリを参照してください。

よくある質問

YOLOv10とは何ですか?また、以前のYOLOバージョンとどのように異なりますか?

清華大学の研究者によって開発されたYOLOv10は、リアルタイムオブジェクト検出にいくつかの重要な革新をもたらします。トレーニング中に一貫したデュアル割り当てを採用することでNon-Maximum Suppression(NMS)の必要性を排除し、計算オーバーヘッドを削減して優れたパフォーマンスを実現するためにモデルコンポーネントを最適化しました。アーキテクチャと主要機能の詳細については、YOLOv10の概要セクションをご覧ください。

YOLOv10を使用した推論の実行を開始するにはどうすればよいですか?

簡単な推論のために、Ultralytics YOLO pythonライブラリまたはコマンドラインインターフェース(CLI)を使用できます。以下は、YOLOv10を使用して新しい画像を予測する例です。

from ultralytics import YOLO

# Load the pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")
results = model("image.jpg")
results[0].show()
yolo detect predict model=yolov10n.pt source=path/to/image.jpg

その他の使用例については、使用例セクションをご覧ください。

YOLOv10 はどのモデルバリアントを提供し、それらのユースケースは何ですか?

YOLOv10は、さまざまなユースケースに対応するために、いくつかのモデルバリアントを提供しています。

  • YOLOv10n: 極めてリソースが限られた環境に適しています
  • YOLOv10s: 速度と精度のバランス
  • YOLOv10m: 汎用的な使用
  • YOLOv10b: 幅を広げて精度を向上
  • YOLOv10l: 計算リソースを犠牲にして高精度を実現
  • YOLOv10x: 最大限の精度とパフォーマンス

各バリアントは、さまざまな計算ニーズと精度要件に合わせて設計されており、さまざまなアプリケーションに汎用的に対応できます。詳細については、モデルバリアントセクションをご覧ください。

YOLOv10におけるNMSフリーのアプローチは、どのようにパフォーマンスを向上させますか?

YOLOv10は、学習に一貫したデュアル割り当てを採用することで、推論時のNon-Maximum Suppression(NMS)の必要性を排除します。このアプローチにより、推論の遅延が減少し、予測効率が向上します。このアーキテクチャには、推論用のOne-to-Oneヘッドも含まれており、各オブジェクトが単一の最適な予測を得られるようになっています。詳細な説明は、Consistent Dual Assignments for NMS-Free Trainingのセクションを参照してください。

YOLOv10モデルのエクスポートオプションはどこにありますか?

YOLOv10は、TorchScript、ONNX、OpenVINO、TensorRTを含むいくつかのエクスポート形式をサポートしています。ただし、Ultralyticsが提供するすべてのエクスポート形式が、新しいオペレーションのためにYOLOv10で現在サポートされているわけではありません。サポートされている形式とエクスポートの手順の詳細については、Exporting YOLOv10のセクションをご覧ください。

YOLOv10モデルのパフォーマンスベンチマークは何ですか?

YOLOv10は、精度と効率の両方において、以前のYOLOバージョンや他の最先端モデルを上回っています。たとえば、YOLOv10sは、COCOデータセットで同様のAPを持つRT-DETR-R18よりも1.8倍高速です。YOLOv10bは、同じパフォーマンスでYOLOv9-Cよりも46%少ないレイテンシと25%少ないパラメータを示しています。詳細なベンチマークは、比較セクションにあります。



📅作成:1年前 ✏️更新 5日前
glenn-jocherRizwanMunawarleonnilY-T-GLaughing-qMatthewNoyceUltralyticsAssistanthasanghaffari93zhixuweiabirami-vinaBurhan-Q

コメント