Skip to main content

YOLOv10: リアルタイム・エンドツーエンド物体検出

2024年5月にリリースされ、Ultralytics Python パッケージの研究者らによって構築されたYOLOv10は、清華大学リアルタイム物体検出に対する新しいアプローチを導入し、これまでのYOLOバージョンで見られた後処理とモデルアーキテクチャの欠点に対処しています。非最大値抑制(NMS)を排除し、さまざまなモデルコンポーネントを最適化することで、YOLOv10はリリース当時、計算オーバーヘッドを大幅に削減しつつ優れたパフォーマンスを達成しました。そのNMSフリーのエンドツーエンド設計は、YOLO26.

NMSフリー学習のためのYOLOv10一貫した二重割り当て



Watch: How to Train YOLOv10 on SKU-110k Dataset using Ultralytics | Retail Dataset

概要

リアルタイム物体検出は、画像内の物体カテゴリと位置を低遅延で正確に予測することを目的としています。YOLOシリーズは、パフォーマンスと効率のバランスの良さから、この研究の最前線に立ってきました。しかし、NMSへの依存とアーキテクチャの非効率さが、最適なパフォーマンスを妨げてきました。YOLOv10は、一貫した二重割り当てをNMSフリーの学習のために導入し、全体的な効率と精度を重視したモデル設計戦略によってこれらの問題に対処しています。

アーキテクチャ

YOLOv10のアーキテクチャは、以前のYOLOモデルの強みを活かしつつ、いくつかの重要な革新を導入しています。モデルアーキテクチャは以下のコンポーネントで構成されています。

  1. バックボーン: 特徴抽出を担うYOLOv10のバックボーンは、CSPNet(Cross Stage Partial Network)の強化版を使用しており、勾配フローを改善し、計算の冗長性を削減しています。
  2. ネック: ネックは、異なるスケールの特徴を集約してヘッドに渡すように設計されています。効果的なマルチスケール特徴融合のためにPAN(Path Aggregation Network)レイヤーが含まれています。
  3. : 従来のYOLO出力を生成し、NMS後処理を必要とします。: 学習中に物体ごとに複数の予測を生成し、豊富な教師信号を提供して学習精度を向上させます。
  4. One-to-Oneヘッド: 推論中に物体ごとに最適な予測を1つだけ生成することでNMSの必要性を排除し、それにより遅延を減らし効率を向上させます。

主な機能

  1. NMSフリー学習: 一貫した二重割り当てを利用してNMSの必要性を排除し、推論遅延.
  2. を削減します。全体的なモデル設計
  3. : 軽量な分類ヘッド、空間チャネル分離ダウンサンプリング、ランクガイド付きブロック設計など、効率と精度の両観点からさまざまなコンポーネントを包括的に最適化しています。拡張されたモデル機能: 大規模カーネル畳み込み

および部分的な自己注意モジュールを組み込み、計算コストを大幅に増やすことなくパフォーマンスを向上させます。

モデルバリエーション

  • YOLOv10には、さまざまなアプリケーションのニーズに対応するための多様なモデルスケールがあります。YOLOv10n
  • : 極めてリソースが制限された環境向けのNanoバージョン。YOLOv10s
  • : 速度と精度のバランスをとったSmallバージョン。YOLOv10m
  • : 汎用向けのMediumバージョン。YOLOv10b
  • : 幅を広げて精度を向上させたバランス型バージョン。YOLOv10l
  • : 計算リソースの増加と引き換えに精度を高めたLargeバージョン。YOLOv10x

パフォーマンス

: 最大限の精度とパフォーマンスを実現するExtra-largeバージョン。YOLOv10は、精度と効率の面で以前のYOLOバージョンや他の最先端モデルを上回ります。例えば、YOLOv10sはCOCOデータセットにおいて、同等のAPでRT-DETR-R18よりも1.8倍高速であり、YOLOv10bはYOLOv9-C

パフォーマンス

と比較して、同じ性能で遅延が46%少なく、パラメータ数が25%削減されています。

モデル遅延はT4 GPU上でTensorRT FP16を使用して測定されました。APval入力サイズFLOPs (G)
遅延 (ms)640[YOLOv10n][1]6.738.5
1.84640[YOLOv10s][2]46.321.6
2.49640[YOLOv10m][3]51.159.1
4.7464052.5[YOLOv10b][4]92.0
5.7464053.2[YOLOv10l][5]120.3
7.2864054.4[YOLOv10x][6]160.4

10.70

手法

NMSフリー学習のための二重割り当ての一貫性推論.

YOLOv10は、学習中にone-to-manyとone-to-oneの戦略を組み合わせた二重ラベル割り当てを採用し、豊富な教師信号と効率的なエンドツーエンドのデプロイを確実にしています。一貫したマッチング指標により両戦略間の教師信号が整合され、推論中の予測品質が向上します。全体的な効率・精度を重視したモデル設計

効率の向上

  1. 軽量な分類ヘッド: 深さ方向分離畳み込み(Depth-wise separable convolutions)を使用することで、分類ヘッドの計算オーバーヘッドを削減します。
  2. 空間チャネル分離ダウンサンプリング: 空間縮小とチャネル変調を分離することで、情報損失と計算コストを最小限に抑えます。
  3. ランクガイド付きブロック設計: ステージ固有の冗長性に基づいてブロック設計を適応させ、最適なパラメータ活用を実現します。

精度の向上

  1. 大規模カーネル畳み込み:受容野を拡大し、特徴抽出能力を強化します。
  2. 部分的な自己注意(PSA): 自己注意モジュールを組み込み、最小限のオーバーヘッドでグローバルな表現学習を向上させます。

実験と結果

YOLOv10は、COCOのような標準的なベンチマークで広範囲にテストされており、優れたパフォーマンスと効率を実証しています。モデルはさまざまなバリエーションで最先端の結果を達成しており、以前のバージョンや他の現代的な検出器と比較して、遅延と精度の面で大幅な改善が見られます。

比較

SOTA物体検出器とのYOLOv10の比較

他の最先端の検出器との比較:

  • YOLOv10s / xは、同等の精度でRT-DETR-R18 / R101よりも1.8倍 / 1.3倍高速です。
  • YOLOv10bは、同じ精度においてYOLOv9-Cよりもパラメータ数が25%少なく、遅延が46%低減されています。
  • YOLOv10l / xは、YOLOv8l / xを上回ります。0.3 AP / 0.5 AP 向上し、パラメータ数が 1.8倍 / 2.3倍 削減されています。
パフォーマンス

以下は、YOLOv10の各バリエーションと他の最先端モデルとの詳細な比較です。

モデルParams
(M)
FLOPs
(G)
mAPval
50-95
Latency
(ms)
Latency-forward
(ms)
YOLOv6-3.0-N4.711.437.02.691.76
Gold-YOLO-N5.612.139.62.921.82
YOLOv8n3.28.737.36.161.77
YOLOv10には、さまざまなアプリケーションのニーズに対応するための多様なモデルスケールがあります。2.36.739.538.51.79
YOLOv6-3.0-S18.545.344.33.422.35
Gold-YOLO-S21.546.045.43.822.73
YOLOv8s11.228.644.97.072.33
: 極めてリソースが制限された環境向けのNanoバージョン。7.246.346.821.62.39
YOLOv10は、精度と効率の面で以前のYOLOバージョンや他の最先端モデルを上回ります。例えば、YOLOv10sはCOCOデータセットにおいて、同等のAPで20.060.046.54.584.49
YOLOv6-3.0-M34.985.849.15.634.56
Gold-YOLO-M41.387.549.86.385.45
YOLOv8m25.978.950.69.505.09
: 速度と精度のバランスをとったSmallバージョン。15.451.151.359.14.63
YOLOv6-3.0-L59.6150.751.89.027.90
Gold-YOLO-L75.1151.751.810.659.78
YOLOv8l43.7165.252.912.398.06
RT-DETR-R5042.0136.053.19.209.07
: 幅を広げて精度を向上させたバランス型バージョン。24.4[YOLOv10l][5]53.4120.37.21
YOLOv8x68.2257.853.916.8612.83
RT-DETR-R10176.0259.054.313.7113.58
: 計算リソースの増加と引き換えに精度を高めたLargeバージョン。29.5[YOLOv10x][6]54.4160.410.60

ParamsおよびFLOPsの値は、以下の実行後のフュージョンモデルのものです。model.fuse()、これはConv層とBatchNorm層を統合し、補助的なone-to-many検出ヘッドを削除するものです。事前学習済みチェックポイントは完全な学習アーキテクチャを保持しており、カウント数がより多くなる場合があります。

使用例

YOLOv10を使用して新しい画像を予測します。モデルは、クラウド GPU 上で学習させることも可能です。Ultralytics Platform:

from ultralytics import YOLO

# Load a pretrained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform object detection on an image
results = model("image.jpg")

# Display the results
results[0].show()

カスタムデータセットで YOLOv10 を学習させるには:

from ultralytics import YOLO

# Load YOLOv10n model from scratch
model = YOLO("yolov10n.yaml")

# Train the model
model.train(data="coco8.yaml", epochs=100, imgsz=640)

サポートされているタスクとモード

YOLOv10 モデルシリーズは、それぞれが高性能向けに最適化された一連のモデルを提供しています物体検出。これらのモデルは、多様な計算ニーズや精度要件に対応しており、幅広いアプリケーションに対して汎用的に使用できます。

モデルファイル名タスクInferenceバリデーショントレーニングエクスポート
YOLOv10yolov10n.pt yolov10s.pt yolov10m.pt yolov10l.pt yolov10x.pt物体検出

YOLOv10 のエクスポート

YOLOv10 で導入された新しい操作のため、Ultralytics が提供するすべてのエクスポート形式が現在サポートされているわけではありません。以下の表は、YOLOv10 において Ultralytics を使用して正常に変換できた形式を示しています。もし追加の形式のエクスポートサポートを追加するための貢献の変更が可能であれば、お気軽にプルリクエストを送ってください。

エクスポート形式エクスポートサポートエクスポートされたモデルの推論備考
TorchScript標準の PyTorch モデル形式。
ONNXデプロイメント用に広くサポートされています。
OpenVINOIntel ハードウェア向けに最適化されています。
TensorRTNVIDIA GPU 向けに最適化されています。
CoreMLAppleデバイスに限定されています。
TF SavedModelTensorFlowの標準モデルフォーマットです。
TF GraphDef従来のTensorFlowフォーマットです。
TF Liteモバイルおよび組み込み向けに最適化されています。
TF Edge TPUGoogleのEdge TPUデバイス専用です。
TF.jsブラウザで使用するためのJavaScript環境です。
PaddlePaddle中国で普及していますが、グローバルなサポートは限定的です。
NCNNレイヤー torch.topk が存在しないか、登録されていません

結論

YOLOv10は、これまでのYOLOバージョンの欠点に対処し、革新的な設計戦略を取り入れることで、リアルタイム物体検出における新しい標準を確立しました。そのNMSフリーのアプローチは、YOLOファミリーにおけるエンドツーエンド物体検出の先駆けとなりました。パフォーマンスが向上し、NMSフリーの推論を実現した最新のUltralyticsモデルについては、YOLO26.

引用および謝辞

私たちは、清華大学のYOLOv10の著者らが、Ultralyticsフレームワークに対して行った広範な研究と多大な貢献に敬意を表します:

引用
@article{THU-MIGyolov10,
  title={YOLOv10: Real-Time End-to-End Object Detection},
  author={Ao Wang, Hui Chen, Lihao Liu, et al.},
  journal={arXiv preprint arXiv:2405.14458},
  year={2024},
  institution={Tsinghua University},
  license = {AGPL-3.0}
}

詳細な実装、アーキテクチャの革新、および実験結果については、YOLOv10の研究論文GitHubリポジトリ(清華大学チーム著)をご参照ください。

FAQ

YOLOv10とは何ですか?また、従来のYOLOバージョンとどのように異なりますか?

YOLOv10は、清華大学の研究者によって開発され、リアルタイム物体検出にいくつかの重要な革新をもたらしました。トレーニング中に一貫した二重割り当てを採用し、モデルコンポーネントを最適化することで、計算オーバーヘッドを削減しながら優れたパフォーマンスを発揮し、非最大値抑制(NMS)の必要性を排除しました。そのアーキテクチャと主要な機能の詳細については、YOLOv10の概要 セクションを参照してください。

YOLOv10を使用して推論を実行するにはどうすればよいですか?

簡単な推論のために、Ultralytics YOLO Pythonライブラリまたはコマンドラインインターフェース(CLI)を使用できます。以下は、YOLOv10を使用して新しい画像を予測する例です:

from ultralytics import YOLO

# Load the pretrained YOLOv10n model
model = YOLO("yolov10n.pt")
results = model("image.jpg")
results[0].show()

その他の使用例については、当社の使用例 セクションを参照してください。

YOLOv10にはどのようなモデルバリエーションがあり、それぞれのユースケースは何ですか?

YOLOv10は、さまざまなユースケースに対応するためにいくつかのモデルバリエーションを提供しています:

  • YOLOv10には、さまざまなアプリケーションのニーズに対応するための多様なモデルスケールがあります。: リソースが極めて制限された環境に適しています
  • : 極めてリソースが制限された環境向けのNanoバージョン。: 速度と精度のバランスが取れています
  • : 速度と精度のバランスをとったSmallバージョン。: 汎用的な用途
  • : 汎用向けのMediumバージョン。: 幅を広げることで精度を向上
  • : 幅を広げて精度を向上させたバランス型バージョン。: 計算リソースを消費する代わりに高い精度を実現
  • : 計算リソースの増加と引き換えに精度を高めたLargeバージョン。: 最大限の精度とパフォーマンス

各バリエーションは、異なる計算ニーズと精度要件に合わせて設計されており、多様なアプリケーションに対応できる汎用性を備えています。および部分的な自己注意モジュールを組み込み、計算コストを大幅に増やすことなくパフォーマンスを向上させます。 セクションを参照してください。

YOLOv10のNMSフリーのアプローチは、どのようにパフォーマンスを向上させますか?

YOLOv10は、トレーニング時に一貫した二重割り当てを採用することで、推論中の非最大値抑制(NMS)の必要性を排除します。このアプローチは、推論のレイテンシを削減し、予測効率を向上させます。また、アーキテクチャには推論用に1対1のヘッドが含まれており、各オブジェクトに対して最適な予測が一つだけ行われることを保証します。詳細については、手法 セクションを参照してください。

YOLOv10モデルのエクスポートオプションはどこで確認できますか?

YOLOv10は、TorchScript、ONNX、OpenVINO、TensorRTなど、いくつかのエクスポート形式をサポートしています。ただし、YOLOv10の新しい操作の性質上、Ultralyticsが提供するすべてのエクスポート形式が現在YOLOv10でサポートされているわけではありません。サポートされている形式の詳細およびエクスポートの手順については、YOLOv10 のエクスポート セクションを参照してください。

YOLOv10モデルのパフォーマンスベンチマークはどのようになっていますか?

YOLOv10は、精度と効率の両面で、以前のYOLOバージョンや他の最先端モデルを凌駕します。例えば、YOLOv10sは、COCOデータセットにおいて、同等のAPでRT-DETR-R18よりも1.8倍高速です。YOLOv10bは、同等のパフォーマンスでYOLOv9-Cよりもレイテンシが46%低く、パラメータ数が25%少なくなっています。詳細なベンチマークは、比較 セクションを参照してください。

コメント