RTDETRv2 vsYOLOv10:NMSリアルタイム物体検出の進展

コンピュータビジョンの進化は、主に速度と精度のバランスを追求する不断の努力によって推進されてきた。従来、リアルタイム物体検出パイプラインでは、重複するバウンディングボックスを除去する後処理ステップとして非最大抑制（NMS）に依存してきた。NMS 遅延のボトルネックや複雑なハイパーパラメータ調整NMS 。近年、この問題を本質的に解決する2つの異なるアーキテクチャ手法が登場している：RTDETRv2のようなトランスフォーマーベースモデルと、YOLOv10CNNベースモデルである。

本ガイドでは、これら2つのモデルについて包括的な技術比較を行い、アーキテクチャ、パフォーマンス指標、最適なユースケースを分析するとともに、Ultralytics における最新のイノベーションが、現代的な導入環境における究極のソリューションをいかに提供しているかを明らかにします。

RTDETRv2: リアルタイム検出トランスフォーマー

RTDETRv2はオリジナルの RT-DETR アーキテクチャを基盤として構築され、ビジョントランスフォーマーのグローバルコンテキスト理解能力と、従来YOLO が支配してきたリアルタイム処理速度要件を融合させることを目指しています。

主な特徴:

著者：Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織：Baidu
日付: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub:RT-DETR

アーキテクチャとトレーニング手法

RTDETRv2は、NMS本質的に回避するエンドツーエンドのトランスフォーマーアーキテクチャを採用しています。前世代モデルから改良を加え、「Bag-of-Freebies」アプローチを導入し、トレーニング戦略を最適化するとともに、マルチスケール検出機能を組み込んでいます。本モデルはCNNバックボーンを用いて特徴マップ（エッジやテクスチャなどの視覚的詳細）を抽出し、それをトランスフォーマーのエンコーダ-デコーダ構造で処理します。これにより画像全体の文脈を同時に分析可能となり、物体が密集または重なり合う複雑なシーンの理解に極めて効果的です。

長所と短所

長所:

グローバルコンテキスト: attentionメカニズムにより、モデルは複雑で散らかった環境で優れた性能を発揮します。
NMSフリー: オブジェクト座標を直接予測し、デプロイパイプラインを簡素化します。
高精度: COCOデータセットで優れた平均平均精度 (mAP)を達成します。

弱点:

Resource Intensive:Transformerアーキテクチャは通常、CNNと比較してトレーニング中に著しく多くのCUDAメモリを必要とするため、標準的なハードウェアでのファインチューニングは高価になります。
推論速度の変動性: 高速であるものの、重いアテンション計算は、専用のAIアクセラレータを持たないエッジデバイスでのコンピュータービジョンにおけるFPSの低下につながる可能性があります。

RTDETRv2の詳細について。

YOLOv10: リアルタイムエンドツーエンド物体検出

YOLOv10 、CNNフレームワーク内で直接的に長年のNMS に対処することで、YOLO 検出の系譜において大きな転換点YOLOv10 。

主な特徴:

著者: Ao Wang, Hui Chen, Lihao Liu, et al.
組織：清華大学
日付: 2024-05-23
Arxiv: https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10

アーキテクチャとトレーニング手法

YOLOv10 核となる革新YOLOv10 NMSトレーニングを実現する一貫した二重YOLOv10 。トレーニング時には2つの検出ヘッドを採用する：豊富な監督信号を提供する1対多アサインメント（従来のYOLOと同様）と、NMS不要にする1対1アサインメントである。推論時には1対1ヘッドのみを使用し、エンドツーエンドのプロセスを実現する。さらに著者らは、効率性と精度を両立させる包括的なモデル設計戦略を採用し、計算上の冗長性を削減するため各構成要素を総合的に最適化した。

長所と短所

長所:

極限の速度: NMSを削除し、アーキテクチャを最適化することで、YOLOv10は驚くほど低い推論レイテンシーを実現します。
効率性: 他のモデルと同等の精度を達成するために、より少ないパラメータとFLOPsを必要とするため、制約のある環境に非常に適しています。
NMSフリーデプロイメント: スマート監視などのエッジアプリケーションへの統合を合理化します。

弱点:

第一世代のコンセプト: この特定のNMSフリーアーキテクチャを実装した最初のYOLOとして、基礎を築きましたが、YOLO11やYOLO26のような後続モデルに見られるマルチタスクの汎用性と最適化の余地を残しました。

YOLOv10について詳しくはこちら

パフォーマンス比較

モデルを本番環境で評価する際、精度と計算コストのバランスが極めて重要である。下表は、RTDETRv2とYOLOv10の各種サイズにおける性能トレードオフをまとめたものである。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

RTDETRv2は高い精度を提供する一方、YOLOv10 特に小型バリエーション（NanoおよびSmall）において、レイテンシとパラメータ効率の面で顕著な優YOLOv10 、エッジコンピューティングやAIoTアプリケーションにおいて非常に魅力的な選択肢となっている。

適切なスケールの選択

サーバーグレードのGPUにデプロイする場合、バッチサイズ VRAMの制約が少ない場合、より大きなモデル（例： -x または -l)は精度を最大化します。Raspberry Piや携帯電話のようなエッジデバイスでは、nano (-n)またはsmall (-s) バリアントでリアルタイムのフレームレートを維持するため。

ユースケースと推奨事項

RT-DETRとYOLOv10の選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステム設定に依存します。

RT-DETRを選択すべきタイミング

RT-DETR 以下に最適RT-DETR ：

トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。

YOLOv10を選択すべき時

YOLOv10 以下に推奨YOLOv10 ：

NMSフリーのリアルタイムdetect: Non-Maximum Suppressionなしのエンドツーエンドのdetectから恩恵を受け、デプロイの複雑さを軽減するアプリケーション。
速度と精度のバランスの取れたトレードオフ: さまざまなモデルスケールにおいて、推論速度と検出精度の強力なバランスを必要とするプロジェクト。
一貫したレイテンシが求められるアプリケーション: ロボット工学や自律システムなど、予測可能な推論時間が重要となるデプロイメントシナリオ。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

Ultralytics ：YOLO26のご紹介

YOLOv10 学術的に画期的な進歩YOLOv10 、実世界での展開には堅牢で適切に管理されたソフトウェアエコシステムが不可欠です。Ultralytics 、使いやすさ、充実したドキュメント、データアノテーションとデプロイのための強力なツールを組み合わせ、比類のない開発者体験を提供します。

2026年における絶対的な最先端を追求する開発者にとって、Ultralytics YOLO26は究極の推奨モデルです。これは両方のアーキテクチャから最高のアイデアを統合しつつ、画期的な改善を導入しています。

エンドツーエンドのNMSフリー設計: YOLOv10で開拓されたコンセプトに基づいて、YOLO26はNMS後処理をネイティブに排除し、より高速でシンプルなデプロイロジックとレイテンシのばらつきゼロを実現します。
DFLの削除: Distribution Focal Lossを削除することで、YOLO26はモデルのエクスポートを簡素化し、エッジデバイスおよび低電力デバイスとの互換性を大幅に向上させます。
MuSGDオプティマイザ: SGDとMuonのハイブリッド（LLMトレーニングの革新に触発された）であるこの新しいオプティマイザは、従来の方法と比較して、より安定したトレーニングと大幅に速い収束を提供します。
CPU推論が最大43%高速化: 専用GPUを持たない環境向けに綿密に最適化されており、高性能なビジョンAIを普及させます。
ProgLoss + STAL: これらの高度な損失関数は、ドローンを使用するアプリケーションやIoTセンサーにとって不可欠な小物体認識において、顕著な改善をもたらします。
比類ない汎用性: バウンディングボックスに限定されたモデルとは異なり、YOLO26はインスタンスsegment、姿勢推定、画像分類、obb detectを含む完全なタスクスイートをサポートしており、姿勢推定のためのResidual Log-Likelihood Estimation (RLE) のようなタスク固有の改善も完備しています。

YOLO26についてさらに詳しく

Pythonによるシームレスな実装

Ultralytics Python これらのモデルのトレーニングとデプロイは、摩擦なく行えるよう設計されています。トレーニング時のメモリ要件は、トランスフォーマーを多用するアーキテクチャと比較して著しく低く、標準的なハードウェア上で強力なモデルをトレーニングすることが可能です。

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)

セキュリティ警報システムの実装であれ、医療画像解析の実施であれ、活発Ultralytics が支援するモデルを選択すれば、成功に必要なツール、ハイパーパラメータ調整ガイド、継続的な更新が保証されます。YOLOv10 NMSキテクチャの道を開いた一方で、YOLO26はその手法を完成させ、性能、汎用性、実用性の面で最適なバランスを提供します。

RTDETRv2 vsYOLOv10:NMSリアルタイム物体検出の進展

RTDETRv2: リアルタイム検出トランスフォーマー

アーキテクチャとトレーニング手法

長所と短所

YOLOv10: リアルタイムエンドツーエンド物体検出

アーキテクチャとトレーニング手法

長所と短所

パフォーマンス比較

ユースケースと推奨事項

RT-DETRを選択すべきタイミング

YOLOv10を選択すべき時

Ultralytics YOLO26）を選択すべきタイミング

Ultralytics ：YOLO26のご紹介

Pythonによるシームレスな実装

コメント