RT-DETRv2 2とYOLOv10：物体検出の技術比較

最適な物体検出モデルを選択するには、進化するアーキテクチャのランドスケープをナビゲートする必要があり、そこでは精度、レイテンシ、リソース消費のトレードオフが、与えられたアプリケーションに最適なものを決定する。この技術比較では RT-DETRv2高精度タスク用に設計されたトランスフォーマーベースのモデルである YOLOv10YOLO 分析する。アーキテクチャの革新性、性能指標、および配備特性を検証することで、開発者の特定のニーズに最適なソリューションを導き出すことを目的としています。

RT-DETRv2：最適化されたヴィジョン・トランスフォーマー

RT-DETRv2RT-DETRv2は、CNNベースの検出器の優位性に挑戦するために開発されたReal-Time Detection Transformerシリーズの重要なイテレーションである。Baiduの研究者により開発されたこのモデルは、「Bag-of-Freebies（フリービーバッグ）」を組み込むことで、追加の推論コストを発生させることなく、学習の安定性と性能を向上させている。

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織百度
日付:2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub：https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch

RT-DETRの詳細について。

アーキテクチャーと強み

RT-DETRv2 、ハイブリッドエンコーダとスケーラブルなVision Transformer（ViT）バックボーンを活用している。局所的な受容野を使用して画像を処理する従来の畳み込みニューラルネットワーク（CNN）とは異なり、トランスフォーマーアーキテクチャは、グローバルなコンテキストをキャプチャするために自己注意メカニズムを利用します。これにより、このモデルは遠くの物体間の関係を効果的に識別し、複雑なオクルージョンを処理することができる。v2」の改良点は、動的なクエリー選択の最適化と、ユーザーが速度と精度のバランスを微調整できる柔軟な学習ストラテジーの導入に重点が置かれている。

効果的ではあるが、このアーキテクチャは本質的にかなりの計算資源を必要とする。自己アテンション層は強力ではあるが、純粋なCNNベースの代替案と比較すると、学習時と推論時のメモリ消費量が多くなる。

YOLOv10：リアルタイム効率化のスタンダード

YOLOv10YOLOv10は、NMSトレーニング戦略と、効率と精度を追求した全体的な設計を導入することで、You Only Look Onceパラダイムの限界を押し広げます。清華大学の研究者によって開発されたYOLOv10は、競争力のある検出性能を維持しながら、待ち時間を最小限に抑えるよう特別に設計されている。

著者: Ao Wang, Hui Chen, Lihao Liu, et al.
組織清華大学
Date: 2024-05-23
Arxiv:https://arxiv.org/abs/2405.14458
GitHub：https://github.com/THU-MIG/yolov10

YOLOv10もっと知る

アーキテクチャーと強み

YOLOv10 特徴は、一貫性のあるデュアル割り当て戦略によって、非最大抑制（NMS）を排除していることです。従来のオブジェクト検出器では、1つのオブジェクトに対して複数のバウンディングボックスを予測することが多く、重複をフィルタリングするためにNMS 後処理が必要でした。このステップは推論レイテンシのボトルネックとなります。YOLOv10 この要件を取り除き、真のエンド・ツー・エンドの展開を可能にします。

さらに、このアーキテクチャは、空間チャネル分離ダウンサンプリングとランクガイド付きブロック設計を特徴としており、パラメータ数とFLOP（浮動小数点演算）を大幅に削減している。これにより、YOLOv10 非常に軽量になり、エッジAIデバイスのようなリソースに制約のある環境に適しています。

NMS推論

NMS 削除することは、リアルタイムアプリケーションにとって画期的なことです。展開パイプラインの複雑さを軽減し、シーン内で検出されるオブジェクトの数に関係なく、推論時間が決定論的であり続けることを保証する。

パフォーマンス分析

2つのモデルを直接比較すると YOLOv10は、速度と精度のバランスにおいて、特に性能スペクトルの高い方で、優れた能力を示しています。RT-DETRv2 強力な結果を示す一方で、YOLOv10 一貫してより低いレイテンシを達成し、同等以上のmAP （平均平均精度）を得るために必要なパラメータも少なくなっています。

下の表は、COCO データセットのパフォーマンスメトリクスのハイライトです。注目すべきは、YOLOv10xが RT-DETRv2精度（54.4%対54.3%）で上回る一方で、大幅に高速化（12.2ms対15.03ms）し、必要なパラメータ（56.9M対76M）も大幅に少なくなっていることです。

モデル	サイズ ^{(ピクセル)}	mAP^値 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

スピードと効率

YOLOv10アーキテクチャー効率は、すべてのスケールで明らかである。Nano（n）とSmall（s）のバリアントは、モバイルCPUやIoTデバイスに適した驚異的な推論速度を提供する。例えば、YOLOv10nはT4GPU上で1.56msで動作し、これは最小のRT-DETRv2 バリアントよりも大幅に高速です。

精度と計算の比較

RT-DETRv2 、トランスフォーマー・バックボーンを活用することで、特に小中規模のモデルサイズで高精度を実現しています。しかし、その代償として、FLOPとパラメータ数が大幅に増加します。YOLOv10 、このギャップを効率的に解消します。大型のYOLOv10 モデルは、より低い計算フットプリントを維持しながら、トランスフォーマーモデルと同等かそれ以上の精度を実現し、多様なハードウェアに対応できる汎用性を高めています。

トレーニング、ユーザビリティ、およびエコシステム

開発者にとっての決定的な差別化要因は、トレーニングとデプロイの容易さです。Ultralytics エコシステムは、YOLOv10ようなモデルでの作業を劇的に簡素化する統一インターフェースを提供します。

使いやすさ

RT-DETRv2 トレーニングには、複雑な設定ファイルやトランスフォーマーアーキテクチャに合わせた特定の環境設定が必要になることが多い。対照的に、YOLOv10 Ultralytics Python APIに直接統合されているため、ユーザーはわずか数行のコードでトレーニング、検証、推論を開始することができます。

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

メモリー要件

RT-DETRv2 ようなトランスフォーマーベースのモデルは、メモリを多く消費することが知られている。自己アテンション・メカニズムは、シーケンスの長さに応じて2次関数的にスケールするため、学習時のVRAM使用量が多くなる。最適化されたCNNアーキテクチャを持つYOLOv10、必要なCUDA メモリを大幅に削減し、より大きなバッチサイズの訓練や、より控えめなハードウェアの使用を可能にします。

整備されたエコシステム

Ultralyticsモデルを選択することで、堅牢なエコシステムへのアクセスが保証されます。これには、継続的なアップデート、広範なドキュメント、Ultralytics HUBのようなMLOpsツールや様々なエクスポート形式ONNX、TensorRT、CoreML）とのシームレスな統合が含まれます。このようなサポート体制は、プロジェクトを研究段階から生産段階に効率的に移行させる上で非常に貴重です。

理想的なユースケース

RT-DETRv2

学術研究： ビジョンタスクにおけるTransformerの能力を研究し、最先端の手法とのベンチマークを行うのに最適です。
ハイエンドサーバーの展開：ハードウェアリソースが豊富で、トランスフォームアテンションマップ特有の特性が有益なシナリオに適している（詳細な医療画像解析など）。

YOLOv10

リアルタイム・エッジAI：低レイテンシーと小さなモデルサイズにより、NVIDIA JetsonやRaspberry Piのようなエッジ・デバイスへの展開に最適で、トラフィック管理のようなタスクに適している。
ロボット工学 NMS設計は、自律型ロボットの制御ループに必要な決定論的レイテンシを提供する。
商用アプリケーション： 小売分析から安全監視まで、スピードと精度のバランスにより、ハードウェアコストを削減し、ROIを最大化します。

結論

一方 RT-DETRv2は、物体検出におけるトランスフォーマーの可能性を素晴らしい精度で示している、 YOLOv10は、実際のアプリケーションの大部分にとって、より実用的で汎用性の高い選択肢であることがわかります。その能力は、Ultralytics エコシステムによって提供される使いやすさと組み合わせることで、大幅に低い計算要求で最先端のパフォーマンスを提供することで、効率性とスケーラビリティを目指す開発者にとって優れたソリューションとなっています。

最新のコンピューター・ビジョン技術をお求めの方には、次の製品もお勧めします。 YOLO11は、セグメンテーションやポーズ推定など、より広範なタスクにおいて、より高速かつ高精度を実現するためにアーキテクチャをさらに改良しています。

その他のモデルを見る

これらの追加比較で、物体検出の状況について理解を深めてください：

RT-DETRv2 2とYOLOv10：物体検出の技術比較

RT-DETRv2：最適化されたヴィジョン・トランスフォーマー

アーキテクチャーと強み

YOLOv10：リアルタイム効率化のスタンダード

アーキテクチャーと強み

パフォーマンス分析

スピードと効率

精度と計算の比較

トレーニング、ユーザビリティ、およびエコシステム

使いやすさ

メモリー要件

整備されたエコシステム

理想的なユースケース

RT-DETRv2

YOLOv10

結論

その他のモデルを見る

コメント